Cos’è la Sentiment Analysis?

Spesso sento paragonare il web ad un enorme focus group. In verità è molto meglio di un focus group perché contiene opinioni espresse liberamente. Discorsi che, se ascoltati, possono essere di enorme valore per le aziende. Per far ciò bisogna avvalersi di software in grado di recuperare, comprendere e classificare i messaggi lasciati in rete. Due gli approcci possibili: machine learning e rule based.

Il primo fa uso di algoritmi di apprendimento in grado di estrarre informazioni utili da dati di dominio. Il secondo, che usiamo in BlogMeter, si basa sull’utilizzo di regole. Il processo di comprensione automatica si articola in tre fasi:

1. l’analisi di porzioni di testo come sintagmi (“con cura”, ”incazzato nero”, ”mancanza di rispetto”), espressioni multiparola (“fare acqua”, ”dalla padella alla brace”, ”parlare alle spalle”), parole singole (“gioire”), modi di dire (“toccare il cielo con un dito”) e indicatori testuali come la punteggiatura e l’ortografia;

2. l’estrazione del mood positivo e negativo dai messaggi (tecnicamente detti documenti) analizzati

3. la classificazione dei documenti secondo una polarità positiva, negativa o mixed. Al calcolo della polarità il motore semantico associa, inoltre, un punteggio che descrive l’intensità con cui l’opinione è espressa nel documento (High, Medium, Low).

Sentiment Analysis Workflow

Il processo di analisi automatica delle porzioni di testo sfrutta due principali risorse linguistiche:

- sentiment lexicon cioè lessici ad ampia copertura di singole parole e multi word unit arricchiti con informazioni relative alla loro valenza positiva o negativa e all’emozione che trasmettono. Inoltre, sempre all’interno di questa risorsa vengono trattati gli annullamenti di polarità in contesti linguistici particolari (“piacere” in “per piacere”,”lordo” in “prodotto interno lordo” o “salario lordo”, “straordinario” in “riunione straordinaria” o “apertura straordinaria”, “mortale” in “salto mortale”,);

- regole sintattico-semantiche per la composizione delle espressioni di sentiment (“il loro sporco profitto”, ”era una persona riprovevole”, ”la sua volgarissima esibizione di strafottenza”), per il trattamento di fenomeni linguistici come la negazione (“non mi sento bene”) e la quantificazione (“mi sento poco bene”), per l’identificazione di domande e comparazioni (“x è più bello di y”), per il cambiamento di polarità delle espressioni in determinati contesti (“aumento dei prezzi”, “diminuzione dei prezzi”), ecc.

Di questi temi abbiamo parlato con Maria Petrescu di Intervistato.com nell’intervista che segue. Qui la versione breve.

  • Cesare

    Post interessantissimo, uno sguardo sul futuro della ricerca di marketing.
    Non sono molto d’accordo con l’affermazione che l’analisi delle conversazioni online sia meglio di un focus group. E’ una cosa diversa, nonostante si possano ricavare insight molto preziosi.
    I focus group sono guidati da un ricercatore che si relaziona “dal vivo” con gli intervistati, che a loro volta si relazionano tra loro con modalità che non hanno niente a che vedere con l’interazione online. Si possono esplorare in profondità alcune rappresentazioni e aspetti psicologici delle persone.
    Inoltre i FG possono essere di vario tipo: da quelli più classici ai gruppi ideativi in cui si fa fare alle persone delle attività, come i collage o dei giochi, attraverso i quali si ottengono informazioni su aspetti non razionali etc…

    • vincos

      hai ragione Cesare, il mio meglio era riferito al fatto di avere opinioni non sollecitate. Invece per altri obiettivi i focus group possono essere utilissimi. Sicuramente non si sovrappongono o sostituiscono all’analisi delle conversazioni in rete.

  • Pingback: Cos'è la Sentiment Analysis? | Vincos Blog | pmi - small office | Scoop.it

  • Pingback: Cos'è la Sentiment Analysis? | Vincos Blog | Internazionalizzazione 2.0 | Scoop.it

  • http://twitter.com/andreavit Andrea Vit

    Personalmente non sono per niente d’accordo sull’analisi automatica del sentiment senza un controllo ed un intervento umano.

    1) Molto spesso un singolo contenuto va letto ed interpretato per capirne il senso.

    L’analisi lessicale-sintattico-semantica-iperevoluta è IMHO soltanto un tentativo di automatizzare il non automatizzabile.
    Pensiamo ad esempio ad un articolo di giornale che espone punti di vista diversi (sia positivi che negativi), oppure ad un video, piuttosto che delle immagini ironiche (stile vignette) senza commenti o con didascalie criptiche.

    2) l’interpretazione del sentiment dipende dalla sensibilità del management di un’azienda.

    Facciamo un altro caso: un’azienda ha una riorganizzazione interna e licenzia 20 persone. Non ci sono lamentele, non ci sono incazzature, non ci sono commenti negativi.
    Quella notizia sicuramente non mette in luce degli aspetti positivi di un’azienda poichè si evidenzia che è in difficoltà…che sentiment ha quel post?
    IMHO dipende dal management e da come la direzione dell’azienda lo interpreta: potrebbe essere neutro o negativo…

    Per concludere, soltanto con il controllo e la lettura umana si può capire realmente il sentiment di un contenuto e darne una visione coerente con quella del management di un’azienda. Certo costa, ma in molti casi ne vale davvero la pena per avere un focus group di livello. (e in molti casi costerebbe ugualmente meno di un focus group :-) )

    • vincos

      Ciao Andrea, sono d’accordo, non intendevo sostenere che bisogna usare l’analisi automatica del sentiment in toto (come dico nel video). Ma se sei un’azienda che deve analizzare oltre 100.000 messaggi al mese hai bisogno di un aiuto automatico. Che poi dev’essere vigilato e corretto, nel caso, da analista.

      • http://twitter.com/andreavit Andrea Vit

        Ciao Vincenzo, grazie della risposta.

        La domanda è: quante sono le aziende con 100k mentions? Forse lo 0,000001% del panorama italiano? Forse però sono le più disposte a investire (o le uniche?).
        Aggiungo una considerazione: potrebbe esserci una distinzione tra l’analisi del sentiment quantitativa (di scenario) e qualitativa (su un brand/prodotto/feature di prodotto).
        IMHO se si parla di focus group siamo più vicini alla qualitativa (dove l’analisi di ogni contenuto è fondamentale – non a campione), se si parla di analisi di mercato ci avviciniamo un po’ più alla quantitativa dove l’errore sul singolo contenuto è più trascurabile.

        • vincos

          Le 100K mention al mese sono appunto, spesso, di scenario. Le aziende più evolute hanno bisogno di tenere sotto controllo il proprio settore. Solitamente chi deve monitorare pochi messaggi si affida ad una lettura manuale, chi ne ha tanti ad un misto delle due tecniche.

  • Fabio

    Molto interessante questo campo, devo dire che la cosa mi interessa molto. A che livello riuscite ad arrivare nell’analisi del “sentiment”? Si riesce solo a dire positivo/negativo, o c’è la possibilità di scendere nel dettaglio?

  • Pingback: Cose che BuzzFeed Può Insegnare ai Giornali | Il Giornalaio

  • Pingback: Huffington Post: Gamification e Reaction Bar | Il Giornalaio

  • Pingback: [Social Marketing] Il paradigma SoLoMo e i location-based engagement (LBE)

  • cristian

    Nell’ultima parte dell’intervista dici che in Italia non c’è molto la cultura del dato, soprattutto in ambito decisionale. Io penso ci sia una mancanza anche dall’altro lato: il popolo della rete italiano non ha ancora l’abitutine di esprimere sulla rete il proprio sentimento. Questo almeno da quanto sta emergendo su una mia ricerca su un’azienda di trasporti italiana.

    • vincos

      Cristian, grazie per il tuo commento. Forse dipende dagli ambiti. I progetti che seguiamo noi in campo automotive e anche trattori mostrano invece che ci sono molte conversazioni polarizzate sul tema.

  • Pingback: L’odio che corre tra i tweet | comunicareonline.it – Una nuova piattaforma di comunicazione digitale