Sento spesso associare il concetto di Big Data esclusivamente ai social media (lo fa di frequente un giornalista famoso come Gianni Riotta, anche nel suo ultimo frettoloso libro). In verità le fonti dei Big Data possono essere molteplici e con diverse peculiarità. Lo racconta bene questa infografica di Kapow Software che per ogni fonte indica se accessibile attraverso API, se interna o esterna all’azienda, se strutturata o destrutturata, oltre che il livello di velocità, varietà, volume (che sono le tre caratteristiche dei big data).
Ecco le fonti dei Big Data e le loro caratteristiche:
– Archivi di documenti scannerizzati: dati interni non strutturati, con un basso livello delle 3V
– Documenti elettronici (xls, pdf, email, word, html, xml, json, ecc…): dati che possono essere interni e esterni, mediamente strutturati e molto vari per tipologia
– Media (immagini, video, audio, flash, live stream, ecc…): dati interni ed esterni, mediamente strutturati, che raggiungono volumi elevati e ad alta velocità
– Social Media (twitter, facebook, yammer, ecc…): dati interni ed esterni non strutturati, in tempo reale e a volumi elevati
– Web (dati governativi, meteo, censuari, wikipedia, ecc…): dati esterni differenziati, in alcuni casi strutturati, che possono raggiungere moli elevate
– Applicazioni di business (CRM, ERP, portali intranet, ecc…): dati interni ed esterni, strutturati, con un medio livello delle 3V
– Data Storage (SQL, NoSQL, Hadoop, file systems, ecc…): dati interni strutturati ma ingenti
– Log di sistema (da server, dispositivi mobili, ecc…): dati interni ed esterni strutturati, ma che presentano i massimi livelli di variabilità, volumi e velocità
– Data da Sensori (pubblici e privati): dati interni ed esterni strutturati, con i massimi livelli di variabilità, volumi e velocità