1. Cosa si intende per Big Data Analytics?
La rivoluzione digitale ha introdotto nuove opportunità di analisi e di azione grazie all’utilizzo dei Big Data: non solo le moli di dati crescono in maniera esponenziale rispetto al passato, ma oggi sono disponibili nuove tipologie di dati, in tutti i settori. Basti pensare agli stream provenienti dal Digital Marketing o dalle transazioni di acquisto, dall’Internet of Things o dalle macchine in ambito industriale, da Social Media, Telco, app e molto ancora. Superando la tradizionale classificazione dei Big Data, che fa riferimento alle 3V (Volume, Velocità, Varietà), oggi con Big Data Analytics intendiamo indicare tutte le tecniche e le tecnologie che consentono di raccogliere e gestire i Big Data, integrarli con dati tradizionali, elaborarli e trasformarli in “Small Data”: informazioni comprensibili utili a migliorare un processo decisionale. A tale scopo, gli aspetti fondamentali che devono essere presenti in una soluzione vincente di Big Data Analytics sono:
• Ingestion & Storage
• Compute & Querying
• Sharing & Governance
Mentre storicamente si è dedicata molta attenzione ai processi di Ingestion e Storage, molte piattaforme di Big Data Analytics non hanno soddisfatto le aspettative, perché carenti dal punto di vista della computazione e delle performance in fase di interrogazione. La selezione delle migliori tecnologie in base ai casi d’uso è invece spesso più importante dello storage stesso: solo grazie alle elaborazioni è possibile trasformare i Big Data in informazioni, traendone valore. Non di meno, una corretta gestione di Data Catalog, Lineage e Governance risultano fondamentali per la fruibilità dei dati. Oltre ad approfondire metodologia, organizzazione e tecnologie della Data Governance in un Webinar on demand, illustriamo dettagliatamente le opportunità del Data Catalog come strumento fondamentale per una corretta governance dei dati aziendali, rintracciando le 5 funzionalità decisive per un “catalogo dati” realmente a supporto di Business e IT.
2. Big data, analytics e approccio data-driven: strumenti a servizio del business
A livello tecnologico, nell’ultimo decennio il mondo dei dati ha visto affermarsi moltissime nuove tecnologie progettate specificamente per gestire al meglio i Big Data. Questa rivoluzione tecnologica ha avuto inizio con l’avvento di Hadoop, che ha rappresentato un vero e proprio cambio di paradigma: tutte le tecnologie più moderne che ad oggi rientrano nella categoria “Big Data” condividono infatti i principi base del framework Hadoop, ovvero:
• Scalabilità orizzontale: la possibilità di dimensionare un servizio dinamicamente aumentando o diminuendo il numero di nodi. In questo modo si è reso possibile il superamento dei limiti hardware tipici della scalabilità verticale (aumento delle risorse dei server);
• Fault tolerance by design;
• Storage distribuito (da HDFS ai più moderni Object Storage);
• Alto grado di parallelismo.
Negli ultimi anni, ad amplificare i vantaggi – anche economici – della scalabilità orizzontale, è subentrata in maniera dirompente il Cloud Computing.
Se inizialmente i cloud provider offrivano prevalentemente servizi IaaS (Infrastructure as a Service, cioè la possibilità di noleggiare macchine virtuali ospitate nei loro data center), l’offerta si è evoluta sempre più verso soluzioni PaaS (Platform as a Service). Questi ultimi prevedono una serie di servizi – dall’Ingestion allo Storage all’elaborazione alle interrogazioni fino al Reporting – gestiti con una dinamicità nel dimensionamento senza precedenti: in pochi secondi ogni servizio può essere scalato orizzontalmente in base alle necessità, così da efficientare l’utilizzo delle risorse pagando solo per quello che si utilizza. In particolare per quanto riguarda le risorse di computazione, un utilizzo “smart” di servizi cloud PaaS può consentire di ridurre di ordini di grandezza i costi.
Nel Data Answers “Vuoi puntare sul Cloud? Assicurati di farlo bene.”, i nostri Stefano Alpi, Advisory e Client Manager di Iconsulting e Marco Mantovani, Senior Manager di Iconsulting, offrono una visione completa del mondo Cloud e osservano come compiere i giusti passi nel mercato dei Cloud provider per gestire l’intero processo con successo in aziende medio-grandi.
In alternativa o in affiancamento ai servizi PaaS dei cloud provider, tutte le principali soluzioni di software vendor specializzati in ambito dati stanno evolvendo in ottica Container, ovvero di virtualizzazione applicativa. Grazie a questo tipo di meccanismi, gli applicativi possono essere portati su diversi ambienti, facilitandone la gestione e garantendo livelli di servizio tipici dei sistemi distribuiti (fault tolerance, scalabilità orizzontale, ecc.).
È da notare che la molteplicità ed eterogeneità delle tecnologie normalmente coinvolte in una soluzione Big Data ha creato l’esigenza di nuove skill all’interno dei gruppi di lavoro, in particolare tra gli sviluppatori è sempre più comune una figura di “DevOps”, che dà coscienza al team di sviluppo in merito agli aspetti infrastrutturali da prendere in considerazione quando si progetta una soluzione, e come gestirli al meglio.
3. Gli step di un progetto di Big Data Analytics: aspetti architetturali e approccio metodologico
Una moderna piattaforma di Big Data deve essere progettata in ottica Data Fabric: non si tratta più soltanto di un sistema a supporto delle decisioni per abilitare utenti a fare analisi, ma deve anche essere in grado di interagire con sistemi e applicazioni a valle e a monte (siano esse web app, mobile app, sistemi esterni) tipicamente tramite API, code di messaggi, ESB. Per questo, prevedere all’interno dell’architettura componenti che si occupano di Integration applicativa diventa sempre più importante.
Seppure non tutte le componenti siano sempre necessarie, ecco quali devono essere previste all’interno di una Data Platform:
• Data Storage. In base alla natura dei dati da considerare ma soprattutto in base ai requisiti di elaborazione e interrogazione determinati dagli use-case, l’area di Data Storage può contenere un Data Lake Storage e/o un livello di Data Warehouse. Negli anni abbiamo assistito al dibattito relativo all’opportunità di sostituire o affiancare il Data Warehouse con un Data Lake. Una delle scelte più importanti da fare nell’ambito di progettazione di una Data Platform è relativa a una delle due seguenti soluzioni metodologiche:
– Data Lake + Data Warehouse: si adottano due strumenti dedicati, ognuno con caratteristiche peculiari (es. il Data Lake consente di gestire profondità storiche molto ampie al massimo livello di dettaglio a basso costo, mentre un livello di Data Warehouse abilita un maggior dinamismo e minore latenza nelle interrogazioni). È la soluzione consigliata nel caso in cui si abbia a che fare con un Data Lake Storage tradizionale.
– Data Lakehouse: sfruttando le caratteristiche dei Data Lake Engine più innovativi, è possibile combinare in un’unica soluzione i vantaggi del Data Lake e quelli del Data Warehouse, mantenendo i dati su uno storage in formato aperto (Data Lake storage) e utilizzando strumenti di accelerazione query ed elaborazione dedicati. Alcuni esempi di queste soluzioni sono Databricks, Snowflake, Starburst. Gli stessi cloud provider propongono soluzioni sempre più integrate in questa direzione, come Azure Synapse, Amazon Redshift.
Indipendentemente dalla scelta, l’area di Data Storage risulterà comunque affollata, in quanto, in ottica Data Fabric, oltre a dover contenere i sistemi legacy, potrebbe essere necessario prevedere sistemi dedicati a supportare la componente più operazionale di integrazione con sistemi a valle, o legati a esigenze specifiche come Graph Database o Time Series Database.
• Data Access. Vista la molteplicità dei sistemi sorgente, l’area di Data Access ha il compito di disaccoppiare lo storage fisico dall’utilizzatore finale, sia esso un utente, un algoritmo o un’applicazione. Una delle modalità più utilizzate per realizzare questo layer è l’impiego di una soluzione di Data Virtualization come Denodo, Tibco DV, Dremio.
• Data Management. Dovendo soddisfare una molteplicità di use case, non più soltanto analitici, ma sempre più spesso legati a modelli di Machine Learning/AI, spesso in real-time, l’area di Data Management comprende una o più tecnologie in grado di implementare diversi stili di delivery del dato. Tra gli stili di delivery troviamo i più tradizionali strumenti di ETL/ELT, spesso affiancati da sistemi di ingestion ed elaborazione in streaming real-time, tecnologie che operano replicando i dati in Change Data Capture, sorgenti accedute tramite Data Virtualization quando è preferibile evitare o limitare il data movement.
Il concetto di “flusso di caricamento” legato al mondo del Data Warehouse ha subito un’evoluzione e si parla ora di “data pipeline”, che possono essere batch o real-time, orchestrate tramite tool grafici o, in base agli skill del team di lavoro, gestite tramite codice.
• Business Information Consumption. L’insieme dei tool di front-end, che include reporting statico, reporting self-service, dashboarding, sistemi interattivi con riconoscimento di linguaggio naturale e suggerimenti basati su AI, ecc.
• Metadata Management. Come già citato in precedenza, uno degli aspetti da non sottovalutare in fase di disegno di una soluzione di Big Data Analytics è la Governance dei metadati. In questo caso sono disponibili strumenti di Data Catalog, Business Glossary, gestione degli accessi basati su regole, Data Lineage, ecc.
• Application Integration. Tecnologie che consentono l’integrazione con applicativi a monte e a valle. Rientrano in questa categoria sistemi di API management, Web App, IoT platform, No code/Low code development platform, etc.
• Data Science Lab. Nell’ottica di ottimizzare il Time-to-Market nello sviluppo degli use case che si appoggiano a una Big Data Platform, un ruolo di primaria importanza è ricoperto dal Data Science Lab. Questo contiene tutte le tecnologie utili per abilitare di Data Scientist ad effettuare rapid prototyping, sperimentazioni e sviluppo di algoritmi e modelli di AI.
È importante definire chiaramente i tool da utilizzare nelle diverse casistiche, nonché condividere delle linee guida che da un lato consentano ai Data Scientist di operare in autonomia sui modelli e sulle loro future evoluzioni, dall’altro creino le condizioni per gestire un’industrializzazione efficace. A tal proposito, metodologie e strumenti di gestione del versioning del codice dei modelli e pipeline di CI/CD ben progettate possono fare la differenza tra il successo dell’industrializzazione di un modello e il fallimento di un’iniziativa di Data Science per difficoltà tecniche o tempistiche di rilascio in produzione non compatibili con le esigenze di business.
Per approfondire le metodologie di industrializzazione dei modelli di Data Science, abbiamo realizzato un Webinar, disponibile on demand, dove approfondiamo come puntare all’efficacia per centrare nuovi obiettivi grazie ad analytics e algoritmi, e abbiamo sviluppato una storia di successo dove raccontiamo la sfida dell’industrializzazione dei progetti di Data Science nel mondo Automotive, osservando in dettaglio come abbiamo affiancato il team di Data Scientist di un’azienda leader internazionale del settore, definendo un solido framework architetturale e metodologico.
Il mondo Big Data Analytics comprende centinaia di tecnologie allo stato dell’arte, in continua rapida evoluzione. Disegnare una piattaforma future-proof sulla base dei livelli di servizio attesi è il primo step da affrontare, così come la successiva metodologia e selezione delle priorità ed ownership di sviluppo dei processi di ingestion ed elaborazione. A tal proposito, gli approcci più moderni prevedono la suddivisione per Use Case/Data Subject o l’organizzazione per domini in ottica Data Mesh/Data Products.
4. Covid-19 e Big Data
Negli ultimi due anni, in tutto il mondo, la gestione dei dati è stato il tema centrale dei dibattiti sanitari, sociali ed economici. La pandemia da Covid-19 ne ha infatti definitivamente messo in luce l’importanza per supportare i processi decisionali in ogni campo della vita pubblica e privata. D’altra parte, non c’è differenza fra mondo industriale, governo della cosa pubblica o decisioni quotidiane: l’inattendibilità, la mancata tempestività o l’inadeguatezza dei dati hanno un forte impatto e grandi ripercussioni sulla capacità di prendere delle buone decisioni.
Come riuscire a leggere e interpretare al meglio dati incerti e non standardizzati, generati attraverso processi difformi e spesso non trasparenti? Come orientarsi fra diverse elaborazioni di dati che raccontano la pandemia e ne prevedono l’andamento? Se lo è chiesto fin dai primi giorni dell’emergenza Vasil Tabaku, Director di Iconsulting, che ha esplorato il complesso rapporto fra i dati e la verità.
Per interpretare l’andamento della pandemia, interpretare un tale e inedito scenario e supportare i cittadini e le aziende nelle nuove sfide quotidiane, ci siamo serviti dei Big Data su diversi fronti:
• Contrastare la diffusione di fake news attraverso algoritmi e advanced analytics.
Un fenomeno che ha tristemente accompagnato dapprima le informazioni sul Covid e successivamente sul tema dei Vaccini. Per indagare la diffusione di contenuti non verificati, notizie parziali, contraddittorie e false, i data scientist di Iconsulting hanno realizzato un algoritmo proprietario, sfruttando tecniche di Advanced Analytics e meccanismi di regressione Machine Learning. Uno studio che esplora, in primis, i tweet a tema Covid-19, pubblicati in Italia dalla conferma del primo caso di contagio ai primi provvedimenti legislativi per il contenimento dell’emergenza. In una seconda fase abbiamo esplorato anche il meccanismo di diffusione della pericolosa infodemia sul tema Vaccini covid, alla quale abbiamo assistito nel periodo fra il cosiddetto “V-day” italiano ai dibattiti della primavera 2021 sui temi di sicurezza legati ad alcune case farmaceutiche.
Come osserviamo nell’immagine, la categorizzazione effettuata dall’algoritmo è esposta nella parte inferiore della dashboard, e il grafico a bolle permette di analizzare l’attendibilità delle sorgenti informative dai quali i post sono stati pubblicati. L’algoritmo consente di assegnare uno score ad ogni singolo profilo Twitter che, nel periodo considerato, abbia utilizzato specifici hashtag.
Questo algoritmo, inoltre, è protagonista del sistema progettato per l’utilizzo giornaliero da parte di Regione Emilia Romagna, in prima linea nell’impegno a contrastare le bolle informative.
• Simulare la connessione fra i comportamenti individuali e le misure preventive.
Per esplorare il complesso scenario pandemico, i data scientist di Iconsulting hanno sfruttato il potenziale di dati, analytics e modelli matematici utilizzati in epidemiologia per osservare in che modo l’epidemia fosse fortemente connessa con i comportamenti individuali e le misure preventive: igiene, distanziamento e mascherine. Ne abbiamo raccontato il funzionamento in dettaglio in questo DataTell Epidemic Simulator.
Basato sull’estensione di un modello SIR, il nostro simulatore ci è stato successivamente utile per mostrare in che modo variabili come la contagiosità del virus e il ritmo di vaccinazione influiscano sul raggiungimento della cosiddetta immunità di gregge e sul New Normal a livello sia nazionale che regionale. Calibrando il modello e utilizzando i dati sull’epidemia e sulle vaccinazioni estratti dagli archivi ufficiali del Ministero della Salute, abbiamo infatti simulato il decorso dell’epidemia fino a settembre 2022. Tutti gli approfondimenti e i sorprendenti insight emersi dalla nostra ricerca sono disponibili all’interno del DataTell Independence Day Pandemic.


• Garantire decisioni più informate e complete nella lotta al Covid-19 ai decision maker della Sanità.
Forti della consapevolezza del ruolo decisivo dei dati e dell’approccio data driven per fronteggiare l’emergenza, abbiamo realizzato Dafne, una piattaforma di Big Data che, grazie a una visione integrata e aggiornata, ha permesso ai decision maker dell’ambito sanitario di prendere decisioni più informate e complete nella lotta al Covid-19. Dafne raccoglie, analizza, monitora e aggrega i dati provenienti da diverse fonti e fornisce un’unica fonte di verità basata sui dati. Con una facile e veloce comunicazione verso il territorio, il Ministero e la cittadinanza grazie ad un unico canale certificato, Dafne ha permesso di raggiungere anche un altro importante obiettivo: garantire tempestività nell’accesso ai dati e alle informazioni, non solo in modo reattivo ma anche proattivo. Per farlo, Dafne integra in un’unica Data Platform tutti i dati necessari a governare l’epidemia e a supportare i decisori sia durante il monitoraggio nel day-by-day, che nella analisi predittiva, come ad esempio nella previsione delle zone di rischio e molto ancora. L’abbiamo presentata al convegno finale dell’Osservatorio Big Data del Politecnico di Milano e ne ha parlato anche Sanità Digitale.
• Realizzare il portale più trasparente d’Italia sull’utilizzo delle donazioni Covid.
Tra le prime a lanciare una campagna di raccolta fondi in piena emergenza, la Regione Emilia-Romagna si è posta fin da subito un obiettivo chiaro e ambizioso: garantire una rendicontazione aperta e trasparente sull’utilizzo dei fondi raccolti. Per questo è nato il portale Donazioni Covid-19, consultabile all’interno del sito della Regione e realizzato da Iconsulting. Il portale – di cui abbiamo sviluppato la soluzione tecnologica grazie a una ventennale esperienza in dati e Analytics e una solida collaborazione con Regione Emilia Romagna – è nelle parole di Milena Gabanelli su Data Room di Corriere della Sera, il migliore in Italia per chiarezza e dettaglio. A contribuire alla chiarezza ed esaustività del sito, sono interattività e semplicità di utilizzo, aspetti chiave ai quali abbiamo contribuito fin da subito per rispondere al meglio alle esigenze. Visitando il portale, è infatti possibile consultare in dettaglio diverse opzioni: dalle donazioni a come sono stati spesi i fondi e cosa, grazie ad essi, è stato acquistato.
• Fornire insight di intervento preventivo ed esecutivo per contenere il rischio di contagio grazie alla sinergia fra Visione Artificiale e Analytics. L’idea nasce dalla nostra esperienza in ambito manifatturiero e individua negli Analytics l’asset fondamentale per favorire la condivisione di insight, sia per fini commerciali, sia per rilevare eventuali non conformità dei prodotti realizzati sulle linee produttive. Grazie alle competenze acquisite sul campo, abbiamo così sviluppato una soluzione in grado di offrire un supporto concreto alle aziende chiamate a gestire la difficile convivenza con il virus e garantire una maggiore sicurezza, come nel caso dell’importante centro medico CeMeDi punto di riferimento sanitario per i Gruppi Fiat Chrysler Automobiles e CNH Industrial. Nella piena osservazione dei principi di tutela della Privacy, il nostro approccio data-driven mette al centro il dato e la sua veste analitica per guidare le organizzazioni nel garantire una ripartenza davvero sicura in ambito sociale e lavorativo. La nostra solution di Object Detection Analytics (ODA) non tiene infatti in memoria le immagini, ma ne raccoglie, analizza e riporta in sicurezza esclusivamente esclusivamente i dati. Utilizzando il dato catturato dalle immagini, fornisce insight di intervento preventivo ed esecutivo.
5. Azioni di Big Data Analytics: esempi
Una piena conoscenza del patrimonio informativo aziendale permette di costruire gli Analytics, le progettualità del futuro e la strategia relativa a un utilizzo consapevole e sostenibile dei dati. Proprio per questo, il punto di partenza per affrontare qualsiasi progetto di Big Data Analytics, che sia sostenibile e che rispetti le giuste priorità, è verificare il grado di maturità della propria azienda. A tale proposito, si rende necessario avviare un percorso di Data Strategy, attraverso il quale valorizzare internamente ed esternamente i propri dati.
Come si struttura una buona strategia che sia allineata agli obiettivi di business e in grado di gestire i Big Data? In questo Highlight esploriamo in dettaglio cos’è la Data Strategy e approfondiamo gli step principali per un utilizzo strategico dei dati: dall’assessment tecnologico-architetturale che identifica e valuta lo stato dell’arte in ambito dati e analytics al focus sulle esigenze evolutive dell’azienda, per arrivare alla definizione di una architettura tecnologica in grado di:
• Abilitare le nuove funzionalità necessarie
• Rispondere alle esigenze raccolte
• Preservare il valore degli investimenti fatti grazie all’elaborazione di una Roadmap
Oggi la Data Strategy rappresenta per ogni settore un’opportunità decisiva per sfruttare a pieno il potenziale dei Big Data Analytics. Grazie ad essa è infatti possibile creare valore, reagire rapidamente agli eventi, supportare un insieme più ampio di decisioni e automatizzare processi fondamentali spesso particolarmente onerosi in termini di costi, persone e tempi.