1. Capire la Data Quality
Un numero sempre maggiore di aziende utilizza i dati per prendere decisioni nei più disparati ambiti di business come ad esempio marketing, sviluppo prodotti, ottimizzazione della produzione o delle strategie di comunicazione, valutazione rischi e tanto altro ancora.
Come è facile intuire, fare tutto questo con dati di alta qualità è fondamentale per consentire ai decisori aziendali di prendere scelte informate e basate su dati di cui si fidano, con il supporto di sistemi di business analytics che operano su grandi moli di dati.
Una buona gestione della qualità dei dati aiuta ad estrarre maggior valore dai dati e contribuisce a ridurre i rischi, oltre che i costi, e ad aumentare l’efficienza e la produttività aziendale grazie all’uso consapevole dei dati. Tutto ciò permette di costruire e rafforzare il vantaggio competitivo dell’azienda. Una scarsa qualità dei dati può portare a scelte sbagliate perché effettuate su basi non solide, incomplete o addirittura semanticamente difformi da quelle che ci si potrebbe aspettare.
Questo solitamente avviene quando non si mettono in atto azioni specifiche di controllo dei dati, monitoraggio della qualità, risoluzione delle anomalie, revisione dei processi di inserimento e trasformazione dei dati, e così via.
La gestione della qualità dei dati è un percorso strutturato che deve tenere conto dei processi aziendali e di vari aspetti organizzativi, del coinvolgimento delle persone che a vari livelli e in momenti differenti hanno a che fare con i dati, e naturalmente delle tecnologie più adeguate. Errori di inserimento dati, mancanza di controlli di validità in fase di input, scarsa definizione e adozione di standard (naming convention, formati, ecc.), scarso coordinamento tra utenti di business e sviluppatori, limitata capacità tecnica e conoscenza metodologica nell’integrazione dei dati, sono esempi concreti e ricorrenti di situazioni che portano a dati non consistenti o considerati non affidabili da parte di chi dovrebbe farne utilizzo, con un conseguente calo della fiducia posta da parte del business nelle iniziative data-driven.
2. La Data Quality nel processo di Data Governance
La Data Quality è una dimensione del Data Management che molto frequentemente viene vista come prioritaria da parte delle aziende e organizzazioni che vogliono investire nella governance per il miglioramento dei dati.
La Data Governance è a guida del processo di formalizzazione di regole di qualità del dato, metriche di misurazione della qualità, soglie minime di controllo, processi di risoluzione di anomalie. Una Data Governance efficace deve armonizzare i dati provenienti da diverse fonti, eliminare le incongruenze, far emergere il prima possibile gli errori o le situazioni di non conformità, per evitare che queste abbiano impatti negativi sull’accuratezza delle analisi, a maggior ragione quando i dati sono utilizzati per produrre output che vengono condivisi con stakeholder esterni all’organizzazione o per dimostrare il rispetto di normative.
Le attività di Data Quality Management che vengono “innestate” in un framework di Data Governance possono essere raggruppate in 4 macro-attività che costituiscono un ciclo continuo di analisi e raffinamento:
- Discover: Data Discovery e Data Profiling per esaminare la struttura dei dataset, comprenderne rapidamente il loro contenuto, identificare possibili outliers.
- Define: definizione di requisiti sia tecnici che di business, e regole utili per il successivo monitoraggio e identificazione di problemi. Possono essere requisiti legati al formato dei dati, al contenuto, alla disponibilità. Tipicamente si cerca di definire requisiti e regole che consentano il monitoraggio della qualità del dato lungo alcune dimensioni principali: completezza, accuratezza, tempestività, coerenza, univocità, integrità, conformità.

Rielaborazione: Iconsulting
- DQ rules application: applicazione delle regole di data quality a tutti i data set rilevanti trasversalmente all’azienda, implementando le regole define e applicandole sistematicamente a set di dati tramite sistemi informatici.
- Monitor: analisi delle attività di Data Quality e dei risultati ottenuti al fine di tracciare il miglioramento della qualità dei dati nel tempo. Lo scopo delle metriche di monitoraggio in un sistema di Data Quality è misurare la qualità dei dati e conseguentemente dei processi che ne fanno uso.

3. Data Quality Management
Per essere efficace è opportuno operare una misurazione della Data Quality costruendo un set coerente di regole, soglie ed indicatori sintetici funzionali alla valorizzazione qualitativa dei risultati.
○ Stabilire gli indicatori
È quindi fondamentare definire per ogni dominio dati, su quali dimensioni misurare la qualità dei dati e con quali regole. Tipicamente possono essere identificate 3 classi di indicatori:
1. Disponibilità
2. Formato
3. Semantica
Queste classi di indicatori possono raggruppare vari Key Quality Indicator (KQI) che esprimono sinteticamente il livello di qualità dei dati per un certo dominio sulla base dei risultati ottenuti dalle regole di Data Quality implementate. Olte alle misurazioni più “tecniche” appartenenti alle classi di disponibilità e formato, i moderni framework di Data Quality si stanno spingendo sempre più sul rispetto di condizioni semantiche, ovvero la capacità di verificare se un dato rappresenta correttamente un fenenomeno di business in base all’interpretazione dei dati rispetto ad uno specifico contesto.
In questo ambito si fa ad esempio uso di algoritmi di profilazione per l’identificazione e la classificazione del livello di “sensibilità” dei dati archiviati per il suggerimento dei valori di soglia da tenere in considerazione per definire un dato o un processo “di buona qualità” impiegando sistemi di AI per la recommendation.
○ Il ruolo del Chief Data Officer
Gli utenti di business e gli analisti sono i produttori e i principali consumatori o destinatari dei dati. È quindi essenziale che gli stakeholder aziendali riconoscano il valore di essere responsabili della qualità dei dati che contribuiscono a creare. Parallelamente, è responsabilità delle aree CDO/IT chiarire agli stakeholder dove sono stati prelevati e dove risiedono i dati, in modo da collaborare nella costruzione di regole coerenti con le esigenze di business e tecnicamente attuabili.
La Data Quality è molto di più che un miglioramento tecnico guidato dall’IT. Le iniziative di Data Quality dovrebbero essere viste come degli strumenti che portano ad un impatto positivo sul business. Per questo i Chief Data Officer (CDO) dovrebbero aiutare ad intercettare un legame causale tra iniziative di Data Quality e i risultati di business, misurando il miglioramento di ciò che i dati di buona qualità possono portare al business.
Nelle aziende più all’avanguardia che fanno leva sui dati per ottimizzare le proprie performance, la qualità dei dati è vista come qualcosa di necessario per le operations aziendali. Esistono, infatti, figure specializzate sulla qualità dei dati (o data steward) all’interno di specifiche linee di business e team di prodotto.
Per questo motivo, sebbene storicamente si sia sempre associata la guida di un programma di Data Quality alla figura del Chief Data Officer, l’interesse per questi argomenti ora è sempre più presente anche nelle agende di CEO, CFO, Chief Marketing Officer, Chief Digital Officer e VP di prodotto.
Giulio Aragiusto, Advisory Practice Manager