I dati sono un elemento cruciale di guida e supporto alle strategie di business, ma averne un’ampia disponibilità non basta: spesso la loro limitata comprensione e il timore di scarsa affidabilità non consentono di sfruttarne tutto il potenziale. Ed è proprio qui che entra in gioco il Data Catalog. Ma quali sono i punti di forza che deve avere per fare davvero la differenza?

Come approfondito nel primo appuntamento di Data Answers dedicato al Data Catalog, grazie a questo strumento tutte le figure aziendali coinvolte nel processo di valorizzazione dei dati – dagli analisti ai data scientist, dai data architect a data engineer e manager – possono ricercare e individuare rapidamente i dati rilevanti di cui hanno bisogno. E non solo: ne possono comprendere il contenuto, ottenere informazioni sulla loro trasformazione, verificarne la qualità, richiedervi l’accesso, fare segnalazioni e molto ancora.
Il Data Catalog è infatti un alleato indispensabile sia per la raccolta che per la condivisione dei metadati: tutte quelle informazioni che descrivono, contestualizzano e ci permettono di comprendere davvero i dati.
Ma non tutti i “cataloghi” sono uguali: come individuare quello più adatto alle proprie esigenze e al passo con le evoluzioni del mercato? In questo approfondimento facciamo un passo ulteriore ed entriamo nel vivo delle 5 funzionalità e delle caratteristiche di punta che lo rendono decisivo per rispondere ai trend emergenti, in primis la democratizzazione dei dati.

Perché Business e IT devono puntare su un ‘catalogo dati’? Non solo per identificare e comprendere i dati più strategici, ma per abilitare processi di governance e di collaborazione.

1. La connessione con tutti i sistemi informativi

Un Data Catalog può diventare un alleato realmente efficace solo se è connesso a tutti (o alla maggior parte) dei sistemi informativi che generano o memorizzano i dati di cui dispone l’organizzazione: applicazioni, database, file, dataset, report, ma anche API utilizzate per estrarre dati da fonti esterne.
Una buona soluzione di data cataloging mette a disposizione diversi connettori che consentono di importare metadati in modo semplice e automatizzato: attraverso questi connettori il Catalog riesce a “scansionare” i sistemi e le strutture dati, e quindi a memorizzare metadati quali nomi delle tabelle e dei dataset, data model, nomi delle colonne e degli attributi, chiavi e vincoli, indici, ecc.
È essenziale, tuttavia, che questa attività di Metadata Ingestion & Discovery non sia fatta una tantum: deve essere possibile schedulare le scansioni, mantenerne la storia ed identificare le differenze rispetto alle esecuzioni precedenti.

2. Un linguaggio comune per comprendere davvero i dati

Vi capita di osservare incomprensioni tra persone di business unit o funzioni differenti che danno un significato diverso a concetti di business come “cliente attivo”, “numero di giorni di arretrato” o “margine operativo netto“? Spesso questi problemi di comprensione e definizione di KPI comportano costose perdite di tempo e aumentano il rischio di prendere decisioni sbagliate.
Catalogare i data asset (tabelle, dataset, campi, report, ecc.) dei propri sistemi informativi non basta, è essenziale associarli alle entità e ai concetti di business in modo da comprendere la semantica, il significato dei dati stessi.
Il Business Glossary serve a colmare questo gap: contiene le definizioni dei termini associati ai dati, favorendo l’adozione di un linguaggio dei dati univoco e una comprensione condivisa dei fatti, delle anagrafiche, degli attributi, delle metriche e dei KPI utilizzati all’interno dell’organizzazione.

3. La capacità di “accendere” la Data Governance

Tradurre in operatività concrete le policy aziendali che regolamentano i criteri di accesso e il trattamento dei dati è una caratteristica fondamentale di un moderno strumento di Data Catalog.
Una soluzione completa a supporto della Data Governance – oltre a catalogare metadati tecnici e a connettere i data asset ai termini del glossario – deve infatti consentire di aggiungere metadati operativi che favoriscono una corretta gestione dei dati stessi. È possibile etichettare i data asset e i termini del glossario con tag utili a identificare, ad esempio, se un data asset contiene informazioni sensibili e se è soggetto al GDPR (data classification).
Fondamentale è poi l’assegnazione dei ruoli, specificando per i data asset strategici chi sono le persone che hanno responsabilità di decisione o gestione di quel dato e assegnando ruoli quali data owner e data steward.
Un Catalog realmente efficace, deve permettere inoltre di aggiungere metadati “custom”, specifici della realtà in cui viene introdotto, che potranno essere caricati attraverso template o utilizzo di API contenenti il mapping tra i metadati e i data asset del catalogo.

4. Un motore di ricerca all’altezza di Google

Cosa rende davvero il Data Catalog lo strumento ideale per la democratizzazione dei dati all’interno dell’organizzazione, non solo per gli “addetti ai lavori” della funzione IT, ma anche per le persone del business? Qual è il punto di ingresso con cui i data consumer possono ottenere informazioni rilevanti sui dati? Senza dubbio è la funzione di ricerca e filtro dei metadati.
Per questo, è fondamentale che l’interfaccia di Search & Find sia semplice da utilizzare, permetta non solo di trovare facilmente e velocemente i dati rilevanti, i report di cui non erano a conoscenza, le informazioni utili per comprendere i dati e le modalità con cui accedervi, ma anche di identificare persone giuste a cui rivolgersi per chiedere supporto, comprendere la provenienza dei dati e, non ultimo, disporre di un indicatore che indichi se si tratta di un dato certificato che ha superato determinati controlli di qualità.
Questo motore, in sostanza, deve costituire una sorta di “Google Search” dei dati e dei metadati che fanno parte del patrimonio informativo dell’organizzazione.

5. Mappe per navigare la trasformazione

Dalla sua origine alla sua destinazione, quello del dato è un percorso in evoluzione: quali trasformazioni subisce? Come viene arricchito? Come viene messo in relazione con altri dati? La funzionalità di data lineage consente di comprenderne l’intero flusso ed è fondamentale anche per garantire la conformità ai requisiti regolatori in materia di tracciabilità dei dati sensibili di cui l’organizzazione dispone.
I moderni Data Catalog permettono di visualizzare il lineage in mappe e grafi e navigare il percorso di ogni singolo dato, facilitando l’analisi di impatto che una eventuale modifica in un punto del percorso avrebbe sui sistemi, le strutture dati e i processi di trasformazione. 

Il Data Catalog del futuro? Sempre più “social” e attento alla qualità dei dati.

Oggi il Data Catalog è quindi uno strumento centrale in ogni azienda per sfruttare a pieno il potenziale dei dati attraverso la raccolta, catalogazione e comprensione di ogni informazione a riguardo. Non solo perché supporta le attività di chi si occupa della loro gestione e dei sistemi informativi, ma anche perché porta valore aggiunto all’intera organizzazione, facilitando il lavoro di analisti e scientist che, grazie a una semplice ricerca, possono trovare i data asset, comprendere quali dati contengono e altre preziose informazioni.
Per rendere l’organizzazione realmente data-driven, bisogna però essere certi di abilitare gli utenti all’utilizzo dei dati, indicargli come accedervi, consentire direttamente di scaricare i dataset o accedere ai tool con cui il dato viene messo a disposizione in forma di report. Ed è qui che dotarsi di solide policy di accesso diventa fondamentale. In generale, infatti, le tecnologie di data cataloging avanzate sono una sorta diData Marketplacein cui gli utenti di business ricercano i dati, ottengono l’accesso direttamente (o ne fanno richiesta) in base alle policy preimpostate.
Un altro tratto distintivo dei Data Catalog moderni è la loro natura sempre più “social” per permettere la migliore collaborazione tra data creators, data curators e data users. Consentono infatti di definire workflow di verifica e validazione di dati e metadati, permettono di “dare un voto” ai dataset e di scrivere recensioni e commenti. Infine, di condividerli con i colleghi.
D’altra parte, più gli utenti di business vengono incentivati e agevolati al suo utilizzo, più il Data Catalog diventa uno strumento che genera valore, offrendo un utilizzo esteso dei dati senza che chi si occupa di gestirli ne “perda il controllo”.

Ulteriori funzionalità di grande importanza, a volte incluse almeno in parte nei Data Catalog o spesso organizzate in moduli separati e integrabili, sono legate al monitoraggio di data quality e anomaly detection. È infatti cruciale definire degli indicatori di qualità, avere cruscotti di monitoraggio e funzionalità di data profiling che forniscono rapide statistiche (come ad esempio la % di valori nulli o che non rispettano determinati standard), l’identificazione automatica di valori non validi sulla base di regole preimpostate, processi di risoluzione di quality issue e molto altro.

A quali nuove funzionalità guarda il mercato?

L’ecosistema delle soluzioni di data cataloging e dei sistemi di gestione dei metadati è particolarmente variegato. Alcuni vendor puntano più su alcune funzionalità a discapito di altre, alcuni offrono suite complete e altri le forniscono in moduli separati. Alcuni puntano di più sulle funzionalità “tecniche”, altri su quelle più “social” di collaborazione tra IT e utenti di business.
Infine, determinati settori – per lo più molto normati – potrebbero necessitare di soluzioni verticali specifiche per la data quality e la data security & protection per i quali le attuali funzionalità offerte da data catalog general purpose potrebbero non bastare.

Vuoi approfondire i temi relativi alla Data Governance e al Data & Metadata Management?
Per confrontarci su tematiche di Data Strategy, percorsi di Data & Digital Transformation, attività di Technology Orienteering e di implementazione, ti invitiamo a contattarci.


Francesco Rovesti, Business Analytics Team Leader

All the tech, business news and trends you need to know. Delivered to your inbox.
Share
Share