I dati sono un elemento cruciale di guida e supporto alle strategie di business, ma averne un’ampia disponibilità non basta: spesso la loro limitata comprensione e il timore di scarsa affidabilità non consentono di sfruttarne tutto il potenziale. Ed è proprio qui che entra in gioco il Data Catalog. Ma quali sono i punti di forza per fare davvero la differenza?

Attraverso questo strumento i data analyst e i data scientist, i data architect e i data engineer, i data manager e tutte le figure aziendali coinvolte nel processo di valorizzazione dei dati possono ricercare e individuare le fonti dati rilevanti, comprenderne il contenuto, ottenere informazioni sui flussi di trasformazione, verificarne la qualità, richiederne accesso, fare segnalazioni, e molto altro.
Nello scorso appuntamento di Data Answers sul Data Catalog abbiamo descritto questo strumento come il migliore alleato per la raccolta e condivisione dei metadati – cioè quelle informazioni che descrivono, contestualizzano e permettono di comprendere i dati. In questo, entriamo maggiormente nel vivo delle 5 funzionalità decisive di un “catalogo dati” e delle caratteristiche che permettono di rispondere ai trend emergenti, quali ad esempio la democratizzazione dei dati, che può essere abilitata riportando vari dataset in un data lake e consentendo a data analyst e data scientist di accedervi per fare analisi in modalità self-service.

Perché Business e IT devono puntare su un ‘catalogo dati’? Non solo per identificare e comprendere i dati più strategici, ma per abilitare processi di governance e di collaborazione.

1. Connessione con tutti i sistemi informativi

Un Data Catalog può diventare un alleato realmente efficace solo se è connesso a tutti (o almeno alla maggior parte) dei sistemi informativi che generano o memorizzano i dati di cui dispone l’organizzazione: applicazioni, database, file, dataset, report, ma anche API utilizzate per estrarre dati da fonti esterne.
Una buona soluzione di data cataloging mette a disposizione diversi connettori che consentono di importare metadati in modo semplice e automatizzato: attraverso questi connettori il Catalog riesce a “scansionare” i sistemi e le strutture dati, e quindi a memorizzare metadati quali nomi delle tabelle e dei dataset, data model, nomi delle colonne e degli attributi, chiavi e vincoli, indici, ecc.
È essenziale, tuttavia, che questa attività di Metadata Ingestion & Discovery non sia fatta una tantum: deve essere possibile schedulare le scansioni, mantenerne la storia ed identificare le differenze rispetto alle esecuzioni precedenti.

2. Un linguaggio comune per la comprensione dei dati

Vi capita di osservare incomprensioni tra persone di business unit o funzioni differenti che danno un significato diverso a concetti di business come “cliente attivo”, “numero di giorni di arretrato” o “margine operativo netto“? Spesso questi problemi di comprensione e definizione di KPI comportano costose perdite di tempo e aumentano il rischio di prendere decisioni sbagliate.
Catalogare i data asset (tabelle, dataset, campi, report, ecc.) dei propri sistemi informativi non basta, è essenziale associarli alle entità e ai concetti di business in modo da comprendere la semantica, il significato dei dati stessi.
Il Business Glossary serve a colmare questo gap: contiene le definizioni dei termini associati ai dati, favorendo l’adozione di un linguaggio dei dati univoco e una comprensione condivisa dei fatti, delle anagrafiche, degli attributi, delle metriche e dei KPI utilizzati all’interno dell’organizzazione.

3. Abilitare i processi di Data Governance

Tradurre in operatività concrete le policy aziendali che regolamentano i criteri di accesso e il trattamento dei dati è una caratteristica fondamentale di un moderno strumento di Data Catalog.
Una soluzione completa a supporto della Data Governance – oltre a catalogare metadati tecnici e a connettere i data asset ai termini del glossario – deve infatti consentire di aggiungere metadati operativi che favoriscono una corretta gestione dei dati stessi. È possibile etichettare i data asset e i termini del glossario con tag utili a identificare, ad esempio, se un data asset contiene informazioni sensibili e se è soggetto al GDPR (data classification).
Fondamentale è poi l’assegnazione dei ruoli, specificando per i data asset strategici chi sono le persone che hanno responsabilità di decisione o gestione di quel dato e assegnando ruoli quali data owner e data steward.
Un Catalog realmente efficace, deve permettere inoltre di aggiungere metadati “custom”, specifici della realtà in cui viene introdotto, che potranno essere caricati attraverso template o utilizzo di API contenenti il mapping tra i metadati e i data asset del catalogo.

4. Un motore di ricerca all’altezza di Google

Cosa rende davvero il Data Catalog lo strumento ideale per la democratizzazione dei dati all’interno dell’organizzazione, non solo per gli “addetti ai lavori” della funzione IT, ma anche per le persone del business? Qual è il punto di ingresso con cui i data consumer possono ottenere informazioni rilevanti sui dati? Senza dubbio è la funzione di ricerca e filtro dei metadati.
Per questo, è fondamentale che l’interfaccia di Search & Find sia semplice da utilizzare, permetta non solo di trovare facilmente e velocemente i dati rilevanti, i report di cui non erano a conoscenza, le informazioni utili per comprendere i dati e le modalità con cui accedervi, ma anche di identificare persone giuste a cui rivolgersi per chiedere supporto, comprendere la provenienza dei dati e, non ultimo, disporre di un indicatore che indichi se si tratta di un dato certificato che ha superato determinati controlli di qualità.
Questo motore, in sostanza, deve costituire una sorta di “Google Search” dei dati e dei metadati che fanno parte del patrimonio informativo dell’organizzazione.

5. Mappe navigabili dei flussi di copia e trasformazione

Dalla sua origine alla sua destinazione, quello del dato è un percorso in evoluzione: quali trasformazioni subisce? Come viene arricchito? Come viene messo in relazione con altri dati? La funzionalità di data lineage consente di comprenderne l’intero flusso ed è fondamentale anche per garantire la conformità ai requisiti regolatori in materia di tracciabilità dei dati sensibili di cui l’organizzazione dispone.
I moderni Data Catalog permettono di visualizzare il lineage in mappe e grafi e navigare il percorso di ogni singolo dato, facilitando l’analisi di impatto che una eventuale modifica in un punto del percorso avrebbe sui sistemi, le strutture dati e i processi di trasformazione. 

Il Data Catalog del futuro? Sempre più “social” e attento alla qualità dei dati.

Oggi il Data Catalog è quindi uno strumento centrale in ogni azienda per sfruttare a pieno il potenziale dei dati attraverso la raccolta, catalogazione e comprensione di ogni informazione a riguardo. Non solo perché supporta le attività di chi si occupa della loro gestione e dei sistemi informativi, ma anche perché porta valore aggiunto all’intera organizzazione, facilitando il lavoro di analisti e scientist che, grazie a una semplice ricerca, possono trovare i data asset, comprendere quali dati contengono e altre preziose informazioni.
Per rendere l’organizzazione realmente data-driven, bisogna però essere certi di abilitare gli utenti all’utilizzo dei dati, indicargli come accedervi, consentire direttamente di scaricare i dataset o accedere ai tool con cui il dato viene messo a disposizione in forma di report. Ed è qui che dotarsi di solide policy di accesso diventa fondamentale. In generale, infatti, le tecnologie di data cataloging avanzate sono una sorta diData Marketplacein cui gli utenti di business ricercano i dati, ottengono l’accesso direttamente (o ne fanno richiesta) in base alle policy preimpostate.
Un altro tratto distintivo dei Data Catalog moderni è la loro natura sempre più “social” per permettere la migliore collaborazione tra data creators, data curators e data users. Consentono infatti di definire workflow di verifica e validazione di dati e metadati, permettono di “dare un voto” ai dataset, di scrivere recensioni e commenti e condividerli con i colleghi. D’altra parte, più gli utenti di business vengono incentivati e agevolati al suo utilizzo, più il Data Catalog diventa uno strumento che genera valore che consente (/CONSENTENDO?) un utilizzo esteso dei dati senza che chi si occupa di gestirli ne “perda il controllo”.

Ulteriori funzionalità di grande importanza, a volte incluse almeno in parte nei Data Catalog o spesso organizzate in moduli separati e integrabili, sono legate al monitoraggio di data quality e anomaly detection. È infatti cruciale definire degli indicatori di qualità, avere cruscotti di monitoraggio e funzionalità di data profiling che forniscono rapide statistiche (come ad esempio la % di valori nulli o che non rispettano determinati standard), l’identificazione automatica di valori non validi sulla base di regole preimpostate, processi di risoluzione di quality issue e molto altro.

A quali nuove funzionalità guarda il mercato?

L’ecosistema delle soluzioni di data cataloging e dei sistemi di gestione dei metadati è particolarmente variegato. Alcuni vendor puntano più su alcune funzionalità a discapito di altre, alcuni offrono suite complete e altri le forniscono in moduli separati. Alcuni puntano di più sulle funzionalità “tecniche”, altri su quelle più “social” di collaborazione tra IT e utenti di business.
Infine, determinati settori – per lo più molto normati – potrebbero necessitare di soluzioni verticali specifiche per la data quality e la data security & protection per i quali le attuali funzionalità offerte da data catalog general purpose potrebbero non bastare.

Vuoi approfondire i temi relativi alla Data Governance e al Data & Metadata Management?
Per confrontarci su tematiche di Data Strategy, percorsi di Data & Digital Transformation, attività di Technology Orienteering e di implementazione, ti invitiamo a contattarci.


Francesco Rovesti, Business Analytics Team Leader

All the tech, business news and trends you need to know. Delivered to your inbox.
Share
Share