Solo dati attendibili e gestiti in maniera corretta generano vero valore, per questo aziende e organizzazioni avvertono l’esigenza sempre più stringente di governarli lungo tutto il loro ciclo di vita.
In questo contesto, il Data Lineage assume un ruolo centrale in ambito metadata management, perché identifica e rappresenta il percorso completo del dato, dall’origine alla destinazione, esplicitandone le trasformazioni, i processi e le interdipendenze con altri dati.
Il Data Lineage è dunque un pre-requisito ottimale per la Data Quality: tanto più approfondita è la conoscenza dei sistemi e delle trasformazioni coinvolte, tanto più efficace è la definizione dei controlli su di essi.
Ne beneficia inoltre la Data Protection, tema cruciale dopo l’entrata in vigore del GDPR. Per procedere alla cancellazione dei dati personali, ad esempio, è prima di tutto necessario sapere esattamente in quali sistemi sono conservati così come, per assicurarne il corretto livello di accesso e la riservatezza, è essenziale sapere chi accede effettivamente a quei dati.
Approfondiamo gli aspetti fondamentali del Data Lineage, quale valore aggiunto può portare nel proprio contesto di business, e alcuni suggerimenti per la scelta del tool più adatto alle proprie esigenze.
Cos’è il Data Lineage?
Il Data Lineage rappresenta il percorso del dato dalla sorgente al target, con tutte le trasformazioni intermedie. È una vera e propria mappa delle interdipedenze tra le entità di tutto lo stack architetturale. Eccone in maniera semplificata un esempio:

Tali entità comprendono:
- sistemi IT (applicazioni, database)
- processi di business
- entità dati (tabelle, files, attributi e campi)
- data check
Questa lista non è esaustiva, e può essere estesa (o ridotta) a seconda dell’obiettivo e del gruppo a cui appartengono gli stakeholder interessati:
- gli utenti di business troveranno più utile un lineage di alto livello che descriva il processo tramite le relazioni source-target tra entità (dataset, file, report, ecc.) per comprendere con facilità da dove proviene il dato, i layer corrispondenti ai modelli concettuale e logico (logical e conceptual layer in Fig.2);
- gli utenti IT avranno bisogno anche delle informazioni più tecniche fino al livello del singolo campo, il layer fisico (physical layer in Fig.2), che abilita una serie di analisi approfondite quali ad esempio la convalida del calcolo di un indicatore, la risoluzione degli incident, il tracing dei dati sensibili.
I diversi layer del Data Lineage possono essere sovrapposti, come rappresenta la figura seguente:

In un contesto di metadata management è quindi possibile arricchire il physical layer (o technical lineage), che comprende metadati tecnici sui flussi di trasformazione del dato, con l’application layer, uno strato che rappresenta i processi ad alto livello, con il logical layer, che fornisce le informazioni di business a livello di entità, e con il conceptual layer (o layer semantico), che fornisce spiegazioni sul significato degli oggetti. Il Data Lineage può comprendere inoltre informazioni relative alle regole e ai vincoli tecnici e semantici, i controlli sul rispetto delle normative, ecc.
Grazie a questa struttura, possiamo leggere il lineage in orizzontale (horizontal lineage in Fig.2), ottenendo informazioni sui processi di trasformazione dei dati, oppure in verticale (vertical lineage in Fig.2), ricavando insight sulle relazioni logiche che intercorrono tra le diverse entità nei vari livelli.
Il Data Lineage è un aspetto fondamentale del metadata management che consente di avere il controllo sul flusso dei dati aziendali e abilita una serie di use case utili sia al mondo IT che al mondo business, tra cui la impact analysis e la root cause analysis.
Impact analysis
Una lettura del lineage dalla sorgente verso valle (Figura 3) consente di stabilire che impatti può avere una modifica a un dato in un qualsiasi punto della catena: cosa succede al mio report delle vendite se una certa area di business modifica il calcolo di una metrica in un suo dataset?
Quali gruppi di lavoro sono impattati dal cambio nella struttura di un dataset condiviso?

Root cause analysis
Una lettura del lineage “a ritroso” (Figura 4) consente di risalire il percorso del dato fino all’origine: chi è il responsabile del dato sorgente per il mio report di fine mese in cui trovo una anomalia?

Il valore aggiunto del Data Lineage
Oltre ai vantaggi già visti, un Data Lineage completo consente di attivare i metadati in ottica Data Fabric per ricavare informazioni utili all’ottimizzazione dei processi su diversi fronti:
In ambito IT
- Abilita la smart orchestration dei flussi portando ad un risparmio di tempi e risorse
- Consente di identificare gli oggetti inutilizzati
- Consente di identificare gli oggetti business-critical e prendere precauzioni per evitare disservizi
In ambito Business & Analytics
- Riduce il time-to-market fornendo visibilità sul patrimonio dati esistente
- Aumenta l’affidabilità del dato finale utilizzato dagli utenti di business per prendere decisioni
In ambito Security
- Consente la verifica della compliance ai requisiti di sicurezza
- Consente la verifica della corretta gestione dei dati sensibili
Come scegliere il tool giusto?
1. Definire l’esigenza
Se l’esigenza è quella di documentare il layer logico o concettuale, il Data Lineage è descrittivo e la documentazione andrà raccolta manualmente, e non richiede necessariamente la disponibilità di un tool dedicato.
Al livello fisico è invece consigliabile automatizzare il processo di raccolta metadati utilizzando un tool dedicato, in grado sia di leggere informazioni dai sistemi in maniera automatica, sia di integrare la documentazione manuale dei layer logico e concettuale.
Esistono diverse tipologie di tool a supporto della Data Governance che consentono di raccogliere e rappresentare il Data Lineage:
- tool specifici per il Data Lineage,
- tool che comprendono le funzionalità di Data Lineage native all’interno di un data catalog,
- tool che offrono le funzionalità di Data Lineage come partnership con vendor terzi,
- suite che offrono pacchetti completi per la Data Governance.
Alcuni tool prevedono il deployment in cloud, altri no. Alcuni tool sono acquistabili a moduli in soluzioni personalizzabili, altri no.
Come osservato, in ambito Data Governance è quindi importante definire qual è l’obiettivo a medio-lungo termine della propria Data Strategy per poter fare l’investimento giusto.
2. Disponibilità di tutti i connettori necessari
Il lineage è utile se è completo. Dobbiamo assicurarci che il tool selezionato abbia a disposizione i connettori a tutti i sistemi sorgenti coinvolti nei nostri processi ETL. In alternativa, ma meno preferibile, dovrà fornire la possibilità di integrare informazioni da altri tool tramite soluzioni custom (ad esempio via API).
3. Automation: attenzione alle promesse non mantenute
Manutenere il lineage a livello di singolo campo non è banale. È importante che la soluzione scelta garantisca la possibilità di automatizzare la ricostruzione del lineage da tutti i sistemi, compresi i tool di ETL e BI, al livello di granularità richiesto. Particolare attenzione va prestata in caso di esigenze complesse come il parsing di codice (ad esempio da stored procedures). Nonostante gli enormi progressi del settore, infatti, la strada è ancora lunga e non tutti i tool sono effettivamente in grado di fornire il risultato desiderato. È quasi sempre possibile comunque sviluppare soluzioni custom per integrare le funzionalità mancanti, interagendo con il tool via API.
4. User Experience
Non dimentichiamo infine che il Data Lineage, specialmente a livello di singolo attributo, può diventare estremamente complesso. Il tool che scegliamo dovrà essere in grado di fornire una rappresentazione grafica di facile consultazione, possibilmente consentendo il drill-down e il drill-up a seconda del layer a cui l’utente è interessato.
Documentare il Data Lineage: il nostro approccio
A supporto delle organizzazioni che manifestano l’esigenza di raccogliere e manutenere il Data Lineage, Iconsulting offre servizi di consulenza che vanno dall’envisioning all’adoption di un tool dedicato o allo sviluppo di una soluzione custom, dalla software selection alla progettazione e implementazione dell’iniziativa.
Prediligiamo un approccio di Change Management ad impatto non invasivo, piuttosto che soluzioni disruptive, per garantire il successo e minimizzare i rischi di fallimento dovuti alla mancata adesione del business alle iniziative di Data Governance.
Chiara Forlani | Business Analytics Consultant
Vuoi approfondire ulteriori aspetti sulle opportunità del Data Lineage?
Contattaci >>