Di Open Data e cataloghi di dati pubblici in Italia si parla da una decina d’anni. Eppure, dopo il momento di hype iniziale, questi temi non sono riusciti a conquistare un ruolo da protagonista, sebbene ne venga riconosciuta l’importanza all’interno della Data Strategy delle Pubbliche Amministrazioni.
I cataloghi di dati pubblici sono effettivamente una realtà consolidata nel contesto italiano e le linee guida emanate dall’AGID – Agenzia per l’Italia Digitale rappresentano un vademecum indicativo dello stato dell’arte in termini di metodologie, standard e strumenti.
Ma nonostante la volontà di “aprire” il mondo dei dati della PA ai cittadini, ci si è infatti ben presto scontrati con le difficoltà delle sfide digitali legate alla mancanza di chiarezza su cosa-quando-come rendere disponibili i nuovi dati all’esterno dell’organizzazione.
A complicare ulteriormente lo scenario, due ulteriori sfide: da un lato, il processo lento e ancora in corso di Big Data Revolution che ha fatto emergere varie tipologie di dati e, in alcuni casi, ne ha complicato la gestione; dall’altro, la pandemia da Covid. Con la sua sferzata decisiva al processo di digitalizzazione della PA, quest’ultima ha infatti contribuito a far esplodere la quantità di dati prodotti dai processi interni degli enti.
In questo contesto, è ormai evidente che la criticità maggiore non sia più “culturale”, legata cioè a temi di trasparenza come accadeva in passato, quanto più connessa a temi di governance e relativi strumenti.
Proprio sulla scia di queste considerazioni, è intervenuta anche la Commissione Europea che lo scorso autunno ha inquadrato il tema degli Open Data nel suo “The Data Governance Act & The Open Data Directive“.

La doppia sfida della Data Governance: veicolare i dati all’esterno e gestire i processi interni

Se è vero che l’accento viene posto sempre più spesso sugli aspetti di governance, è altrettanto vero che sia le linee guida emanate da AGID che la proposta della Commissione Europea ne danno una connotazione decisamente più orientata “verso l’esterno”.
In realtà nelle Pubbliche Amministrazioni, esattamente come in tutti i comparti di mercato, anche la necessità di meccanismi di gestione interna è particolarmente sentita.
Spesso, infatti, i processi di governance dei dati vengono trattati in maniera estemporanea e non vengono sistematizzati. Questo genera inefficienze, incomprensioni e in generale un pericoloso sovraccarico di lavorazione, come in questi casi esemplificativi:

  • In fase di progettazione, quando all’interno di sistemi/piattaforme si progettano nuovi dataset è indispensabile ragionare non solo alle funzionalità verticali richieste all’applicazione, ma anche alla futura interoperabilità dei dati con l’ecosistema degli altri dati presenti nell’organizzazione. Tradizionalmente, questa responsabilità era demandata all’esperienza di team di sviluppo centralizzati, ma la diffusione delle competenze digitali nelle organizzazioni hanno disperso queste conoscenze. Un approccio orientato alla data governance strutturata prevede la standardizzazione di questi processi in strumenti interoperabili come il Data Dictionary (definizioni dei tipi di dato) e i Data Domain (valori ammessi per ciascun tipo di dato);
  • In fase di condivisione: la ricerca di nuovi insight sui dati, ottenuta attraverso l’incrocio dei dataset tra di loro, è un asset fondamentale per le organizzazioni. Anche i data analyst più determinati però, quando devono approvvigionarsi di nuovi dataset, si scontrano spesso con le difficoltà di una gestione poco organizzata, in termini di poca chiarezza sui ruoli e sulle ownership dei dati, poca sensibilità sui trattamenti e sulle declaratorie, e molto ancora. Il rischio è perdere molto tempo e mancare numerose opportunità. Un approccio più strutturato, invece, prevede l’assegnazione chiara di ruoli di data stewardship per ciascun dataset e la definizione di un processo standardizzato per la risposta alle richieste di accesso ai dati (che devono essere tracciate, documentate e corredate delle finalità per cui si intendono utilizzare i dati stessi).

Visto che i soli meccanismi organizzativi non sono più sufficienti a supportare questi processi, è evidente che è fondamentale puntare su strumenti tecnologici idonei per rispondere efficacemente alle esigenze che vengono da dentro l’organizzazione.

L’alleato della PA per governare la quantità e la varietà dei dati? Il Data Catalog.

A livello di mercato, l’offerta di strumenti che aiutino e supportino i processi di data governance è molto ampia e sta raggiungendo la sua maturità: tutti i principali vendor hanno già rilasciato o stanno rilasciando la loro soluzione di data governance e le piattaforme più consolidate hanno raggiunto un range di funzionalità molto ampio che spazia dal metadata management al data lineage.
Come rilevano diversi analisti, in prima battuta da Gartner nella sua ricerca “Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders”, il mercato delle suite di Data Governance vede una crescita notevole degli strumenti di Data Catalog, che rappresentano un elemento sempre più centrale per costruire una corretta strategia. In particolare, sono rilevanti per le Pubbliche Amministrazioni che stanno faticando a governare proprio la quantità e varietà di dataset: tema di rilievo anche nelle organizzazioni private per il raggiungimento degli obiettivi di business, come osservato nel nostro recente Data Answers.
Il Data Catalog è sostanzialmente il contenitore che raccoglie e organizza i “data asset”, il patrimonio informativo a disposizione dell’organizzazione: tramite l’utilizzo di metadati, aiuta i propri utenti a trovare, capire, interagire e gestire i dati sia per finalità di governance sia per finalità analitiche o di processo.

I tre fattori chiave che rendono il Data Catalog essenziale per la PA

Le evoluzioni tecnologiche che hanno permesso a questo strumento di diventare un elemento strategico sono essenzialmente i seguenti:

  • Grazie all’avanzamento tecnologico e in particolare all’introduzione di elementi di Intelligenza Artificiale, si parla ora di Augmented Data Catalog, ovvero strumenti che attraverso la connessione con le basi dati e la scansione del contenuto riescono con buona autonomia a raccogliere e inferire informazioni rilevanti per alcuni processi di data governance. Ad esempio, possono supportare i processi di data quality verificando il rispetto di determinate business rules all’interno dei record di uno specifico dataset;
  • Storicamente gli strumenti di Data Catalog fornivano una vista “tecnica” dei dataset (descrivendo solo il livello fisico dei dati e ragionando in termini di database, tabelle, colonne, etc.). Ora molte piattaforme hanno affiancato a questa vista anche una vista “business” che comprende metadati funzionali e di dominio in grado di descrivere il dataset anche a livello logico (entità/attributi) e concettuale (business terms), per farne comprendere il contenuto a utenti non tecnici;
  • I moderni strumenti di Data Catalog sono diventati anche il contesto in cui è possibile strutturare i processi di data governance attraverso veri e propri workflow. Se ad esempio una organizzazione vuole strutturare un processo standard per permettere ai data steward di prendere in carico e rispondere alle richieste da parte dei colleghi di accesso ai dati per finalità analitiche, all’interno del Data Catalog è possibile implementare workflow approvativi che vengono completamente gestiti all’interno della piattaforma stessa e che vengono tracciati per essere anche eventualmente monitorati e periodicamente rivalutati.

Queste funzionalità stanno diventando indispensabili per governare con efficienza e precisione un patrimonio informativo in rapida espansione. E se per finalità interne possono essere utilizzati strumenti che facilitano molto il processo di governance, è evidente che il “catalogo pubblico” debba necessariamente usufruire di queste funzionalità e integrarsi con questi processi. Del resto, il catalogo pubblico non è molto di più che una vista parziale del catalogo interno, che contiene solo i dati cui può essere garantito un accesso libero al di fuori dell’organizzazione.

I Take-Away da tenere a mente

Come abbiamo visto, la crescente complessità suggerisce di adottare strumenti di data catalog per supportare i meccanismi interni di governance, affiancandoli alla tradizionale “vista” pubblica dei dati (il catalogo pubblico, appunto) che a livello tecnologico può rimanere sulle piattaforme che si sono tradizionalmente consolidate per questo ambito (CKAN su tutte). Fra questi due sistemi è auspicabile creare meccanismi di allineamento costante ed automatico in modo tale che le modifiche ed evoluzioni registrate su una parte vengano immediatamente riversate e rese visibili anche sull’altra.
Ecco quindi gli aspetti che suggeriamo di tenere a mente quando si costruiscono le diverse viste del catalogo dati di una Pubblica Amministrazione:

  • Il catalogo di dati pubblici dovrebbe essere una porzione, una vista del più ampio data catalog dell’organizzazione che sottende e supporta i principali processi fondamentali per la data governance;
  • Il fallimento nella definizione di strumenti, standard e procedure a supporto dei processi di data governance comporta per le pubbliche amministrazioni la perdita di controllo e l’impossibilità di cogliere le opportunità offerte dalla Data Revolution in corso.

Giorgio Gabbani, Senior Manager

Vuoi continuare ad approfondire su temi di Data Governance e Data Catalog?
Esplora anche questi contenuti:
“Puoi ancora perdere tempo a cercare dati sparsi in azienda? Spoiler: NO.” | Leggi il Data Answers >>
“Data Governance Fundamentals: metodologia, organizzazione e tecnologie” | Guarda il Webinar on demand >>

All the tech, business news and trends you need to know. Delivered to your inbox.
Share
Share