In questi giorni di emergenza da Covid-19, oltre alle fake news – che abbiamo esplorato nel nostro nuovo format DataTell. – e alle opinioni variegate su tutti i livelli di conoscenza, si trovano in rete anche diverse elaborazioni di dati che raccontano la pandemia e ne prevedono l’andamento.

Dobbiamo tenere in considerazione la fonte della pubblicazione e fidarci della sua reputazione, anche se non ci vengono forniti elementi descrittivi del metodo utilizzato? Oppure dobbiamo attendere che arrivino dati da fonti ufficiali, come ad esempio l’Istituto Superiore di Sanità, che tuttavia vengono pubblicati con minor frequenza? 

La lettura dei dati non è un aspetto da sottovalutare, soprattutto quando dai dati derivano decisioni e i dati possono essere interpretati in un modo o nell’altro a seconda di chi li analizza.

Quanto possiamo fidarci di analisi e previsioni, se spesso i risultati sono diversi tra loro?

Proviamo in questo articolo a dare alcuni elementi utili per leggere i dati e le analisi che abbondano su social e quotidiani, partendo dalla nostra esperienza quasi ventennale nel settore e dal supporto che stiamo dando alle Pubbliche Amministrazioni locali in questo momento di emergenza.


1. La raccolta dati, questa sconosciuta.
Ovvero: metodi di raccolta diversi portano risultati diversi.

Quando leggiamo i dati nazionali dobbiamo ricordarci che il metodo di raccolta dei dati varia da una Regione all’altra. Tipicamente le Regioni raccolgono i dati socio-sanitari (dimissioni, visite specialistiche, accessi al Pronto Soccorso,…) dalle aziende sanitarie che operano sul territorio e che inviano questi dati periodicamente alle Regioni in forma di flussi amministrativi. Questi ultimi sono utili per quantificare e misurare – anche da un punto di vista economico – l’attività sul territorio, ma proprio per la loro natura non sono sufficienti a misurare fenomeni puntuali come il Covid-19.

A questo proposito le Regioni si sono strutturate, ognuna in modo indipendente, per raccogliere (in tempo reale o in modalità batch) i dati necessari a capire tempestivamente l’attività sul territorio, come ad esempio, le attività dei laboratori di analisi, i ricoveri, la disponibilità dei posti letto e così via.
Si può facilmente intuire come la disponibilità di questi dati, raccolti da ciascuna Regione al livello del proprio territorio, dipenda dalla propria rispettiva capacità di:

  • inserire in modo corretto i dati;
  • eseguire un certo numero di tamponi ogni giorno;
  • prendere tempestivamente o meno in carico i pazienti positivi al virus.

Le strutture sul territorio sono in trincea e il processo di raccolta e invio dei dati puntuali alle Regioni ne risente. Infatti, in più situazioni si è sentito dire dagli assessori o dai governatori che c’erano dati mancanti o che si erano conteggiati anche i dati dei giorni precedenti, cosa del tutto normale visto che i professionisti della sanità devono saper gestire qualcosa di più prioritario come salvare vite umane.

Per capire quindi l’entità e la velocità del diffondersi del fenomeno dei contagi in ciascuna regione, leggendo i valori assoluti presentati dai bollettini giornalieri, serve un metodo di raccolta uniforme non solo a livello nazionale, ma anche regionale previo controllo puntuale dei dati stessi.

In breve: I dati nazionali vanno quindi interpretati all’interno di ogni singolo contesto omogeneo per metodo di raccolta. Immaginiamoci come contesto almeno la Regione, ma sarebbe ottimale fare un ragionamento per provincia (coinciderebbe in modo più preciso con l’azienda sanitaria) con il vantaggio di avere dati che descrivono in modo più affidabile quella porzione di territorio caratterizzata da aspetti omogeni di gestione dell’emergenza.


2. Tamponi sì, tamponi no.
L’insostenibile leggerezza di misurazioni diverse.

Quando leggiamo i dati, dobbiamo capire la copertura dei veri positivi al virus, che – ricordiamo – potrebbero anche non presentare sintomi.
Il numero dei positivi dipende assolutamente dal numero dei tamponi eseguiti e dalla loro copertura sul campione/popolazione di riferimento.
Si parla sempre di numeri assoluti di positivi e di guariti, che non rappresentano, completamente la realtà. I dati vanno pesati per il numero dei tamponi eseguiti e per la popolazione di riferimento.

Quest’aspetto diventa ancora più importante nel momento in cui i dati di più Regioni sono messi a confronto: si rischia davvero di confrontare mele con pere.

Si pensi, ad esempio, alla Lombardia dove la letalità (incidenza dei deceduti sul totale dei malati) è abbastanza elevata e mentre nel Veneto è più bassa. Nel primo caso, l’emergenza maggiore non permette una copertura ampia con tamponi, mentre nel secondo caso l’uso dei tamponi è più esteso.
Questo spiega la differenza tra i numeri delle due Regioni e il fatto che la letalità sembra più alta o più bassa di quella che è la letalità media del virus osservata in Cina.

Per ovviare a ciò bisognerebbe calcolare gli indicatori (KPI) che in statistica vengono chiamati tassi standardizzati, cioè dei conteggi che considerano non solo i tamponi ma anche la numerosità e la tipologia di popolazione di riferimento (ad esempio, gruppi di età e genere) per capire se una Regione è più contagiata di un’altra.

Questi calcoli prima o poi dovranno essere fatti perché tra poco si porrà il problema dell’apertura in sicurezza del Paese e sarà necessario conoscere con precisione la diffusione del contagio in certe porzioni del territorio.
Le Regioni dovrebbero poi utilizzare un metodo uniforme per l’esecuzione dei test (tamponi o sierologici) in modo che i risultati siano confrontabili e si possa ragionare a livello nazionale su misure efficaci per tutto il Paese, onde evitare la creazione di nuovi focolai, perché si sono sottovalutate zone critiche.

In breve: Per comprendere correttamente il livello di contagio in ciascuna porzione del territorio i numeri assoluti che ci vengono forniti vanno pesati per il livello di penetrazione dei test e la popolazione di riferimento. In questo modo possiamo confrontare veramente l’evoluzione dell’epidemia nelle varie Regioni.


3. L’affidabilità di una Intelligenza (Artificiale) poco intelligente.

Dobbiamo tenere in considerazione che i dati vengono poi interpretati da una pluralità sempre più ampia di soggetti e non tutti hanno conoscenza delle peculiarità della macchina organizzativa sanitaria e di protezione civile che c’è dietro e in generale conoscenza epidemiologica sul virus.
C’è il rischio quindi che la sovrabbondanza di informazione possa provocare una distorsione della realtà che lascia il posto all’immaginario collettivo basato su fondamenta non scientifiche.

Se però valutiamo un ambito prezioso dell’analisi dei dati, ovvero la possibilità di estrarre conoscenza utilizzando l’Intelligenza Artificiale (AI), questa ci potrebbe davvero aiutare a ragionare su tanti aspetti in ottica predittiva e prescrittiva permettendoci di agire prima e con più precisione.
Ma perché l’AI dia risultati utili deve essere applicata correttamente su un set di dati certificati e rappresentativi del fenomeno che si sta studiando.

Su diversi articoli presenti in rete si parla dell’applicazione dell’AI per calcolare la fine dell’epidemia. Alcuni studi dicono che questo avverrà a inizio Maggio e altri a metà Giugno, poi a livello regionale/provinciale la situazione è ancora più variegata. Per comprendere i risultati forniti da questi studi bisogna analizzare le assunzioni e i modelli statistici utilizzati da ciascuno, oltre ovviamente alla qualità dei dati utilizzati.

L’AI abilita l’applicazione di metodi matematici che danno previsioni con una certa probabilità, ma la veridicità delle previsioni dipende dalla qualità dei dati e dalla bontà del metodo usato. È inoltre fondamentale conoscere l’affidabilità dell’algoritmo che sta prevedendo la data di fine dell’epidemia.

Insomma, per comprendere studi di questo tipo serve trasparenza sul metodo (ad esempio, semplice interpolazione di serie storiche o auto-apprendimento), quello che in inglese viene chiamato “explainability” di un modello di data science.
Si rischia altrimenti di vedere l’AI come una cosa ostile che decide per noi, quando in realtà è un approccio molto umano-centrico dietro al quale ci sta il lavoro immenso dei Data Scientist.

In breve: Gli studi sul Covid-19 che fanno uso dell’AI dovrebbero esplicitare al lettore i dati utilizzati, l’affidabilità della previsione e i modelli utilizzati. In questo modo si può comprendere la bontà di ciascuno studio e lo scenario che rappresenta con le assunzioni del caso.

Auguriamo infine ai nostri lettori che il ritorno alla normalità avvenga il prima possibile e in condizioni di sicurezza, e che i dati ci guidino al meglio in questo percorso.


Vasil Tabaku – Senior Manager

Nei dati di oggi c’è il business di domani.
Come rimanere sempre aggiornato?
Ricevi tutti gli appuntamenti e le novità direttamente sul tuo indirizzo mail.
Share
Share