1. Cos’è l’Analisi Predittiva?
L’Analisi predittiva o Predictive Analytics, come osservato esplorando il tema della Business Analytics, è una delle possibili analisi che portano valore all’azienda tramite l’uso di tecniche avanzate per l’elaborazione dei dati e l’estrazione di informazione.
Quando si vuole definire formalmente cosa sia la Predictive Analytics, non è raro imbattersi in differenti declinazioni, che spesso pongono l’accento sulla differenza tra Analisi predittiva e Forecast: per alcuni, la prima è un’analisi che permette di prevedere il valore o il comportamento di un singolo individuo o unità, e la componente temporale non ha una specifica valenza o al più riguarda il prossimo futuro; la seconda ha come oggetto di analisi un aggregato, e l’informazione riguarda espressamente il futuro, anche lontano. Secondo questa interpretazione, una domanda come “Il mio cliente passerà alla concorrenza?” è da inserire alla voce Predictive Analytics, mentre “Quale sarà l’andamento delle vendite nei prossimi 5 anni?” viene definito Forecast, nel rispetto di una contrapposizione formale tra micro/macro e breve/lungo termine.

Per poter riconciliare differenti punti di vista ed evitare di rincorrere sterili classificazioni può tuttavia risultare utile citare Granger & Pesaran che, nel loro Journal of Forecasting (2000), si esprimono così: “In the real, non-academic, world forecasts are made for a purpose and the relevant purpose in economics is to help decision makers improve their decisions“. Con questa visione si vuole considerare l’analisi predittiva, nelle sue diverse declinazioni tecniche, come quell’insieme di analisi che partendo da dati già osservati (nel passato o su altri individui) ci permettono di prevedere situazioni non ancora osservate, al fine di sostenere delle decisioni di business tramite l’identificazione di rischi e opportunità.
2. Machine Learning e Analisi Predittiva

Analisi predittiva e Machine Learning hanno ampi spazi di sovrapposizione, senza che la prima si risolva completamente nella seconda. L’analisi predittiva è un approccio che si serve di diversi strumenti, tra cui analisi statistiche, data mining e modelli predittivi, e proprio questi ultimi vengono normalmente identificati come algoritmi di Machine Learning. È necessario, tuttavia, sottolineare come l’analisi predittiva esprima un forte accento sull’interpretazione e conoscenza del meccanismo che genera la previsione, aspetto non centrale nel mondo ML, ma più affine agli studi econometrici.
Per descrivere alcune delle famiglie di modelli principalmente utilizzate in Predictive Analysis, si potrebbe prendere spunto da esempi di domande di business che possono trovare una risposta in questo approccio data driven:
– Quale esperienza posso suggerire al mio cliente date le sue caratteristiche?
– Quale sarà la probabilità di default?
– Quale sarà il trend dei contatti all’assistenza clienti per i prossimi sei mesi?
– Quale sarà l’effetto di una nuova promozione sulle vendite?
– Quale sarà il tempo previsto per la consegna?
Già in queste semplici domande si possono identificare differenti aspetti caratterizzanti:
- La natura della variabile da prevedere (detta target o dipendente): un numero, una probabilità o una classe
- La necessità sottostante la domanda: alta precisione o capacità esplicativa
- La natura delle informazioni coinvolte nella previsione (dette feature o indipendenti): profondità storica, singolo istante temporale o entrambe
Sulla base della natura della variabile è possibile, rifacendosi al mondo Machine Learning, distingue tra Regressione e Classificazione:
- La Regressione permette di prevedere una variabile di interesse numerica, come un volume, un prezzo o un tempo. Il modello più noto è la regressione lineare in cui il legame tra la variabile target e i dati che sono utilizzati per prevedere è lineare: l’impatto del cambiamento di una feature sulla variabile dipendente è sempre lo stesso, a prescindere dal valore della feature stessa. Dovendo prevedere il tempo necessario per raggiungere un luogo, tale tempo aumenta all’aumentare della distanza. Tuttavia, potrebbero esistere relazioni non prettamente lineari: qualora volessimo prevedere le spese sanitarie in funzione dell’età di un soggetto, è sensato pensare che l’impatto atteso sulle spese sanitarie di un anno in più a 20 anni sia lo stesso che si osserva passando da 80 a 81 anni? Per questi casi esistono diversi correttivi al fine di introdurre forme di non linearità in una regressione.
Tuttavia, un grande vantaggio della regressione lineare è l’interpretabilità. Qualora la domanda di business fosse volta a prevedere la variabile target anche in funzione dell’impatto di cambiamenti in una feature – più o meno controllabile dal business stesso – allora la regressione lineare offre la possibilità di interpretare molto facilmente tale impatto, abilitando anche analisi di scenario. Passare all’utilizzo di una regressione non lineare permette di migliorare la capacità del modello di catturare la relazione tra le variabili, ma rende più complessa. Tutto ciò stante che il modello possa essere stimato e che quindi il numero di feature usate non sia troppo grande rispetto alle osservazioni disponibili (curse of dimensionality). Una possibile risposta a questa problematicità è l’uso di Neural Net, famiglia di modelli capaci di catturare molto bene le non linearità e gestire un alto numero di variabili, generando previsioni accurate. Poiché “there ain’t no such thing as a free lunch”, la capacità interpretativa viene tuttavia ridotta.
Infine, la natura stessa dei dati a disposizione per prevedere il target condiziona la scelta del modello. Conosciamo solo lo storico delle vendite del nostro prodotto? Vogliamo integrare tali informazioni con aspetti macroeconomici disponibili su fonti pubbliche? Abbiamo deciso di comprare delle informazioni sull’andamento della industry di riferimento? Queste diverse condizioni porteranno l’analisi da modelli prettamente time series univariati, come modelli autoregressivi ARMA o basati su filtri, verso estensioni multivariate, giungendo infine a modelli in cui verrà integrata l’esperienza del business per definire le relazioni con il mercato, come mixed-effect model. - La Classificazione invece permette di prevedere l’appartenenza ad un gruppo osservabile: il cliente cambierà operatore (due classi – si o no)? Quale tipologia di attacco subirà una unità della mia filiera produttiva (classi multiple)? Il debitore attualmente unlucky to repay (UTP) ritornerà solvente, passerà al default o resterà nell’attuale stato (classi multiple ordinate)? Anche in questo campo la scelta fra i possibili modelli dipende dalle necessità a corollario: è utile per il decision maker sapere quale è la probabilità che il cliente cambi operatore o è sufficiente una risposta netta “resterà/se ne andrà”?
Infatti, alcuni modelli come kNearestNeighbour (k-NN) non producono come output la probablità di appartenere ad un gruppo, al contrario di modelli statistici come Logit/Probit. Se quest’ultimi modelli statistici abilitano interpretazioni sull’impatto delle singole variabili esplicative, tuttavia soffrono di limiti circa la numerosità delle variabili e/o lo sbilanciamento dei dati (vale a dire la grande maggioranza delle osservazioni appartengono allo stesso gruppo), per cui modelli come Random Forest o Gradient Boost possono portare dei miglioramenti.
Infine, qualora fosse di interesse anche capire l’evoluzione temporale del passaggio da un gruppo ad un altro, come quando si discute di previsione di alternanza tra fasi di recessione/espansione, risulta indispensabile applicare modelli come Markov Switching Model per catturare l’evoluzione. Questi esempi di domande, cui sono stati associati differenti modelli, mostrano come il coinvolgimento della business unit sia sempre centrale affinchè un modello di Predictive Analytics possa contribuire a prendere una decisione. La domanda “subirò un attacco?” può trovare risposta nella creazione un modello di classificazione che predica la probabilità di essere tra i soggetti attaccati. Tuttavia, questa necessità potrebbe anche essere reinterpretata come “fra quanti giorni subirò un attacco?”. Tale cambio di prospettiva comporta una diversa natura della variabile target, da classe a numero, e del relativo modello, da un classificatore binario ad un modello di survival analysis.
3. Analisi Predittiva e Vantaggi

L’eterogenea natura delle domande che hanno guidato la precedente breve esplorazione sulle famiglie di modelli più note, mostra come l’analisi predittiva possa contribuire a prendere migliori decisioni in diverse industry: da Retail e Manufacturing, a Banking e Public Sector. Ma cosa vuol dire prendere migliori decisioni? L’analisi predittiva ha il potenziale per guidare il processo decisionale, incidere sulla formulazione della strategia e migliorare le prestazioni organizzative. Nei risultati di diverse survey sul tema dei benefici dell’analisi predittiva, emergono vantaggi quali:
• Processi decisionali più rapidi ed efficaci
• Miglioramento dell’efficienza e della produttività
• Migliori prestazioni finanziarie
• Identificazione e creazione di nuovi prodotti e servizi
• Miglioramento dell’acquisizione e della fidelizzazione dei clienti
• Miglioramento dell’esperienza dei clienti
• Vantaggio competitivo
4. La Predictive Analytics in azione: casi d’uso
Per comprendere più approfonditamente i vantaggi elencati nel precedente paragrafo, ecco la presentazione di alcuni fondamentali casi d’uso:
- Cybersecurity

Le vulnerabilità informatiche sono mal funzionamenti, configurazioni sbagliate o semplicemente errori presenti in un sistema che lo espongono a dei rischi. La loro presenza rende un sistema vulnerabile ed esposto agli attacchi informatici. Nel National Vulnerability Database (NVD) vengono censite e rese pubbliche le CVE (Common Vulnerability and Exposures), un sottoinsieme di vulnerabilità informatiche che, oltre ad essere state confermate dal fornitore del prodotto, rispondono a dei requisiti di patching e impatto.
Il numero di queste vulnerabilità è in costante crescita e le aziende devono affrontare questo problema con delle risorse finite o scarse. Risulta quindi indispensabile identificare un criterio di prioritizzazione delle attività di mitigazione da attuare. Grazie all’utilizzo di fonti dati open su vulnerabilità e loro sfruttamento, attraverso l’uso di differenti modelli di predictive analytics – tra cui XGBoost e Logistic Regression – è possibile identificare la probabilità di sfruttamento di una specifica vulnerabilità. Incrociando tali informazioni con gli asset aziendali e la loro criticità di business, è possibile supportare le aziende sia nella prioritizzazione delle attività di mitigazione che nell’analisi e nella gestione del rischio, anche dal punto di vista assicurativo.
Tra i principali benefici è emersa una maggior efficacia delle attività di mitigazione e prevenzione degli attacchi, una valutazione del rischio a livello entreprise di natura quantitativa ed in conseguenza una miglior allocazione delle risorse economiche per la gestione del rischio.
- Forecast della domanda
L’attuale quadro macroeconomico ha mostrato il livello di stress cui è sottoposta la supply chain in diverse industry. Una possibile risposta per efficientare la gestione della logistica è una migliore conoscenza della domanda del prodotto. Date le informazioni sul passato delle vendite, in aggiunta a informazioni di contesto macroeconomico, socio-demografico e social, attraverso modelli per serie storiche multivariate, è possibile prevedere la domanda per specifici prodotti, abilitando anche lo studio di diversi scenari.
Tra i principali benefici è emerso l’efficientamento dei magazzini, la riduzione dei costi, la possibilità di indirizzare azioni commerciali ad hoc e supportare le scelte di produzione.
- Churn Rate
I clienti sono beni preziosi che devono essere gestiti con competenza, soprattutto in mercati ipercompetitivi in cui l’acquisizione di nuovi clienti è una sfida.
Le aziende monitorano costantemente metriche di coinvolgimento e soddisfazione dei clienti, con l’obiettivo di identificare precocemente i clienti a rischio (quelli che probabilmente si trasformeranno) e di indirizzare le azioni (campagne, promozioni) verso la loro fidelizzazione. Il tasso di abbandono riflette la risposta dei clienti al servizio, ai prezzi e alla concorrenza. Attraverso l’uso di dati relativi al comportamento dei propri clienti, informazioni esterne (sociodemografiche, concorrenza,…) e studi sulla competitività e i trend di settore, è possibile tramite modelli di classificazione – come ensamble di alberi decisionali – identificare quali sono i fattori che determinano l’abbandono dei clienti, assegnare un punteggio ai clienti in base al rischio di abbandono e guidare la creazione di offerte di fidelizzazione personalizzate o più in generale definire la next best action.
- Estimated Time of Arrival (ETA)

Prevedere il tempo di arrivo di una spedizione è estremamente importante sia per poter gestire la relazione con il cliente sia per poter pianificare in maniera efficace la propria flotta, al fine di ridurre i costi.
Le informazioni utilizzabili per questa previsione sono legate alla natura del percorso, alle condizioni atmosferiche, alle attività di manutenzione sulla rete, ma anche al monitoraggio tramite sistema GPS dei mezzi. Quest’ultima fonte mette a disposizione una grande quantità di informazioni, mostrando i punti di contatto tra l’analisi predittiva e il mondo dei Big Data. Ad esempio, grazie a modelli basati su Neural Net è possibile prevedere i tempi di arrivo delle diverse spedizioni, aggiornando tale previsione durante il percorso, e proponendo un’informazione intellegibile che abiliti a prendere decisioni operative. Tra i principali benefici vi è un processo decisionale maggiormente trasparente ed efficace, con una conseguente riduzione dei costi.
Questi sono solo alcuni esempi di applicazioni di Analisi Predittiva come supporto alle decisioni, un potente approccio data driven che permette di analizzare dalla previsione dei flussi turistici per efficientare l’offerta di servizi all’identificazione e prevenzione di possibili frodi bancarie, dalla manutenzione predittiva (Predictive Maintenance) alla previsione dell’impatto dei cambiamenti climatici.
Chiara Perricone, Architect