I sei errori da evitare quando lavori con i dati

“Eureka! I dati non mentono:

possiamo investire tutte le risorse della nostra azienda in questo progetto!”

Sei (tristi e caotici) mesi dopo, la stessa azienda fallì.

 

Come è possibile che i dati possano portarci a compiere cattive decisioni?

Sono numeri e dovrebbe essere facile interpretarli con le tecnologie disponibili sul mercato e promosse dalle big della consulenza.

Il punto è che non esiste nessuna tecnologia “pronta all’uso” che possa garantirti di scoprire il “Sacro Graal” nascosto nei dati della tua azienda o di quella dei tuoi clienti.

Dipende tutto dalle capacità delle persone che prendono in carico l’analisi e l’elaborazione dei tuoi dati.

Allora, dato che si sente sempre più spesso parlare di strategie e approcci Data Driven e che questa è diventata una delle aree di maggior investimento delle aziende, anche in Italia, è arrivato il momento di fare luce sulle principali cause che portano all’errata interpretazione dei dati.

Sono “Lo Scienziato”, ogni giorno aiuto imprenditori e manager a prendere decisioni informate e ad acquisire concreti vantaggi competitivi, e oggi ti parlerò dei 6 errori che, troppo spesso, vedo compiere.

Leggi con attenzione quanto segue perché è facile gridare “Eureka” per poi accorgersi di aver semplicemente preso un abbaglio.

 

1) Anche se hai odiato l’esame di statistica, conoscerla è fondamentale!

Che tu sia il professionista che conduce l’analisi o il manager che gestisce il gruppo di data scientist, le conoscenze sono tutto quando maneggi i dati.

Ad esempio, la differenza tra media e mediana e il tipo di filtro che entrambe introducono sui dati sono delle nozioni elementari che ti permettono di evitare errori grossolani.

Facciamo un esempio.

Immagina che la tua azienda voglia calcolare l’efficienza dei suoi corrieri per premiare i più meritevoli: quello che verrebbe in mente è di cercare un valore significativo che rappresenti l’efficienza di un corriere e studiarne l’evoluzione nel tempo.

Sicuramente, andresti alla ricerca di un sistema per tenere traccia dell’istante in cui viene fatta ogni consegna: una prima intuizione, ragionevole e corretta, potrebbe essere quella di utilizzare il tempo intercorso tra due consegne come indicazione del tempo di consegna.

Potresti voler “normalizzare” questo valore in base alla distanza percorsa, tenendo conto del traffico: ti troveresti così davanti a una serie di tempi normalizzati sicuramente interessanti.

Ora, la tentazione di calcolare la media, magari giorno per giorno, è sicuramente forte. In questo modo, forse, potresti rispondere prontamente alla richiesta di ottimizzazione dei processi dei corrieri. Ma è l’approccio giusto?

Andando a studiare i dati così raccolti e messi a sistema (in media), quello che si noterebbe è che c’è una consegna ogni giorno che dura un’ora più delle altre (quella fatta a cavallo dell’ora di pranzo) e un’altra che dura ben 14 ore più delle altre (quella di fine giornata).

In più, probabilmente, ogni giorno, potresti incorrere nell’errore di calcolare 2-4 consegne che, in realtà, non avvengono mai (una per ogni pausa del corriere).

In questo caso-esempio la mediana avrebbe risolto il problema, essendo un filtro particolarmente efficace nell’eliminazione di outlier sistematici (valori anomali).

Prendendo infatti quel valore che divide a metà i tempi di consegna e non quel valore che li somma tutti, andresti a cancellare quei pochi cicli poco significativi (fasce orarie nelle quali i poveri corrieri che stai valutando erano in pausa o, addirittura, a casa con moglie e figli).

 

2) Non confondere la causalità con la casualità!

Alcune volte, potresti notare che c’è una fortissima correlazione fra due tipologie di eventi.

Attenzione! Esistono tantissimi esempi famosi di variabili che sono fortemente correlate ma senza nessun legame di causalità.

Si tratta di fortunati o sfortunati casi che complicano la vita quando si lavora coi dati. Quindi, prima di generare dei falsi insight (quindi giungere a conclusioni errate), è necessario prendere il giusto tempo per riflettere su quanto trovato.

Ma come farlo in maniera “scientifica”?

 

3) Prima di cominciare, decidi come ti valuterai!

Valutare quello che stai facendo o sapere come il tuo gruppo di lavoro si valuterà è di fondamentale importanza.

Facciamo un altro esempio.

Immagina di trovarti davanti a una classe di ingegneria informatica di 100 persone e di voler prevedere il sesso delle stesse conoscendo l’altezza e il peso: niente di più semplice, penserai. Statisticamente, è molto probabile che le persone più alte e pesanti siano uomini e, viceversa, le altre saranno donne.

Bene. Cosa accadrebbe se ti dicessi che in questa classe ci sono 99 aspiranti ingegneri e una sola aspirante ingegnera?

Un algoritmo che dice sempre “uomo” avrà un’efficacia altissima: indovinerà il 99% delle volte (si può, quindi, parlare di precisione). Avrà però una scarsissima capacità di riconoscere le donne (definita recall@donna), riconoscendone lo 0%.

Allo stesso modo, un algoritmo che massimizza invece la capacità di riconoscere le donne (recall@donna) sarà quello che dice sempre donna, non riconoscendo la presenza di neanche un uomo.

Insomma, non esiste IL modo per classificare un algoritmo in assoluto.

Esiste solo IL modo migliore rispetto al problema che la tua azienda o i tuoi clienti stanno cercando di risolvere con il modello utilizzato.

Ogni volta che il tuo modello commette un errore, l’azienda ne pagherà le conseguenze a livello economico (come mancato incasso, come mancata previsione di un guasto, …).

Insomma, quando lavori con i dati o affidi questo compito a uno specialista, devi sempre calcolare il costo economico di ogni errore e cercare di ottimizzare il modello per minimizzarlo.

 

4) Se ottieni un risultato troppo buono al primo colpo, hai sbagliato qualcosa!

Ottenere una precisione del 99% al primo colpo può voler dire due cose (entrambe non entusiasmanti):

– hai uno sbilanciamento fortissimo fra le due classi che vuoi prevedere (vedi l’esempio precedente);

– hai codificato alcune informazioni del dataset di test nel dataset di training e il modello, trovando situazioni che già conosce, ti restituisce sempre la risposta “giusta”.

Questa situazione, definita tecnicamente “leaking”, è estremamente complessa da riconoscere: infatti, quando succede bisogna entrare nel merito applicativo di come sono state estratte e poi combinate le features.

 

5) Hai tante frecce al tuo arco. Sai come utilizzarle?

L’hype sulle nuove tecnologie è altissimo.

Dal mondo del deep learning con complesse architetture di rete, ad algoritmi ottimizzati su hardware: le nuove possibilità sono infinite e, non lo nego, eccitanti.

Il punto, però, è che ci sono tante conoscenze e modelli del mondo tradizionale che spesso vengono deliberatamente ignorate.

Ad esempio, se devi pulire i dati da un segnale periodico, la scelta migliore è quella di lavorare sul piano delle frequenze, utilizzando una trasformata di Fourier, un filtro a spillo e un’antitrasformata di Fuorier.

Inutile cercare soluzioni più complesse, solo perché “alla moda”!

Allo stesso modo, se hai due distribuzioni di campioni da confrontare, il mondo dei test d’ipotesi può tornarti molto utile.

Infatti, se ti aspetti un segnale Gaussiano ma, dopo una prima analisi, dovessi ritrovartene uno appartenente ad altre distribuzioni, potresti trovarti di fronte a un problema di carattere sistematico che non stai considerando.

 

6) Ci sono conoscenze tecniche di dominio che vanno sempre ricordate!
Ancora una volta, devi fare sempre attenzione verso quello che stai facendo.

Se devi lavorare su segnali elettrici, ricordati di togliere il rumore di rete.

Se devi lavorare con un segnale continuo, ricordati il teorema di Shannon che ci insegna infatti che bisogna campionare un segnale con una frequenza pari al doppio della massima frequenza presente nel segnale (+1).

Ovviamente, se non conosci la frequenza massima, campiona alla massima frequenza che fisicamente sei in grado di campionare. Così, potrai calcolare la frequenza massima presente e poi utilizzare questa informazione per scegliere la frequenza di campionamento.

Se devi lavorare con un’immagine, ricordati sempre di partire applicando un filtro gaussiano.

Se devi lavorare con del testo, rimuovi con cura le stop word e ricordati che ogni dominio ha le sue stop word.

Vuoi scoprire come costruire un modello di analisi perfetto, senza commettere errori che potrebbero costare caro a te e alla tua azienda?

Compila il form in basso per richiedermi una consulenza gratuita.







AccettoNon accetto


AcconsentoNon acconsento