Differenza tra dati e informazioni e come utilizzarli

Condividi questo articolo con chiunque pensi possa trovarlo utile
Tempo stimato per la lettura: 5 minuti

 

In questo articolo affronteremo forse uno degli aspetti fondamentali di tutta la Business Intelligence e alla base dell’analisi dati: la differenza tra dati e informazioni.

I dati sono il nuovo petrolio, ma senza le giuste trivelle (la business intelligence) diventano perfettamente inutili perché non danno nessun valore aggiunto. Oggi scopriremo perché i dati non sono informazioni e come bisogna utilizzarli per poterne trarre informazioni utili per l’azienda

DEFINIZIONE DI DATO

I dati di cui un’azienda dispone sono tantissimi e spesso difficili da leggere, ma soprattutto sono dati grezzi.

Possiamo definire i dati come la codifica strutturata delle singole entità primarie e delle transazioni che coinvolgono due o più entità primarie. Tutte le entità su cui si basa la vita di un’azienda: clienti, fornitori, dipendenti, ordini di acquisto, ordini di vendita, ecc

Volendola vedere in un altro modo possiamo considerare i dati come le singole azioni/transazioni che avvengono quotidianamente intorno all’azienda.

 

 

    • Un utente effettua un acquisto da noi => questo è un dato
    • Acquisiamo l’anagrafica di un utente => questo è un dato
    • Un prodotto viene spostato da un magazzino ad un altro => questo è un dato
    • Ordiniamo un prodotto da un fornitore => questo è un dato
    • Stocchiamo un prodotto nel magazzino => questo è un dato
    • Emettiamo una fattura => questo è un dato
    • Riceviamo un pagamento => questo è un dato

E potrei continuare con una lista infinita di situazioni che ci consentono di acquisire dati.

 

Un Dato è una rappresentazione oggettiva e non interpretata della realtà, ciò che è immediatamente presente alla conoscenza.

si tratta di una semplice segnalazione che ha sicuramente un valore proprio, ma può assumere significati differenti a seconda del contesto in cui si trova.

Per esempio il numero 100 può suscitare una sensazione di calore se parliamo di gradi centigradi, di tempi lunghi se parliamo di giorni, o di una dimensione ben precisa se parliamo di millimetri o kilometri, di più o meno piacere se si tratta di un’entrata piuttosto che un uscita di denaro

Come è facile comprendere, questi dati da soli non hanno molto valore né premettono a manager o decision maker di fare analisi o prendere decisioni sul futuro aziendale.

Perché i dati grezzi hanno poco valore

Proviamo ad immaginare un’azienda di grandi dimensioni e a pensare alla quantità di dati grezzi che può generare ogni giorno.

I data base delle aziende sono organizzati in tabelle che contengono centinaia di migliaia (se non di milioni di righe) . Una tabella potrebbe essere quella delle vendite in cui viene riportata ad esempio ogni singola vendita effettuata dall’azienda. Un’altra tabella potrebbe essere quella delle informazioni anagrafiche dei clienti ecc.

In quest’ottica tutta questa mole dati risulta essere illeggibile e di poco valore, tuttavia se riusciamo ad aggregarli e legarli ad altri dati logicamente collegati possiamo ottenere un grandissimo valore.

DEFINIZIONE DI INFORMAZIONE

Una Informazione è una visione della realtà derivante dall’elaborazione e interpretazione dei dati, il significato che associamo ai dati.

Ecco quindi che l’informazione è il dato nel suo contesto.

Detto in altri termini un’informazione è il risultato di operazioni di estrazione e elaborazione compiute a partire dai dati.

Il processo di produzione delle informazioni si articola in tre fasi:

  • acquisizione dei dati (elementari);
  • elaborazione dei dati;
  • emissione dell’informazione.

 

Potremmo ad esempio:

 

    • Estrarre un trend di vendita per un certo prodotto
    • Estrarre dati predittivi per conoscere gli andamenti futuri di vendita
    • Estrapolare informazioni complesse sul comportamento di nostri utenti: riporto un esempio vissuto in prima persona in una grande Utility italiana. Confrontando la periodicità di switching (ossia di cambiamento di fornitore di energia elettrica), con la situazione creditizia di alcuni clienti si riesce ad arginare il problema degli “switchatori seriali” ossia quegli utenti che non pagano il consumo elettrico e cambiano gestore prima che questo possa “staccare la luce”
    • Collegare informazioni legate a più processi aziendali per migliorare il servizio offerto/ridurre i costi. Anche in questo caso riporto un esempio preso dalla mia attività di consulente di Business Intelligence (se sei curioso di sapere di più sul mio conto leggi Chi sono).  Una multinazionale che produce e commercializza, tra le altre cose, caldaie e climatizzatori, propone una garanzia di 2 anni su ogni prodotto venduto. Mettendo in relazione il processo di vendita con quello di gestione degli interventi in manutenzione è possibile estrapolare quali prodotti hanno un tasso di rottura molto alto in relazione alle quantità vendute e rivedere il processo di costruzione degli stessi per ridurre enormemente i costi legati alla garanzia.

 

Questi sono esempi di informazioni che permettono a manager e proprietari di azienda di prendere decisioni supportate dai dati, ossia di rendere l’azienda data driven. Questo tipo di informazioni hanno un enorme valore in quanto danno un quadro chiaro ed immediato della situazione e permettono non solo di scoprire problemi ma anche e soprattutto di circoscriverli e quindi trovare un’adeguata soluzione tempestivamente.

 

SI POSSONO AVERE DATI SENZA INFORMAZIONI MA NON INFORMAZIONI SENZA DATI

Possiamo dire che i dati grezzi sono contemporaneamente fondamentale e inutili:

 

    • Fondamentali perché  il percorso verso le informazioni, la conoscenza e la saggezza (che equivale a prendere decisioni corrette di Business) parte dai dati grezzi. Quindi per prima cosa è necessario che l’azienda sia in grado di tracciare e raccogliere i dati.
    • Inutili perché da soli non hanno senso e non portano a nessun miglioramento. Sono solo numeri e stringhe di caratteri che affollano un DB.

Se non ti convince questa ultima frase, prova a leggere questo articolo per scoprire quanto valgono i dati di ognuno di noi (incredibilmente poco) e quanti miliardi valgono per Google e Facebook

Un bel paradosso eh?

In realtà diciamo che questo paradosso non dipende dai dati ma dall’uso che se ne fa. Fin tanto che li raccogliamo solamente ma non abbiamo strumenti per analizzarli non siamo in grado di trarne informazioni e ottenere informazioni.

 

DAI DATI ALLA SAGGEZZA

I dati elementari non sono immediatamente utilizzabili da parte di chi necessita delle informazioni e devono essere opportunamente trattati per diventare informazioni significative e comprensibili per i destinatari.

L’obiettivo di chi raccoglie dati è, o almeno dovrebbe essere, quello di riuscire a prendere decisioni migliori, basate sui dati appunto.

Ma la frase decisioni basate sui dati presuppone diversi salti logici:

  • Dai dati alle informazioni
  • Dalle informazioni alla conoscenza
  • Dalla conoscenza alla saggezza (decisioni sagge).

Questi 3 passaggi sono esattamente la piramide della conoscenza, maglio conosciuta come piramide DIKW. Ne ho parlato allungo nell’articolo Piramide DIKW: dai dati alla saggezza grazie alla Business Intelligence portando il discorso sui vari step che il dato deve percorrere per diventare saggezza attraverso tutto il flusso ideale dei sistemi di Business intelligence:

Percorrere tutta la piramide richiede un grande sforzo sia infrastrutturale che di processo e mindset perché richiede da un lato di instillare nelle persone e nella cultura aziendale una mentalità basata sui dati (data driven )  e dall’altro di predisporre di strumenti a volte molto sofisticati. Per passare infatti dalla conoscenza alla saggezza ho sottolineato come sia necessario riuscire ad estrapolare trend (presenti e futuri) a partire dai dati.

Questo richiede strumenti molto sofisticati che si occupano di predictive analysis, sfruttando tecniche di intelligenza artificiale e machine learning, sia di una forte componente di analisi dei dati da parte degli analisti (che diventano scienziati del dato e non più semplici fruitori di report).

Tutto ciò possiamo dire che rasenta praticamente la perfezione.

Proviamo quindi ad immaginare una situazione intermedia, in cui non si vogliano prendere decisioni completamente scollegate dai dati, ma meno articolata e complessa e proviamo a passare dai dati alle informazioni.

Passare  DAI DATI  ALLE INFORMAZIONI

Tra i dati e le informazioni possiamo ipotizzare che esista lo stesso rapporto che intercorre tra materie prime e prodotti finiti: le materie prime sono il punto di partenza del processo produttivo, la loro trasformazione dà vita a dei semilavorati che, ulteriormente trattati, divengono prodotti finiti.

Per le informazioni accade lo stesso: partendo dai dati elementari si ottengono dei dati sintetici, come aggregazione di dati elementari, che, ulteriormente trattati, portano alle informazioni.

Definire i requisiti: KPI da misurare e informazioni da ricercare

In questo processo l’aspetto importante da evidenziare è il passaggio dai dati elementari ai dati sintetici ovvero il processo di sintesi.

Voglio sottolineare che in questo passaggio si cova un rischio, necessario ma non trascurabile. Occorre considerare, infatti,  che la sintesi riduce il potenziale informativo dei dati:

    • riduce il volume dei dati;
    •  i criteri adottati per sintetizzare i dati dipendono da scelte soggettive;
    • perché è influenzata dal destinatario dell’informazione o dall’uso finale che ne verrà

Di solito si producono dati sintetici che rispondano ad esigenze informative note o prevedibili.

Nell’ultima parte di questa frase si nasconde l’importanza di un’attenta definizione degli obiettivi da misurare (KPI) e di definire di conseguenza i requisiti.

Sfruttare la Business intelligence per passare dai dati alle informazioni

Fatta chiarezza su cosa si intenda per dati e informazioni, proviamo ad ottenere queste ultime.

Abbiamo detto che le informazioni sono dati contestualizzati. Questo è il motivo per cui abbiamo bisogno di manipolare i dati e poterli collegare con altri dati logicamente connessi.

Per poter raggiungere questo obiettivo abbiamo bisogno di un DWH ossia di un database che ci permetta di aggregare i dati secondo le nostre esigenze.

La complessità di un DWH dipende ovviamente dalla complessità delle informazioni che se ne vogliono ricavare, ma in un caso ideale pùò bastare la struttura minima composta da due livelli :

    • livello di estrazione: dove i dati vengono estrapolati dal sistema sorgente (che li conserva) e in cui solitamente non si eseguono manipolazioni del dati
    • livello su cui eseguire le logiche di collegamento

Questo secondo livello in effetti rappresenta proprio il passaggio dal dato alle informazioni.

Nel primo livello infatti non abbiamo fatto altro che spostare il dato da un sistema informatico ad un altro e avrebbe scarso se non nullo valore da solo.

Il secondo livello(ed eventuali livelli successivi) tendenzialmente metterà in collegamento il dato estratto con delle anagrafiche ed eventuali altri dati provenienti da processi di business differenti ma logicamente connessi e necessari a determinare il contesto in cui ci muoviamo.

Riprendiamo il caso riportato precedentemente

E proviamo ad immaginare uno schema semplificato per ricostruire l’informazione che ci interessa “cliente che ha effettuato l’ordine non ha effettuato il pagamento”.

1)Primo livello del DWH: estrazione dei dati

Come primo livello avremo dati provenienti da processi diversi e storicizzati in strutture (tipicamente tabelle) differenti

Abbiamo 3 “tabelle” molto semplici, di cui una anagrafica e le altre due contenenti dati derivanti da azioni che avvengono nel sistema transazionale, ossia vendite, ricevute di pagamento ecc (poiché avvengono nel sistema transazionale molto spesso prendono il nome di dati transazionali, o di movimento).

Per ora il DWH non ha fornito alcun valore aggiunto. Saranno i prossimi livelli a trasformare tali dati in informazioni. Vediamoli insieme

2)Secondo livello del DWH: dai dati all’informazione

Lo schema riportato in questa immagine è ovviamente immaginario in quanto dipende molto dalla struttura dei dati e delle tabelle che li contengono. Ma ad ogni modo proviamo a commentare la parte di manipolazione del dato

Come primo step vediamo un arricchimento del dato mediante l’anagrafica del cliente.

Il disegno riporta una struttura tratteggiata in quanto si tratta in moltissimi ETL di un passaggio implicito ed eseguito quasi automaticamente dal software stesso mediante lo star schema.

Questa inizia ad essere un’informazione ma non l’informazione richiesta per la nostra analisi e pertanto c’è bisogno di collegarla con un altro dato, ossia quello proveniente dai pagamenti.

Nell’esempio abbiamo utilizzato una left join in modo da ottenere l’informazione del pagamento (se presente) collegata all’ordine.

In questo modo abbiamo una tabella contenente tutti gli ordini e per quelli per cui si è ricevuto il pagamento avremo tale informazione mentre gli ordini insoluti non riporteranno tale informazione.

Da tale struttura intermedia possiamo quindi estrarre gli ordini insoluti e i relativi clienti, semplicemente filtrando quelli che non hanno un pagamento associato.

 

Condividi questo articolo con chiunque pensi possa trovarlo utile

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *