La correlazione con Excel

Articolo pubblicato il 10/06/2019 Da Donata Petrelli e rilasciato con licenza CC BY-NC-ND 3.0 IT (Creative Common – Attribuzione – Non commerciale – Non opere derivate 3.0 Italia)

Individuare relazioni tra variabili

In ogni attività, l’analisi dei dati caratteristici di un qualche fenomeno ed una loro interpretazione quanto più realistica sono fondamentali ai fini di ogni tipo di ricerca che abbia come fine ultimo la comprensione del fenomeno stesso ed il suo più probabile sviluppo futuro. L’ approccio scientifico tende generalmente a trovare quali e quante possano essere le cause che portino alla manifestazione dell’evento. Ad esempio, sapere che la temperatura di un ambiente influisce sul rendimento lavorativo è utile in fase di investimenti aziendali. Non sempre però la relazione di causa-effetto è evidente e, dunque, non è così immediato trovare una soluzione ottimale ad un problema contingente.

In questo articolo si parla di un metodo matematico che prova ad individuare se tra due grandezze, di cui si ignora a priori qualsiasi tipo di associazione, possa sussistere una relazione tale che la variazione dell’una comporti anche la variazione dell’altra e, nel caso avvenga, con quale misura. Stiamo parlando della correlazione un potente strumento statistico che permette una prima individuazione di quella che poi diventa una relazione di causa-effetto con tutti i benefici che la scoperta possa apportare nelle fasi operative e decisionali.

Sapere ad esempio se una certa sostanza possa influenzare la regressione di un virus o un evento macro-politico possa incidere sull’andamento di un asset finanziario, sono problematiche che a priori non possono avere immediata e prevedibile risposta ma la cui soluzione fa la differenza ai fini del bene comune o del patrimonio personale.

Trovare una correlazione tra i dati, come e quanto due grandezze variano insieme, è dunque di fondamentale portata e qui vedremo come farlo utilizzando uno strumento potente e semplice allo stesso tempo come Excel.

Variabili e funzioni

Nello studio di qualsiasi fenomeno la prima cosa che cerchiamo di fare è quello di rappresentarlo per analizzarlo nei suoi vari aspetti. Per fare questo ci chiediamo, per prima cosa, quali elementi intervengono a generarlo. In gergo tecnico andiamo a determinare le variabili, ovvero quelle grandezze che, assumendo valori numerici diversi, sono responsabili della manifestazione del fenomeno stesso.

Quando una variabile è una grandezza che assume valori numerici diversi indipendentemente da qualsiasi altro fenomeno che si verifichi si chiama variabile indipendente. La sua natura è quella di cambiare (se non lo facesse si chiamerebbe costante) a prescindere da qualsiasi altro evento. Ad esempio la temperatura di un certo ambiente o il numero di ore di studio di uno studente, sono variabili che cambiano in modo indipendente da altre.

Quando invece i valori numerici che assume una variabile dipendono da quelli assunti da un’altra (o più di una) variabile indipendente, si chiama variabile dipendente. Ad esempio il numero degli esami superati da uno studente dipende dal numero delle ore di studio.

Descrivere il comportamento del fenomeno in oggetto significa scoprire se esiste una relazione di causa-effetto tra due (o più) variabili, quella indipendente e quella dipendente. La relazione tra le variabili si chiama funzione e la sua descrizione è il grafico della funzione.

Il Grafico

Nel caso di una funzione di due variabili, una indipendente e l’altra dipendente, la rappresentazione avviene in un piano (chiamato piano cartesiano) in cui orizzontalmente (asse X) sono riportati i valori della variabile indipendente e verticalmente (asse Y) i valori corrispondenti della variabile dipendente.

Nell’ambito dei mercati finanziari, volendo studiare il comportamento di una asset, come ad esempio una azione, si utilizzano come variabile indipendente il tempo e dipendente almeno una delle seguenti caratteristiche dell’asset: il prezzo di apertura, il prezzo di chiusura, il prezzo di minimo, il prezzo di massimo e i volumi. Ad esempio se volessimo studiare l’andamento di una azione, scegliamo ad esempio Intel (simbolo INTC), potremmo utilizzare un grafico che riporta l’andamento di una variabile per noi significativa ai fini dello studio, come il prezzo di chiusura giornaliero, in funzione di quella indipendente che è il tempo, i giorni nel caso di time frame giornaliero.


Figura 1 – Grafico Intel a un anno

Il grafico è il primo e più importante strumento di analisi che consente ad un analista di fare le prime considerazioni circa l’andamento del fenomeno rappresentato dalla variabile y.

Se poi ad esso aggiungiamo strumenti come la linea di tendenza del grafico applicabile dal grafico di Excel la valutazione del trend sarà facilitata.

Prima della relazione causa-effetto: la correlazione

Spesso succede che descrivere il comportamento di una singola variabile, magari dipendente da altre, non è sufficiente per effettuare l’analisi di un fenomeno ben più complesso in cui entrano in gioco altre variabili di cui non si conosce ancora la relazione reciproca.

In questo caso dobbiamo fare un passo indietro rispetto a quello dell’analisi causa-effetto descritta precedentemente ed andare a studiare la correlazione tra le variabili. Grazie alla correlazione è possibile verificare se esiste una relazione tra le caratteristiche del fenomeno, rappresentate dalle variabili, e, nel caso affermativo, di quale intensità.

Nell’analisi di correlazione le variabili sono indicate con X1 e X2 e non X e Y, come nel caso di relazione causa-effetto, proprio per evidenziare l’assenza del concetto di dipendenza funzionale.

Non sappiamo ancora se e che tipo di relazione esiste tra di esse. Per cominciare si utilizza la correlazione, per valutare se tra loro esiste una relazione lineare. Se l’analisi dovesse fornire esito negativo, cioè non dovesse sussistere una relazione lineare, ciò non significa che non ci possano essere altri tipi di relazione. Potrebbe ad esempio esserci una polinomiale di grado maggiore di uno, dovremmo pertanto andare ad utilizzare altre tecniche più sofisticate per trovarla.

Analisi grafica di correlazione

Anche in questo caso la prima cosa da fare è analizzare graficamente le distribuzioni dei valori delle due grandezze e verificare così visivamente se possa esserci una relazione tra le due variabili. Per assolvere questo compito si utilizza normalmente il tipo di Grafico Scatterplot presente nella collezione dei grafici di Excel, chiamato anche grafico di dispersione.

Prima di entrare nel cuore dell’analisi grafica però dobbiamo fare una necessaria premessa riguardo i dati da rappresentare e la loro preparazione prima della costruzione del grafico. Per esperienza infatti sappiamo che gli outlier, i valori anomali e molto distanti dall’insieme del campione in esame, possono falsare le analisi. Per questo è buona norma trattare preventivamente i dati andando ad eliminare questo ‘rumore’ di fondo rappresentato dagli outlier. Inoltre dobbiamo tenere presente il tipo di grandezze con cui stiamo lavorando e che potrebbero avere unità di misura differenti. In questo caso dovremmo cercare il miglior compromesso ai fini della rappresentazione grafica e portare le variabili omogenee ad un’unica unità di misura. Ad esempio se stiamo lavorando con misure di lunghezze espresse una in metri e l’altra in millimetri, convertirle entrambe in centimetri faciliterebbe la loro analisi di correlazione.

Una volta ottenuti e trattati i dati delle due grandezze e dopo aver apportato il corretto controllo sul numero di valori da rappresentare, creare un grafico scatterplot è semplicissimo. Basta selezionare l’area dei valori delle due grandezze ed inserire dal menu ‘Inserisci’ il grafico a dispersione, preposto a visualizzare le relazioni tra i due set di valori.

Ritornando all’esempio dell’analisi di asset azionari, vogliamo confrontare le coppie di valori dei prezzi di chiusura dell’azione Intel e AMD per valutare se esista una correlazione tra i due stock.  Procediamo come descritto in precedenza e creiamo un primo scatterplot andando a mettere i valori Intel sull’asse delle X e quelli AMD sull’asse delle Y. Poi un secondo facendo il contrario, mettendo cioè i valori AMD sull’asse delle X e quelli di Intel sull’asse delle Y.

In entrambi i casi inseriamo nel grafico la linea di tendenza e visualizziamo anche l’indicatore R2 che misura la bontà del modello lineare ottenuto e l’equazione della retta che lo rappresenta.


Figura 2 – Grafico a dispersione dei valori INT nell’asse X e AMD nell’asse Y

Figura 3 – Grafico a dispersione dei valori AMD nell’asse X e INC nell’asse Y

Ciò che otteniamo sembra sorprendente perché, nonostante le equazioni delle due rette siano differenti tra loro, il valore di R2 è lo stesso in entrambi i casi. Interpretando il significato di R2, questo significa che la correlazione non fa distinzione su quale grandezza viene riportata nell’asse orizzontale e quale in quello verticale. La correlazione studia il rapporto tra le grandezze in senso assoluto, cioè in assenza di una ipotesi a priori di una certa dipendenza funzionale tra le variabili rappresentate.

In generale il suo uso è appropriato quando lo scatterplot ha una forma ovale come negli esempi riportati nelle due figure precedenti.

Indice di correlazione

La spiegazione del fatto precedente sta nella natura stessa della correlazione come la misura dell’intensità delle associazioni e non il rapporto di dipendenza della relazione. Si dice cioè che tra le due variabili esiste una correlazione quando si verifica la tendenza di una variabile a variare con un livello di intensità più o meno elevato in funzione di un’altra ma non viene effettuata alcuna diagnosi del tipo di rapporto. Talvolta le variazioni di una variabile derivano da quelle dell’altra (ad esempio la relazione tra caratteri somatici ereditabili), altre sono comuni (relazione tra statura e peso individuale), talvolta reciprocamente dipendenti (relazione tra prezzo e domanda: il prezzo influisce a modificare la domanda, la domanda influisce a modificare il prezzo).

Per misurare l’intensità di queste relazioni esiste l’indice di correlazione. Ne esistono di diversi tipi, corrispondenti a diversi metodi di calcolo e, dunque, esistono diverse formule per questo indice. Noi consideriamo l’indice di correlazione di Pearson la cui formula si basa sul criterio delle medie quadratiche delle deviazioni.

Per completezza riportiamo la formula:

dove x sopralineata e y sopralineata sono i valori medi dell’ insieme delle variabili xi e yi rispettivamente.

Dall’analisi della formula si evince che:

– il rapporto si annulla quando il numeratore è nullo, ovvero quando a qualsiasi valore di una variabile tende a corrispondere il medesimo assortimento di valori dell’altra. In questo caso siamo difronte ad un’assenza di correlazione.

– il rapporto è uguale all’unità quando numeratore e denominatore sono uguali ovvero in presenza di una relazione funzionale. Questo è il caso di correlazione completa.

Infine il segno positivo dell’indice indica una variazione diretta delle variabili (correlazione diretta) poiché al crescere dell’una variabile anche l’altra tende a crescere. Un segno negativo indica, al contrario, una correlazione indiretta in cui al crescere dell’una l’altra tende a diminuire.

Per fissare le idee:

  • Il segno dell’indice di correlazione fornisce informazioni circa il tipo di interdipendenza di due variabili:
    • rxy > 0 significa che X e Y sono direttamente correlate,
    • rxy = 0 significa che X e Y sono incorrelate;
    • rxy < 0 significa che X e Y sono inversamente correlate
  • Il valore assoluto (|0.X|) il grado della interdipendenza:
    • rxy <0,3 indica un grado di correlazione DEBOLE
    • rxy >=0,3 And <=0,7 indica un grado di correlazione moderata
    • rxy >0,7 indica un grado di correlazione FORTE

Indice di Pearson o Correlazione con Excel

Dalla formula dell’indice di Pearson si nota come la correlazione sia fondata sul concetto di covarianza tra due variabili. Pertanto è possibile costruire manualmente questo indicatore passo passo utilizzando le funzioni : COVARIANZA (X,Y), DEV STAND X e DEV STAND Y. In Excel le tre funzioni possono essere richiamate dal menu ’Formule/Altre funzioni/Statistica’ e sono: DEV.ST.P e COVARIANZA.P. La loro sintassi è:

DEV.ST.P(num1; [num2];…)

dove

Num1 è il primo argomento numerico corrispondente a una popolazione (Obbligatorio)

Num2; …; Num 254 sono argomenti numerici corrispondenti a una popolazione. Anziché argomenti separati da punti e virgola, è inoltre possibile utilizzare una singola matrice o un riferimento a una matrice.

e

COVARIANZA.P(matrice1; matrice2)

dove

Matrice1 è il primo intervallo di celle (Obbligatorio)

Matrice2 è il secondo intervallo di celle (Obbligatorio).

Altrimenti è possibile utilizzare direttamente la funzione CORRELAZIONE, richiamabile sempre dal menu ’Formule/Altre funzioni/Statistica’, con la seguente sintassi:

CORRELAZIONE(matrice1; matrice2)

dove

Matrice1 è l’intervallo di celle di valori (Obbligatorio)

Matrice2 è il secondo intervallo di celle di valori (Obbligatorio)


Figura 4 – Funzione di Correlazione in Excel

Cosa abbiamo visto

In questo articolo abbiamo parlato di:

  • Analisi di dipendenza di variabili
  • Analisi di correlazione
  • Trattamento dati
  • Grafici di dispersione
  • Indice di correlazione
  • Funzioni statistiche di Excel

Approfondimenti

L’analisi di correlazione è il primo passo per l’analisi della dipendenza tra variabili. Da qui si procede poi ad approfondire la relazione attraverso metodologie di analisi più specifiche, come, per esempio, la regressione (semplice, lineare o non lineare, multipla). Si tratta tuttavia di strumenti che richiedono pur sempre una conoscenza da parte dell’utente circa il loro significato intrinseco. Oggi possiamo però disporre di tecniche innovative, provenienti dal campo dell’Intelligenza Artificiale, che consentono di delegare alla macchina il compito di trovare relazioni significative tra i dati.

Questo articolo non prevede la descrizione di queste metodologie per cui invece consiglio la lettura di testi e manuali specifici. Tra questi ultimi libri suggerisco “Excel e Intelligenza Artificiale per il Trading” perché affronta temi di analisi dati tramite l’uso di tecniche di Intelligenza Artificiale. Questo l’indirizzo:

Se ti è piaciuto questo articolo sarò felice se vorrai condividerlo con chi pensi possa interessargli

Buon Excel a tutti 🙂

Torna su