- Come calcolare il coefficiente di correlazione?
- Covarianza e varianza
- Caso illustrativo
- Covarianza Sxy
- Deviazione standard Sx
- Deviazione standard Sy
- Coefficiente di correlazione r
- Interpretazione
- Regressione lineare
- Esempio
- Riferimenti
Il coefficiente di correlazione in statistica è un indicatore che misura la tendenza di due variabili quantitative X e Y ad avere una relazione lineare o proporzionale tra loro.
Generalmente, le coppie di variabili X e Y sono due caratteristiche della stessa popolazione. Ad esempio, X potrebbe essere l'altezza di una persona e Y il suo peso.
Figura 1. Coefficiente di correlazione per quattro coppie di dati (X, Y). Fonte: F. Zapata.
In questo caso, il coefficiente di correlazione indicherebbe se esiste o meno una tendenza verso una relazione proporzionale tra altezza e peso in una data popolazione.
Il coefficiente di correlazione lineare di Pearson è indicato dalla lettera minuscola r ei suoi valori minimo e massimo sono -1 e +1 rispettivamente.
Un valore r = +1 indicherebbe che l'insieme di coppie (X, Y) è perfettamente allineato e che quando X cresce, Y crescerà nella stessa proporzione. D'altra parte, se fosse r = -1, anche l'insieme delle coppie sarebbe perfettamente allineato, ma in questo caso quando X aumenta, Y diminuisce nella stessa proporzione.
Figura 2. Diversi valori del coefficiente di correlazione lineare. Fonte: Wikimedia Commons.
D'altra parte, un valore r = 0 indicherebbe che non esiste una correlazione lineare tra le variabili X e Y. Mentre un valore di r = +0,8 indicherebbe che le coppie (X, Y) tendono a raggrupparsi su un lato e un altro di una certa linea.
La formula per calcolare il coefficiente di correlazione r è la seguente:
Come calcolare il coefficiente di correlazione?
Il coefficiente di correlazione lineare è una quantità statistica incorporata nelle calcolatrici scientifiche, nella maggior parte dei fogli di calcolo e nei programmi statistici.
Conviene però sapere come viene applicata la formula che la definisce, e per questo verrà mostrato un calcolo dettagliato, effettuato su un piccolo set di dati.
E come affermato nella sezione precedente, il coefficiente di correlazione è la covarianza Sxy divisa per il prodotto della deviazione standard Sx per le variabili X e Sy per la variabile Y.
Covarianza e varianza
La covarianza Sxy è:
Sxy = / (N-1)
Dove la somma va da 1 a N coppie di dati (Xi, Yi).
Da parte sua, la deviazione standard per la variabile X è la radice quadrata della varianza del set di dati Xi, con i da 1 a N:
Sx = √
Allo stesso modo, la deviazione standard per la variabile Y è la radice quadrata della varianza del set di dati Yi, con i da 1 a N:
Sy = √
Caso illustrativo
Per mostrare in dettaglio come calcolare il coefficiente di correlazione, prenderemo il seguente insieme di quattro coppie di dati
(X, Y): {(1, 1); (2. 3); (3, 6) e (4, 7)}.
Per prima cosa calcoliamo la media aritmetica per X e Y, come segue:
Quindi vengono calcolati i parametri rimanenti:
Covarianza Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Deviazione standard Sx
Sx = √ = √ = 1,29
Deviazione standard Sy
Sx = √ =
√ = 2,75
Coefficiente di correlazione r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretazione
Nel set di dati del caso precedente, si osserva una forte correlazione lineare tra le variabili X e Y, che si manifesta sia nel grafico a dispersione (mostrato in Figura 1) che nel coefficiente di correlazione, che ha dato un valore abbastanza vicino all'unità.
Nella misura in cui il coefficiente di correlazione è più vicino a 1 o -1, più ha senso adattare i dati a una linea, il risultato della regressione lineare.
Regressione lineare
La retta di regressione lineare si ottiene dal metodo dei minimi quadrati. in cui i parametri della retta di regressione sono ottenuti dalla minimizzazione della somma dei quadrati della differenza tra il valore Y stimato e lo Yi degli N dati.
D'altra parte, i parametri aeb della retta di regressione y = a + bx, ottenuti con il metodo dei minimi quadrati, sono:
* b = Sxy / (Sx 2 ) per la pendenza
* a =
Ricorda che Sxy è la covarianza definita sopra e Sx 2 è la varianza o il quadrato della deviazione standard definita sopra.
Esempio
Il coefficiente di correlazione viene utilizzato per determinare se esiste una correlazione lineare tra due variabili. È applicabile quando le variabili da studiare sono quantitative e, inoltre, si assume che seguano una distribuzione di tipo normale.
Di seguito abbiamo un esempio illustrativo: una misura del grado di obesità è l'indice di massa corporea, che si ottiene dividendo il peso di una persona in chilogrammi per l'altezza al quadrato della persona in unità di metri quadrati.
Vuoi sapere se esiste una forte correlazione tra l'indice di massa corporea e la concentrazione di colesterolo HDL nel sangue, misurata in millimoli per litro. A tal fine è stato condotto uno studio su 533 persone, che è sintetizzato nel grafico seguente, in cui ogni punto rappresenta i dati di una persona.
Figura 3. Studio del BMI e del colesterolo HDL in 533 pazienti. Fonte: Istituto Aragonese di Scienze della Salute (IACS).
Un'attenta osservazione del grafico mostra che esiste un certo andamento lineare (non molto marcato) tra la concentrazione di colesterolo HDL e l'indice di massa corporea. La misura quantitativa di questa tendenza è il coefficiente di correlazione, che in questo caso è risultato essere r = -0,276.
Riferimenti
- González C. Statistiche generali. Estratto da: tarwi.lamolina.edu.pe
- IACS. Istituto Aragonese di Scienze della Salute. Estratto da: ics-aragon.com
- Salazar C. e Castillo S. Principi di base della statistica. (2018). Recupero da: dspace.uce.edu.ec
- Superprof. Coefficiente di correlazione. Recupero da: superprof.es
- USAC. Manuale di statistica descrittiva. (2011). Estratto da: statistics.ingenieria.usac.edu.gt
- Wikipedia. Coefficiente di correlazione di Pearson. Estratto da: es.wikipedia.com.