- Come calcolare il coefficiente di determinazione?
- Caso illustrativo
- Interpretazione
- Esempi
- - Esempio 1
- Soluzione
- - Esempio 2
- Soluzione
- - Esempio 3
- Soluzione
- Confronto in forma
- conclusioni
- Riferimenti
Il coefficiente di determinazione è un numero compreso tra 0 e 1 che rappresenta la frazione di punti (X, Y) che seguono la linea di adattamento della regressione di un insieme di dati con due variabili.
È anche noto come bontà di adattamento ed è indicato con R 2 . Per calcolarlo si prende il quoziente tra la varianza dei dati Ŷi stimata dal modello di regressione e la varianza dei dati Yi corrispondenti a ciascun Xi dei dati.
R 2 = Sŷ / Sy
Figura 1. Coefficiente di correlazione per quattro coppie di dati. Fonte: F. Zapata.
Se il 100% dei dati si trova sulla linea della funzione di regressione, il coefficiente di determinazione sarà 1.
Al contrario, se per un insieme di dati e una certa funzione di adattamento il coefficiente R 2 risulta essere uguale a 0,5, allora si può dire che l'adattamento è soddisfacente o buono al 50%.
Allo stesso modo, quando il modello di regressione fornisce valori R 2 inferiori a 0,5, ciò indica che la funzione di aggiustamento scelta non si adatta in modo soddisfacente ai dati, rendendo quindi necessaria la ricerca di un'altra funzione di aggiustamento.
E quando la covarianza o il coefficiente di correlazione tende a zero, le variabili X e Y nei dati non sono correlate e quindi anche R 2 tenderà a zero.
Come calcolare il coefficiente di determinazione?
Nella sezione precedente si è detto che il coefficiente di determinazione si calcola trovando il quoziente tra le varianze:
-Stimato dalla funzione di regressione della variabile Y
-Quella della variabile Yi corrispondente a ciascuna delle variabili Xi delle N coppie di dati.
Detto matematicamente, assomiglia a questo:
R 2 = Sŷ / Sy
Da questa formula segue che R 2 rappresenta la proporzione di varianza spiegata dal modello di regressione. In alternativa, R 2 può essere calcolato utilizzando la seguente formula, del tutto equivalente alla precedente:
R 2 = 1 - (Sε / Sy)
Dove Sε rappresenta la varianza dei residui εi = Ŷi - Yi, mentre Sy è la varianza dell'insieme dei valori Yi dei dati. Per determinare Ŷi si applica la funzione di regressione, il che significa affermare che Ŷi = f (Xi).
La varianza del set di dati Yi, con i da 1 a N, viene calcolata in questo modo:
Sy =
E poi procedi in modo simile per Sŷ o Sε.
Caso illustrativo
Per mostrare i dettagli di come viene effettuato il calcolo del coefficiente di determinazione, prenderemo il seguente insieme di quattro coppie di dati:
(X, Y): {(1, 1); (2. 3); (3, 6) e (4, 7)}.
Per questo set di dati viene proposto un adattamento di regressione lineare, ottenuto utilizzando il metodo dei minimi quadrati:
f (x) = 2,1 x - 1
Applicando questa funzione di regolazione si ottengono le coppie:
(X, Ŷ): {(1, 1.1); (2, 3.2); (3, 5.3) e (4, 7.4)}.
Quindi calcoliamo la media aritmetica per X e Y:
Varianza Sy
Sy = / (4-1) =
= = 7.583
Varianza Sŷ
Sŷ = / (4-1) =
= = 7,35
Coefficiente di determinazione R 2
R 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97
Interpretazione
Il coefficiente di determinazione per il caso illustrativo considerato nel segmento precedente è risultato pari a 0,98. In altre parole, la regolazione lineare tramite la funzione:
f (x) = 2,1x - 1
È affidabile al 98% nello spiegare i dati con cui è stato ottenuto utilizzando il metodo dei minimi quadrati.
Oltre al coefficiente di determinazione, esiste il coefficiente di correlazione lineare o noto anche come coefficiente di Pearson. Questo coefficiente, indicato come r, è calcolato dalla seguente relazione:
r = Sxy / (Sx Sy)
Qui il numeratore rappresenta la covarianza tra le variabili X e Y, mentre il denominatore è il prodotto della deviazione standard per la variabile X e la deviazione standard per la variabile Y.
Il coefficiente di Pearson può assumere valori compresi tra -1 e +1. Quando questo coefficiente tende a +1 c'è una correlazione lineare diretta tra X e Y. Se invece tende a -1, c'è una correlazione lineare, ma quando X cresce Y diminuisce. Infine, è vicino a 0 non c'è correlazione tra le due variabili.
Va notato che il coefficiente di determinazione coincide con il quadrato del coefficiente di Pearson, solo quando il primo è stato calcolato in base a un adattamento lineare, ma questa uguaglianza non è valida per altri adattamenti non lineari.
Esempi
- Esempio 1
Un gruppo di studenti delle scuole superiori si è proposto di determinare una legge empirica per il periodo di un pendolo in funzione della sua lunghezza. Per raggiungere questo obiettivo effettuano una serie di misurazioni in cui misurano il tempo di oscillazione del pendolo per diverse lunghezze ottenendo i seguenti valori:
Lunghezza (m) | Periodo (i) |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0.7 | 1.78 |
uno | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2.77 |
3 | 3.62 |
È necessario creare un grafico a dispersione dei dati ed eseguire un adattamento lineare tramite regressione. Inoltre, mostra l'equazione di regressione e il suo coefficiente di determinazione.
Soluzione
Figura 2. Grafico della soluzione per l'esercizio 1. Fonte: F. Zapata.
Si può osservare un coefficiente di determinazione abbastanza alto (95%), quindi si potrebbe pensare che l'adattamento lineare sia ottimale. Tuttavia, se i punti vengono visualizzati insieme, sembrano avere la tendenza a curvarsi verso il basso. Questo dettaglio non è contemplato nel modello lineare.
- Esempio 2
Per gli stessi dati dell'esempio 1, creare un grafico a dispersione dei dati. In questa occasione, a differenza dell'esempio 1, viene richiesto un aggiustamento della regressione utilizzando una funzione potenziale.
Figura 3. Grafico della soluzione per l'esercizio 2. Fonte: F. Zapata.
Mostra anche la funzione di adattamento e il suo coefficiente di determinazione R 2 .
Soluzione
La funzione potenziale è della forma f (x) = Ax B , dove A e B sono costanti determinate dal metodo dei minimi quadrati.
La figura precedente mostra la funzione potenziale ed i suoi parametri, nonché il coefficiente di determinazione con un valore molto alto del 99%. Si noti che i dati seguono la curvatura della linea di tendenza.
- Esempio 3
Utilizzando gli stessi dati dell'Esempio 1 e dell'Esempio 2, eseguire un adattamento polinomiale di secondo grado. Mostra il grafico, il polinomio di adattamento e il coefficiente di determinazione corrispondente R 2 .
Soluzione
Figura 4. Grafico della soluzione per l'esercizio 3. Fonte: F. Zapata.
Con l'adattamento polinomiale di secondo grado puoi vedere una linea di tendenza che si adatta bene alla curvatura dei dati. Inoltre, il coefficiente di determinazione è al di sopra dell'adattamento lineare e al di sotto dell'adattamento potenziale.
Confronto in forma
Dei tre adattamenti mostrati, quello con il coefficiente di determinazione più elevato è l'adattamento potenziale (esempio 2).
L'adattamento potenziale coincide con la teoria fisica del pendolo, la quale, come è noto, stabilisce che il periodo di un pendolo è proporzionale alla radice quadrata della sua lunghezza, la costante di proporzionalità essendo 2π / √g dove g è l'accelerazione di gravità.
Questo tipo di adattamento potenziale non solo ha il coefficiente di determinazione più alto, ma l'esponente e la costante di proporzionalità corrispondono al modello fisico.
conclusioni
-La regolazione della regressione determina i parametri della funzione che mira a spiegare i dati utilizzando il metodo dei minimi quadrati. Questo metodo consiste nel ridurre al minimo la somma della differenza quadratica tra il valore Y di regolazione e il valore Yi dei dati per i valori Xi dei dati. Questo determina i parametri della funzione di ottimizzazione.
-Come abbiamo visto, la funzione di regolazione più comune è la linea, ma non è l'unica, poiché le regolazioni possono essere anche polinomiali, potenziali, esponenziali, logaritmiche e altre.
-In ogni caso, il coefficiente di determinazione dipende dai dati e dal tipo di rettifica ed è indice della bontà della rettifica applicata.
-Infine, il coefficiente di determinazione indica la percentuale di variabilità totale tra il valore Y del dato rispetto al valore Ŷ dell'aggiustamento per X dato.
Riferimenti
- González C. Statistiche generali. Estratto da: tarwi.lamolina.edu.pe
- IACS. Istituto Aragonese di Scienze della Salute. Estratto da: ics-aragon.com
- Salazar C. e Castillo S. Principi di base della statistica. (2018). Recupero da: dspace.uce.edu.ec
- Superprof. Coefficiente di determinazione. Recupero da: superprof.es
- USAC. Manuale di statistica descrittiva. (2011). Estratto da: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Coefficiente di determinazione. Estratto da: es.wikipedia.com.