- Dichiarazione del problema nel test U Mann-Whitney
- Variabili qualitative contro variabili quantitative
- Caso normale
- Caso con andamento non normale
- Campioni accoppiati o non accoppiati
- Caratteristiche del test U Mann Whitney
- Mann - Formula Whitney
- Passaggi per applicare il test
- Esempio pratico di applicazione
- - Passo 1
- - Passo 2
- Regione A
- Regione B
- Passaggio 3
- Passaggio 4
- Criteri di confronto
- Calcolatrici online per il test Mann-Whitney U.
- Riferimenti
Il test U Mann-Whitney viene applicato per il confronto di due campioni indipendenti quando hanno pochi dati o non seguono una distribuzione normale. In questo modo, è considerato un test non parametrico, a differenza del suo test t di Student omologato, che viene utilizzato quando il campione è abbastanza grande e segue la distribuzione normale.
Frank Wilcoxon lo propose per la prima volta nel 1945, per campioni di dimensioni identiche, ma due anni dopo fu esteso per il caso di campioni di dimensioni diverse da Henry Mann e DR Whitney.
Figura 1. Il test U Mann-Whitney viene applicato per il confronto di campioni indipendenti. Fonte: Pixabay.
Il test viene spesso applicato per verificare se esiste una relazione tra una variabile qualitativa e una quantitativa.
Un esempio illustrativo è prendere un gruppo di persone ipertese ed estrarre due gruppi, dai quali vengono registrati i dati giornalieri della pressione sanguigna per un mese.
Il trattamento A viene applicato a un gruppo e il trattamento B. Qui la pressione sanguigna è la variabile quantitativa e il tipo di trattamento è quello qualitativo.
Vogliamo sapere se la mediana, e non la media, dei valori misurati è statisticamente uguale o diversa, per stabilire se c'è una differenza tra i due trattamenti. Per ottenere la risposta, viene applicata la statistica Wilcoxon o il test U di Mann-Whitney.
Dichiarazione del problema nel test U Mann-Whitney
Un altro esempio in cui è possibile applicare il test è il seguente:
Supponiamo di voler sapere se il consumo di bevande analcoliche differisce in modo significativo in due regioni del paese.
Una di esse è chiamata regione A e l'altra regione B. Viene tenuto un registro dei litri consumati settimanalmente in due campioni: uno di 10 persone per la regione A e un altro di 5 persone per la regione B.
I dati sono i seguenti:
-Regione A : 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Regione B : 12,14, 11, 30, 10
Sorge la seguente domanda:
Variabili qualitative contro variabili quantitative
-Variabile qualitativa X : Regione
-Variabile quantitativa Y : consumo di bibite
Se la quantità di litri consumati è la stessa in entrambe le regioni, la conclusione sarà che non c'è dipendenza tra le due variabili. Il modo per scoprirlo è confrontare la tendenza media o mediana per le due regioni.
Caso normale
Se i dati seguono una distribuzione normale, vengono proposte due ipotesi: la null H0 e l'alternativa H1 attraverso il confronto tra le medie:
- H0 : non c'è differenza tra la media delle due regioni.
- H1 : le medie di entrambe le regioni sono diverse.
Caso con andamento non normale
Al contrario, se i dati non seguono una distribuzione normale o il campione è semplicemente troppo piccolo per conoscerlo, invece di confrontare la media, verrebbe confrontata la mediana delle due regioni.
- H0 : non c'è differenza tra la mediana delle due regioni.
- H1 : le mediane di entrambe le regioni sono diverse.
Se le mediane coincidono, allora l'ipotesi nulla è soddisfatta: non c'è relazione tra il consumo di bibite e la regione.
E se accade il contrario, è vera l'ipotesi alternativa: c'è una relazione tra consumo e territorio.
È per questi casi in cui è indicato il test U Mann-Whitney.
Campioni accoppiati o non accoppiati
La prossima domanda importante per decidere se applicare il test U di Mann Whitney è se il numero di dati in entrambi i campioni è identico, vale a dire che sono alla pari.
Se i due campioni sono accoppiati, si applica la versione originale di Wilcoxon. In caso contrario, come nel caso dell'esempio, viene applicato il test di Wilcoxon modificato, che è precisamente il test U di Mann Whitney.
Caratteristiche del test U Mann Whitney
Il Mann - Whitney U test è un test non parametrico, applicabile a campioni che non seguono la distribuzione normale o con pochi dati. Ha le seguenti caratteristiche:
1.- Confronta le mediane
2.- Funziona su gamme ordinate
3.- È meno potente, nel senso che il potere è la probabilità di rifiutare l'ipotesi nulla quando è effettivamente falsa.
Tenendo conto di queste caratteristiche, il test Mann-Whitney U viene applicato quando:
-I dati sono indipendenti
-Non seguono la distribuzione normale
-L'ipotesi nulla H0 è accettata se le mediane dei due campioni coincidono: Ma = Mb
-L'ipotesi alternativa H1 è accettata se le mediane dei due campioni differiscono: Ma ≠ Mb
Mann - Formula Whitney
La variabile U è la statistica di contrasto utilizzata nel test di Mann - Whitney ed è definita come segue:
Ciò significa che U è il più piccolo dei valori tra Ua e Ub, applicato a ciascun gruppo. Nel nostro esempio sarebbe per ciascuna regione: A o B.
Le variabili Ua e Ub vengono definite e calcolate secondo la seguente formula:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Qui i valori Na e Nb sono le dimensioni dei campioni corrispondenti alle regioni A e B rispettivamente, e da parte loro, Ra e Rb sono le somme dei ranghi che definiremo di seguito.
Passaggi per applicare il test
1.- Ordinare i valori dei due campioni.
2.- Assegna un ranking dell'ordine a ciascun valore.
3.- Correggere i legami esistenti nei dati (valori ripetuti).
4.- Calcola Ra = Somma dei ranghi del campione A.
5.- Trova Rb = Somma dei ranghi del campione B.
6.- Determinare il valore Ua e Ub, secondo le formule fornite nella sezione precedente.
7.- Confronta Ua e Ub, e il più piccolo dei due viene assegnato alla statistica U sperimentale (cioè dei dati) che viene confrontata con la statistica U teorica o normale.
Esempio pratico di applicazione
Applichiamo ora il suddetto al problema dei soft drink sollevato in precedenza:
Regione A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Regione B: 12,14, 11, 30, 10
A seconda che le medie di entrambi i campioni siano statisticamente uguali o diverse, l'ipotesi nulla viene accettata o rifiutata: non c'è relazione tra le variabili Y e X, ovvero il consumo di bibite non dipende dalla regione:
H0: Ma = Mb
H1: Ma ≠ Mb
Figura 2. Dati sul consumo di bibite nelle regioni A e B. Fonte: F. Zapata.
- Passo 1
Si procede ad ordinare i dati congiuntamente per i due campioni, ordinando i valori dal più basso al più alto:
Si noti che il valore 11 appare 2 volte (una volta in ogni campione). In origine ha posizioni o intervalli 3 e 4, ma per non sovrastimare o sottovalutare l'uno o l'altro, come intervallo viene scelto il valore medio, cioè 3.5.
In modo analogo si procede con il valore 12, che viene ripetuto tre volte con range 5, 6 e 7.
Bene, al valore 12 viene assegnato l'intervallo medio di 6 = (5 + 6 + 7) / 3. E lo stesso per il valore 14, che ha legatura (appare in entrambi i campioni) nelle posizioni 8 e 9, gli viene assegnato il range medio 8.5 = (8 + 9) / 2.
- Passo 2
Successivamente, i dati per la regione A e B vengono nuovamente separati, ma ora i loro intervalli corrispondenti vengono assegnati in un'altra riga:
Regione A
Regione B
Gli intervalli Ra e Rb si ottengono dalle somme degli elementi della seconda riga per ogni caso o regione.
Passaggio 3
Vengono calcolati i rispettivi valori Ua e Ub:
Ua = 10 × 5 + 10 (10 + 1) / 2-86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2-34 = 31
Valore sperimentale U = min (19, 31) = 19
Passaggio 4
Si assume che la U teorica segua una distribuzione normale N con parametri dati esclusivamente dalla dimensione dei campioni:
N ((na⋅nb) / 2, √)
Per confrontare la variabile U ottenuta sperimentalmente, con la teorica U è necessario effettuare un cambio di variabile. Si passa dalla variabile sperimentale U al suo valore standardizzato, che si chiamerà Z, per poter fare il confronto con quello di una distribuzione normale standardizzata.
Il cambio di variabile è il seguente:
Z = (U - na.nb / 2) / √
Si noti che per il cambio di variabile sono stati utilizzati i parametri della distribuzione teorica per U. Quindi la nuova variabile Z, che è un ibrido tra U teorica e U sperimentale, viene contrapposta ad una distribuzione normale standardizzata N (0,1 ).
Criteri di confronto
Se Z ≤ Zα ⇒ l'ipotesi nulla H0 è accettata
Se Z> Zα ⇒ rifiuta l'ipotesi nulla H0
I valori critici Zα standardizzati dipendono dal livello di fiducia richiesto, ad esempio, per un livello di confidenza α = 0,95 = 95%, che è il più usuale, si ottiene il valore critico Zα = 1,96.
Per i dati qui riportati:
Z = (U - nd nb / 2) / √ = -0,73
Che è inferiore al valore critico 1,96.
Quindi la conclusione finale è che l'ipotesi nulla H0 è accettata:
Calcolatrici online per il test Mann-Whitney U.
Esistono programmi specifici per i calcoli statistici, tra cui SPSS e MINITAB, ma questi programmi sono a pagamento e il loro utilizzo non è sempre facile. Ciò è dovuto al fatto che forniscono così tante opzioni che il loro utilizzo è praticamente riservato agli esperti in statistica.
Fortunatamente, ci sono una serie di programmi online molto precisi, gratuiti e facili da usare che ti consentono di eseguire il test U di Mann-Whitney, tra gli altri.
Questi programmi sono:
-Social Science Statistics (socscistatistics.com), che ha sia il test U Mann-Whitney che il test Wilcoxon nel caso di campioni bilanciati o accoppiati.
-AI Therapy Statistics (ai-therapy.com), che ha molti dei soliti test di statistica descrittiva.
-Statistic to Use (physics.csbsju.edu/stats), uno dei più vecchi, quindi la sua interfaccia potrebbe sembrare datata, sebbene sia comunque un programma gratuito molto efficiente.
Riferimenti
- Dietrichson. Metodi quantitativi: test dei ranghi. Estratto da: bookdown.org
- Marín J P. Guida SPSS: analisi e procedure nei test non parametrici. Estratto da: halweb.uc3m.es
- USAL MOOC. Test non parametrici: Mann-Whitney U. Estratto da: youtube.com
- Wikipedia. Mann-Whitney U test. Estratto da: es.wikipedia.com
- XLSTAT. Centro assistenza. Mann - Tutorial di prova di Whitney in Excel. Recupero da: help.xlsat.com