- Esempi
- Classificazione delle variabili categoriali
- Categorie nominali
- Ordinale categoriale
- Categorie binarie
- Statistiche con variabili categoriali
- Rappresentazione grafica di variabili categoriali
- Esercizi risolti
- Esercizio 1
- Esempio 2
- Esempio 3
- Riferimenti
La variabile categoriale è quella utilizzata in statistica per assegnare una caratteristica o una proprietà non numerica o qualitativa a un oggetto, individuo, entità, condizione o procedura. È possibile definire tutti i tipi di variabili categoriali in base a ciascuna esigenza.
Esempi di variabili categoriali sono: colore, sesso, gruppo sanguigno, stato civile, tipo di materiale, forma di pagamento o tipo di conto bancario e sono molto utilizzati su base giornaliera.

Figura 1: il colore è una variabile categoriale. Fonte: pixabay
Quelle sopra sono le variabili, ma i loro possibili valori sono qualitativi, cioè di qualità o caratteristici e non di misura numerica. Ad esempio, i possibili valori per la variabile sesso sono: maschio, h embra.
Quando questa variabile è memorizzata in un programma per computer, può essere dichiarata come variabile di testo e gli unici valori accettati saranno quelli già denominati: Male, Female.
Tuttavia, la stessa variabile sesso può essere dichiarata e memorizzata come numero intero se a Maschio viene assegnato 1 e Femmina viene assegnato il valore 2. È per questo motivo che le variabili categoriali vengono talvolta definite un tipo enumerato.
La caratteristica principale delle variabili categoriali è che a differenza di altre variabili, come le variabili continue e discrete, non è possibile eseguire operazioni aritmetiche con esse. Tuttavia, le statistiche possono essere fatte con loro, come vedremo in seguito.
Esempi
Notare i seguenti esempi di variabili categoriali e i loro possibili valori:
- Group_Sanguíneo, Intervallo di valori: A, B, AB, O
- Stato_civile, valori categoriali: celibe (A), sposato (B), vedovo (C), divorziato (D).
- Tipo_de_Material, Categorie o valori: 1 = Legno, 2 = Metallo, 3 = Plastica
-Form_of_Payment, Titoli o categorie: (1) Contanti, (2) Debito, (3) Trasferimento, (4) Credito
Negli esempi precedenti, un numero è stato associato a ciascuna categoria in modo del tutto arbitrario.
Si potrebbe quindi pensare che questa associazione numerica arbitraria la renda uguale a una variabile quantitativa discreta, ma non lo è, poiché le operazioni aritmetiche non possono essere eseguite con questi numeri.
Per illustrare l'idea, nella variabile Form_of_Payment, l'operazione di somma non ha senso:
(1) Contanti + (2) Debito non sarà mai uguale a (3) Trasferimento
Classificazione delle variabili categoriali
La classifica si basa sul fatto che abbiano o meno una gerarchia implicita o se il numero di possibili risultati sia maggiore di due o due.
Una variabile categoriale con un solo risultato possibile non è una variabile, è una costante categoriale.
Categorie nominali
Quando non possono essere rappresentati da un numero o avere alcun ordine. Ad esempio, la variabile: Type_of_Material, ha valori nominali (Wood, Metal, Plastic), non hanno gerarchia o ordine, anche quando un numero arbitrario è assegnato a ciascuna risposta o categoria.
Ordinale categoriale
Variabile: Academic_performance
Valori nominali: Alto, Medio, Basso
Sebbene i valori di questa variabile non siano numerici, hanno un ordine o una gerarchia implicita.
Categorie binarie
Si tratta di variabili nominali con due possibili risposte, ad esempio:
-Variabile: risposta
-Valori nominali: vero, falso
Si noti che la variabile Response non ha una gerarchia implicita e ha solo due possibili risultati, quindi è una variabile categoriale binaria.
Alcuni autori chiamano questo tipo una variabile binaria e non considerano che appartenga a variabili categoriali limitate a quelle con più di tre possibili categorie.
Statistiche con variabili categoriali
Le statistiche possono essere eseguite con variabili categoriali, nonostante non siano variabili numeriche o quantitative. Ad esempio, per conoscere l'andamento o il valore più probabile di una variabile categoriale, viene utilizzata la modalità.
La modalità è, in questo caso, il risultato o il valore più ripetuto di una variabile categoriale. Per le variabili categoriali, non è possibile calcolare né la media né la mediana.
La media non può essere calcolata perché non è possibile eseguire operazioni aritmetiche con variabili categoriali. Nemmeno la mediana, perché le variabili quantitative o categoriali non hanno un ordine o una gerarchia, quindi non è possibile determinare un valore centrale.
Rappresentazione grafica di variabili categoriali
Data una certa variabile categoriale, è possibile trovare la frequenza o il numero di volte con cui viene ripetuto un risultato di quella variabile. Se questo viene fatto per ogni risultato, è possibile creare un grafico della frequenza rispetto a ciascuna categoria o risultato.
Di seguito sono riportati alcuni esempi di come le variabili categoriali possono essere rappresentate graficamente.
Esercizi risolti
Esercizio 1
Un'azienda ha registrazioni dei dati di 170 dipendenti. Una delle variabili presenti in questi record è: Estado_Civil. Questa variabile ha quattro categorie o possibili valori:
Single (A), Sposato (B), Vedovo (C), Divorziato (D).
Sebbene sia una variabile non numerica, è possibile sapere quanti dei record totali si trovano in una determinata categoria ed essere rappresentati sotto forma di un grafico a barre, come mostrato nella figura seguente:

Figura 2. Rappresentazione dei risultati di una variabile categoriale. Fonte: autocostruito
Esempio 2
Un negozio di scarpe tiene traccia delle sue vendite. Tra le variabili che gestiscono i loro record c'è il colore della scarpa per ogni modello. La variabile:
Color_Shoe_Model_AW3
È di tipo categoriale e ha cinque categorie o valori possibili. Per ciascuna categoria di questa variabile viene sommato il numero di vendite e viene stabilita la loro percentuale. I risultati sono presentati nel grafico della figura seguente:

Figura 3. Variabile categoriale Color _Shoe. In questa variabile la modalità è White. Fonte: autocostruito.
Si può dire quindi che del modello di scarpa AW3 che va di moda, quello che viene venduto più di frequente è il Bianco, seguito a ruota dal Nero.
Si può anche dire che con una probabilità del 70% la prossima scarpa venduta di questo modello sarà Bianca o Nera.
Queste informazioni possono essere utili per il negozio quando si effettuano nuovi ordini o potrebbero persino applicare sconti sui colori meno venduti a causa dell'eccesso di inventario.
Esempio 3
Per una determinata popolazione di donatori di sangue, si desidera rappresentare il numero di persone che appartengono a un determinato gruppo sanguigno. Un modo grafico per visualizzare i risultati è tramite un pittogramma, che si trova in fondo a una tabella.
La prima colonna rappresenta la variabile group_sanguíneo e i suoi possibili risultati o categorie. La seconda colonna ha la rappresentazione in forma iconica o pittorica del numero di persone in ciascuna categoria. Nel nostro esempio, come icona viene utilizzata una goccia rossa, ciascuna delle quali rappresenta 10 persone.

Figura 4. Pittogramma. Fonte: autocostruito
Riferimenti
- Khan Academy. Analisi dei dati categoriali. Estratto da: khanacademy.org
- Formule dell'universo. Variabile qualitativa. Estratto da: univesoformulas.com
- Minitab. Che sono variabili categoriali, discrete e continue. Recupero da: support.minitab.com
- Tutorial su Excel. Caratterizzazione delle variabili. Recupero da: help.xlslat.com.
- Wikipedia. Variabile statistica. Estratto da wikipedia.com
- Wikipedia. Variabile categoriale. Estratto da wikipedia.com
- Wikipedia. Variabile categoriale. Estratto da wikipedia.com
