Capitolo 4 Mediana, Percentili e Moda

4.1 La Mediana

La Mediana, Me o \(x_{0.5}\), è il valore centrale della serie dei dati riordinati in due: metà dei dati sono minori della mediana e metà dei dati sono maggiori della mediana. In simboli: sia \(x_{1},...,x_{n}\) la serie dei dati e \(x_{(1)},...,x_{(n)}\) i dati riordinati in modo crescente, allora:

  1. se \(n\) è dispari \[x_{0.5}=x_{\left(\frac{n+1}{2}\right)}\]
  2. se \(n\) è pari \[x_{0.5}=\frac 1 2 \left(x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}\right)\]

Esempio 4.1 Sia \[(x_1=2.9,x_2=3.5,x_3=1.2,x_4=2.7, x_5=4.2)\] la serie dei dati, la serie dei dati riordinati sarà \[(x_{(1)}=1.2, x_{(2)}=2.7, x_{(3)}=2.9, x_{(4)}=3.5,x_{(5)}=4.2),\]

\(n=5\) è dispari e dunque

\[x_{0.5}=x_{\left(\frac{n+1}{2}\right)}=x_{\left(\frac{5+1}{2}\right)}=x_{\left(3\right)}=2.9\]

Esempio 4.2 Sia \[(x_1=2.9,x_2=3.5,x_3=1.2,x_4=2.7, x_5=4.2, x_6=4.2)\] la serie dei dati, la serie dei dati riordinati sarà \[(x_{(1)}=1.2, x_{(2)}=2.7, x_{(3)}=2.9, x_{(4)}=3.5,x_{(5)}=4.2,x_{(6)}=4.2)\]

\(n=6\) è pari e dunque

\[x_{0.5}=\frac 1 2 \left(x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}\right)= \frac 1 2 \left(x_{\left(\frac{6}{2}\right)}+x_{\left(\frac{6}{2}+1\right)}\right)= \frac 1 2 \left(x_{\left(3\right)}+x_{\left(4\right)}\right)=\frac{2.9+3.5}2=3.2\]

4.1.1 Dati espressi in distribuzione di frequenza

Se il fenomeno è espresso in una tabella di distribuzione di frequenza, allora la modalità mediana è la prima modalità tale per cui la frequenza cumulata è maggiore di 0.5

Esempio 4.3 Fenomeno Titolo di Studio, \(n=350\), numero di modalità \(k=5\).

\(j\) \(x_{j}\) \(n_j\) \(f_j\) \(F_j\)
1 Elementare 35 0.10 0.10
2 Media inferiore 105 0.30 0.40
3 Media Superiore 147 0.42 0.82
4 Laurea 35 0.10 0.92
5 Post Laurea 28 0.08 1.00

La modalità mediana è la terza \(j=3\), dunque Media Superiore, infatti \(F_3=0.82>0.50\).

4.1.2 Dati espressi in classi

Se il fenomeno è espresso in classi, allora l’intervallo mediano è la primo intervallo tale per cui la frequenza cumulata è maggiore di 0.5.

Esempio 4.4

Il reddito di \(n=\) 4700 famiglie è rappresentato nella seguente tabella di frequenza
\(j\) \([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\) \(F_j\)
1 0 10 517 0.11 10 1.1 0.11
2 10 15 1269 0.27 5 5.4 0.38
3 15 20 1551 0.33 5 6.6 0.71
4 20 25 987 0.21 5 4.2 0.92
5 25 35 376 0.08 10 0.8 1.00
4700 1.00 35

La classe mediana è la terza classe \(j=3\), ovvero la classe [15,20), in quanto \(F_3=0.71>0.50\).

Il valore approssimato della mediana è un valore che si trova all’interno dell’intervallo mediano e si ottiene dalla formula

\[x_{0.5}=x_{\inf;m}+\frac{0.5-F_{m-1}}{f_m}\cdot \left(x_{\sup;m}-x_{\inf;m} \right),\]

dove \(m\) è l’indicatore della classe mediana, \(x_{\inf;m}\) e \(x_{\sup;m}\) sono, rispettivamente l’estremo inferiore e quello superiore dell’intervallo che contiene la mediana.

Esempio 4.5 Nell’esempio precedente l’intervallo mediano è [15,20) otterremo:

\[\begin{eqnarray*} p &=& 0.5 , \text{essendo }F_{ 3 }= 0.71 > 0.5 \Rightarrow j_{ 0.5 }= 3 \\ x_{ 0.5 } &=& x_{\text{inf}; 3 } + \frac{ { 0.5 } - F_{ 2 }} {f_{ 3 }} \cdot b_{ 3 } \\ &=& 15 + \frac {{ 0.5 } - 0.38 } { 0.33 } \cdot 5 \\ &=& 16.82 \end{eqnarray*}\]

La mediana è quel valore che taglia l’istogramma in due parti, entrambe di area pari al 50% dell’area totale

L’area tratteggiata è il 50% dell’area totale.

4.1.3 Proprietà della Mediana

Proprietà 4.1 (della Mediana) La mediana di una distribuzione, \(x_{0.5}\), è quel valore della per \(X\) il quale si ha \(F(x_{0.5}) = 0.5\). Le proprietà della mediana (\(x_{0.5}\)) sono:

  1. \(x_{\min} \leq x_{0.5} \leq x_{\max}\),
  2. \(\sum_{j=1}^{n} |x_{j} - x_{0.5}|\) è un minimo.
  3. Relazione Media-Mediana:
    • Distribuzione simmetrica \(\rightarrow\) \(x_{0.5} = \bar{x}\)
    • Distribuzione con coda lunga a destra \(\rightarrow\) \(x_{0.5} < \bar{x}\)
    • Distribuzione con coda lunga a sinistra \(\rightarrow\) \(x_{0.5} > \bar{x}\)

4.2 I Percentili

Il \(p\)-esimo percentile \(x_p\), \(0\leq p\leq 1\), è qual valore che divide la serie dei dati riordinati in due: il \(p\times100\%\) dei dati sono minori di \(x_p\) e \((1-p)\times100\%\) dei dati sono maggiori di \(x_p\). Se per esempio \(p=0.30\) allora il trentesimo percentile è quel valore che ha il 30% dei dati inferiore il 70% dei dati superiore. Il \(p\)-esimo percentile di una serie di dati è il valore che occupa la posizione \(\lfloor {p\times n}\rfloor+1\), dove \(\lfloor x\rfloor\) è l’operatore che estrae la parte intera di un numero decimale, ad esempio \(\lfloor 3.001\rfloor=\lfloor 3.21\rfloor=\lfloor 3.94\rfloor=3\).

Esempio 4.6 Si considerino \(n=21\) osservazioni di una variabile categoriale ordinata che assume 7 valori: \(-2\), \(-1\), \(0\), \(1\), \(2\) (ad esempio una scala del tipo \(-2=\)in totale disaccordo, \(-1=\)più in disaccordo che in accordo, \(0=\)né d’accordo, né in disaccordo, \(1=\)più d’accordo che in disaccordo, \(2=\)totalmente d’accordo). Qui di seguito i dati riordinati:

\((i)\) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
\(x_i\) -2 -1 -1 -1 0 0 0 0 0 0 0 0 1 1 1 2 2 2 2 2 2

Il 15-esimo percentile è il dato che occupa la \(\lfloor n\times p \rfloor+1 =\lfloor 21\times 0.15\rfloor+1= 3+1=4\), e dunque il 15-esimo percentile è il quarto dato \(x_{(4)}=-1\). È chiaro che la mediana è il 50-esimo percentile. In questo caso \(x_{0.5}=x_{\left(\lfloor21\times 0.5\rfloor +1\right)}=x_{(11)}=0\).

4.2.1 Dati espressi in distribuzione di frequenza

Se il fenomeno è espresso in una tabella di distribuzione di frequenza, allora il \(p\)-esimo percentile è la prima modalità tale per cui la frequenza cumulata è maggiore di \(p\).

Esempio 4.7 Fenomeno Titolo di Studio, \(n=350\), numero di modalità \(k=5\).

\(j\) \(x_{j}\) \(n_j\) \(f_j\) \(F_j\)
1 Elementare 35 0.10 0.10
2 Media inferiore 105 0.30 0.40
3 Media Superiore 147 0.42 0.82
4 Laurea 35 0.10 0.92
5 Post Laurea 28 0.08 1.00

Il 90-esimo percentile \(x_{0.90}\) è la quarta modalità, \(x_{4}=\)Laurea.

Esempio 4.8 Fenomeno: Numero di volte che si è cercato lavoro negli ultimi 3 mesi, \(n=322\)

\(j\) \(x_{j}\) \(n_j\) \(f_j\) \(F_j\)
1 0 20 0.0621 0.0621
2 1 47 0.1460 0.2081
3 2 80 0.2484 0.4565
4 3 64 0.1988 0.6553
5 4 46 0.1429 0.7981
6 5 36 0.1118 0.9099
7 6 16 0.0497 0.9596
8 7 9 0.0280 0.9876
9 8 3 0.0093 0.9969
10 10 1 0.0031 1.0000

Il 25-esimo percentile è la terza modalità in quanto \(F_3=0.45>0.25\), \(x_{0.25}=x_3=2\). Il 50-esimo percentile, la mediana, è \(x_{0.5}=x_4=3\) e il 75-esimo percentile è \(x_{0.75}=x_5=4\).

4.2.2 Dati espressi in classi

Se il fenomeno è espresso in classi, allora l’intervallo che contiene il \(p\)-esimo percentile è il primo intervallo tale per cui la frequenza cumulata è maggiore di \(p\). Il valore approssimato del percentile è un valore che si trova all’interno dell’intervallo e si ottiene dalla formula

\[x_{p}=x_{\inf;j_p}+\frac{p-F_{j_p-1}}{f_{j_p}}\cdot \left(x_{\sup;j_p}-x_{\inf;j_p} \right)\]

dove \(j_p\) è l’indicatore della classe che contiene il \(p\)-esimo percentile, \(x_{\inf;j_p}\) e \(x_{\sup;j_p}\) sono, rispettivamente, l’estremo inferiore e quello superiore.

Esempio 4.9

Il reddito di \(n=\) 4700 famiglie è rappresentato nella seguente tabella di frequenza
\(j\) \([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\) \(F_j\)
1 0 10 517 0.11 10 1.1 0.11
2 10 15 1269 0.27 5 5.4 0.38
3 15 20 1551 0.33 5 6.6 0.71
4 20 25 987 0.21 5 4.2 0.92
5 25 35 376 0.08 10 0.8 1.00
4700 1.00 35

La classe che contiene il \(25\)-esimo percentile è la seconda classe \(j_{0.25}=2\), ovvero la classe (10,15], in quanto \(F_2=0.2081>0.25\).

\[\begin{eqnarray*} p &=& 0.25 , \text{essendo }F_{ 2 }= 0.38 > 0.25 \Rightarrow j_{ 0.25 }= 2 \\ x_{ 0.25 } &=& x_{\text{inf}; 2 } + \frac{ { 0.25 } - F_{ 1 }} {f_{ 2 }} \cdot b_{ 2 } \\ &=& 10 + \frac {{ 0.25 } - 0.11 } { 0.27 } \cdot 5 \\ &=& 12.59 \end{eqnarray*}\]

Il \(p\)-esimo percentile \(x_p\) è quel valore che taglia l’istogramma in due parti, l’area dell’istogramma alla sinistra di \(x_p\) è pari a \(p\times 100\%\), mentre l’area la sua destra è \((1-p)\times 100\%\)

L’area in blue è il 25% dell’area totale, quella in grigio il 75%.

4.2.3 I Quartili

Si definiscono i quartili della VS \(X\), il 25-esimo, il 50.esimo e il 75-esimo percentile di \(X\): \[ (x_{0.25},x_{0.5},x_{0.75}) \]

4.2.4 Percentili e Funzione di Ripartizione

Se i dati sono quantitativi continui raccolti in classi e \(F\) è la funzione di ripartizione di \(X\) allora il percentile è quel valore tale che \[ F(x_p)=p \] ovvero a sinistra di \(x_p\) c’è il \(p\times 100\%\) dei dati e a destra di \(x_p\) il rimanente \((1-p)\times 100\%\). Per esempio sappiamo nel caso studiato sopra che \(x_{0.25}=12.593\) e quindi \(F(12.593)=0.25\).

Ogni valore di \(X\) dal suo minimo al suo massimo è un percentile, per esempio il valore 15 è il 38-esimo percentile di \(X\) (\(x_{0.38}=15\)), infatti il 38% dei dati è inferiore a 15: \[ F(15)=F_{2}=0.38 \] Mentre la funzione inversa \(Q=F^{-1}\) è la funzione che ci permette di calcolare il percentile di ordine \(p\): \[ Q(p)=x_p. \] Per esempio \[ Q(0.25)=x_{0.25}=12.593 \]

Questa applicazione interattiva aiuta a comprendere meglio la relazione tra istogramma e funzione di ripartizione: La Funzione di Ripartizione

4.3 Lo Scarto Interquartile

Una misura di variabilità è lo scarto interquartile \[ SI = x_{0.75}-x_{0.25} \]

4.4 La Moda

Si definisce la moda, \(x_{Mo}\) la modalità cui compete frequenza maggiore.

Esempio 4.10 Consideriamo la distribuzione del colore dei capelli

\(\mathrm{x}_j\) Cast. Biondi Rossi Tot
\(n_j\) 245 68 13 326

La modalità modale (la moda) è \(x_{Mo}\)=Castano.

Esempio 4.11 Titolo di studio:

\(\mathrm{x}_j\) Prim. M. inf. M. sup. Univ. Post univ. Tot
\(n_j\) 10 18 158 62 12 260

La modalità modale (la moda) è \(x_{Mo}=\)M. sup.

Esempio 4.12 \(\phantom{2}\)

0 1 2 3 4
1 11 6 8 5

La modalità modale è \(\mathrm{x} = 1\) e osserviamo che la media è 2.1613 e la mediana è 2

4.4.1 La Moda per dati raccolti in classi

Se i dati sono sono raccolti in classi, non c’è un valore modale ma una classe modale ed è la classe cui compete densità maggiore.

Esempio 4.13 \(\phantom{2}\)

\(j\) \([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\) \(F_j\)
1 0 10 517 0.11 10 1.1 0.11
2 10 15 1269 0.27 5 5.4 0.38
3 15 20 1551 0.33 5 6.6 0.71
4 20 25 987 0.21 5 4.2 0.92
5 25 35 376 0.08 10 0.8 1.00
4700 1.00 35

la classe modale è la terza classe, la classe \([15,20)\)

4.5 Relazione tra Media, Moda e Mediana

Se la VS \(X\) ha una sola classe modale, allora valgono le seguenti relazioni:

  • Se la distribuzione presenta un’asimmetria negativa (coda lunga a sx) allora \[\bar x\le x_{0.5} \le x_{mo}\]
  • Se la distribuzione è simmetrica allora \[x_{mo}\approx x_{0.5}\approx \bar x\]
  • Se la distribuzione presenta un’asimmetria positiva (coda lunga a dx) allora \[x_{mo}\le x_{0.5}\le \bar x\]

La figura 4.1 ne offre una rappresentazione grafica.

Relazione tra media mediana e moda

Figura 4.1 Relazione tra media mediana e moda

4.6 Istogramma e Percentili

La relazione tra istogramma di densità e percentili è evidente, i percentile di ordine \(p\) indica per quale valore di \(x_p\) l’area dell’istogramma fino misurano l’area dell’istogramma fino ad \(x_p\) vale \(p\).

Attraverso il seguente esempio osserveremo meglio il legame tra i due concetti.

Esempio 4.14 Il reddito di \(n=\) 4700 famiglie (dati inventati) è rappresentato nella tabella di frequenza qui di seguito

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_j\)
0 10 0.18
10 20 0.30
20 50 0.42
50 90 0.10
1.00

Per prima cosa calcoliamo tutta la tabella: la colonna delle frequenza assolute e cumulate, delle densità, ecc.

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\) \(F_j\) \(\bar{\text{x}}_j\) \(\bar{\text{x}}_j^2\) \(\bar{\text{x}}_jn_j\) \(\bar{\text{x}}_j^2 n_j\) \(f_{j\%}\)
0 10 846 0.18 10 1.80 0.18 5 25 4230 21150 18
10 20 1410 0.30 10 3.00 0.48 15 225 21150 317250 30
20 50 1974 0.42 30 1.40 0.90 35 1225 69090 2418150 42
50 90 470 0.10 40 0.25 1.00 70 4900 32900 2303000 10
4700 1.00 90 127370 5059550 100

Quindi disegniamo l’istogramma di densità percentuale, dove le \(h\) sono usate come altezze e le \(f_{\%}\) sono le aree dei rettangoli.

Se al posto delle \(h\) usiamo le \(f\) disegniamo l’istogramma sbagliato, . Notiamo che la classe \([20,50)\) viene sovra rappresentata. Infatti è vero che il 45% delle famiglie si trova in quella classe, ma è anche vero che l’ampiezza della classe molto grande e l’istogramma non rappresenta i dati.

Per disegnare un istogramma di densità in modo corretto si devono rispettare le proporzioni tra le basi

Una volta che abbiamo ricostruito tutta la tabella e realizzato il grafico possiamo rispondere a tante domande sulla distribuzione dei dati, quali, per esempio:

  • Individuare la classe modale

La classe modale è la classe [10,20) non la classe 20-50. Infatti la classe modale è la classe con densità maggiore, non la classe con frequenza maggiore.

  • Individuare la classe che contiene la mediana

La classe mediana è la terza classe [20,50), infatti \(F_3=0.90\) è il primo degli \(F_j\) che super \(0.50\).

  • Calcolare \(x_0, x_{0.10}, x_{0.20},..., x_{0.90}, x_1\)

\[x_p = x_{\text{inf};j_p} + \frac {p - F_{j_p - 1}} {f_{j_p}} b_{j_p}\]

\[x_0 = 0, ~~~\text{il più piccol dei dati}\]

\[\begin{eqnarray*} p &=& 0.1 , \text{essendo }F_{ 1 }= 0.18 > 0.1 \Rightarrow j_{ 0.1 }= 1 \\ x_{ 0.1 } &=& x_{\text{inf}; 1 } + \frac{ { 0.1 } - F_{ 0 }} {f_{ 1 }} \cdot b_{ 1 } \\ &=& 0 + \frac {{ 0.1 } - 0 } { 0.18 } \cdot 10 \\ &=& 5.556 \end{eqnarray*}\]

\[\begin{eqnarray*} p &=& 0.2 , \text{essendo }F_{ 2 }= 0.48 > 0.2 \Rightarrow j_{ 0.2 }= 2 \\ x_{ 0.2 } &=& x_{\text{inf}; 2 } + \frac{ { 0.2 } - F_{ 1 }} {f_{ 2 }} \cdot b_{ 2 } \\ &=& 10 + \frac {{ 0.2 } - 0.18 } { 0.3 } \cdot 10 \\ &=& 10.67 \end{eqnarray*}\] \[\vdots\]

\[\begin{eqnarray*} p &=& 0.9 , \text{essendo }F_{ 4 }= 1 > 0.9 \Rightarrow j_{ 0.9 }= 4 \\ x_{ 0.9 } &=& x_{\text{inf}; 4 } + \frac{ { 0.9 } - F_{ 3 }} {f_{ 4 }} \cdot b_{ 4 } \\ &=& 50 + \frac {{ 0.9 } - 0.9 } { 0.1 } \cdot 40 \\ &=& 50 \end{eqnarray*}\] \[x_{1.0} = 90, ~~~\text{il più grande dei dati}\]

Riassumendo in tabella otteniamo:

\(x_{ 0 }\) \(x_{ 0.1 }\) \(x_{ 0.2 }\) \(x_{ 0.3 }\) \(x_{ 0.4 }\) \(x_{ 0.5 }\) \(x_{ 0.6 }\) \(x_{ 0.7 }\) \(x_{ 0.8 }\) \(x_{ 0.9 }\) \(x_{ 1 }\)
Percentili 0 5.556 10.67 14 17.33 21.43 28.57 35.71 42.86 50 90
  • mettere a grafico i punti (0,\(x_0\)), (0.10,\(x_{0.10}\)),…,(1,\(x_{1}\))) e (\(x_0\),0), (\(x_{0.10}\),0.10),…,(\(x_{1}\),1))

  • calcolare la percentuale di individui con reddito inferiore a 50

90% è la percentuale di individui con reddito minore di 50

  • calcolare la percentuale di individui con reddito superiore a 20

    • 48% è la percentuale di individui con reddito minore di 20
    • 52% è la percentuale di individui con reddito maggiore di 20
  • calcolare la percentuale approssimata di individui con reddito inferiore a 14

Per calcolare \(\%(X<14)\) abbiamo diversi modi, anzi tutto notiamo che la percentuale di \(dat2\) minori di 14 è, approssimativamente, l’area dell’istogramma da zero a 14. E quindi, direttamente:

\[\begin{eqnarray*} \%(X<14) &=& f_1\times 100+(14-10)\times h_2\\ &=& 0.18\times 100 + 4\times 3\\ &=& 30\% \end{eqnarray*}\]

In modo del tutto analogo con la funzione di ripartizione \(F\)

\[\begin{eqnarray*} \%(X<14) &=& 100\times F(14)\\ &=& 100\times(f_1+(14-10)\times h_2/100)\\ &=& 100\times(0.18 + 4\times 3/100)\\ &=& 30\% \end{eqnarray*}\]

Ma anche notando che \(x_{0.30}=14\), significa che \(F(x_{0.30})=0.30\) e \(\%(X<14)=100\times F(x_{0.30})=30\%\).

  • Calcolare la percentuale approssimata di individui con reddito superiore a 28.57

Notiamo che \(x_{0.60}\) = 28.57 e quindi \(F(x_{0.60})=0.60\), quindi \(\%(X<28.57)=0.60\times 100=60\%\) e quindi \(\%(X>28.57)=40\%\)

  • Calcolare la percentuale approssimata di individui con reddito inferiore a 35

Si tratta di calcolare l’area in blu:

e osservare che la sua area misura 69. Infatti l’area è data dalla somma di \[\begin{eqnarray*} \%(X\leq 35) &=& f_1\times 100+f_2\times 100+(35-20)\times h_3 \\ &=& 18+30+15\times 1.4\\ &=& 69 \end{eqnarray*}\]

  • calcolare la percentuale approssimata di individui con reddito superiore a 16

Si tratta di calcolare l’area in blu:

e osservare che la sua area misura 64. Infatti l’area si può vedere o direttamente calcolandola da 16 a 100 oppure si può valutarla come complemento: \[\%(X>16)=100\%-\%(X\leq 16)\] e quindi: \[\%(X\leq 16)=f_1\times 100+(16-10)\times h_2=36\] Quindi \(\%(X>16)=100-36=64\)

  • Individuare la media approssimata, la varianza approssimata, e i quartili approssimati

La media: \[\bar x = \frac 1 n \sum_j x_{jc} n_j = \frac 1{4700}127370=27.1 \]

La varianza: \[Var(X)=\frac {\sum_j x_{jc}^2 n_j }{n}-\bar x^2=\frac 1{4700}5059550-(27.1)^2=342.09\]

\(\bar x=\) 27.1, \(Var=\) 342.09, \((x_{0.25},x_{0.50},x_{0.75})=\) (12.3333, 21.4286, 39.2857)

  • Calcolare la percentuale di dati compresi tra il 25-esimo e il 75-esimo percentile

  • calcolare \(x_{0.025}\) e \(x_{0.975}\)

i valori sono \((x_{0.025}, x_{0.975})=\)(1.3889, 80)

  • Rappresentare graficamente e calcolare la percentuale di famiglie con reddito:
    • compreso tra 1.3889 e 80
    • compreso tra 0 e 1.3889
    • compreso tra 1.3889 e 21.4286
    • compreso tra 21.4286 e 80
    • compreso tra 80 e 100
    • minore di 1.3889 o maggiore di 80