Capitolo 2 Variabili Statistiche e Distribuzioni di Frequenza

2.1 Variabili Statistiche

Una Variabile Statistica (VS) è una qualunque caratteristica osservabile sugli individui (unità statistiche) della popolazione di riferimento, che varia da individuo ad individuo.

2.1.1 Notazione di Base

  • \(\mathbf{x}=(x_1,x_2,...,x_i,...,x_n)\), etichette simboliche per i dati, il primo dato osservato, il secondo ecc.
  • \(i\), indice che conta le osservazioni nell’ordine in cui sono state osservate
    • \(i\in\{1,2,...,n\}\)
    • il primo, il secondo, … l’\(i\)-esimo, … l’\(n\)-esimo (l’ultimo)
  • \(n\), numerosità assoluta: il numero totale di individui osservati.
  • \(S_X=\{\mathrm{x}_1,...,\mathrm{x}_j,...,\mathrm{x}_K\}\), l’insieme di tutte le modalità possibili che la variabile statistica è suscettibile di assumere.
  • \(j\), indice che conta le modalità: prima, seconda, …, \(j\)-esima,…, la \(K\)-esima.
  • \(K\), numero di modalità.

Esempio 2.1 (Variabile: genere) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = M, x_2 =F, x_3 =M, x_4=F,x_5=F,x_6=F)\)
  • \(n=6\)
  • \(S_X=\{\mathrm{x}_1 = F,\mathrm{x}_2 = M\}\)
  • \(K=2\)

Esempio 2.2 (Variabile: titolo di studio) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = E, x_2 =M, x_3 =L, x_4=S,x_5=S,x_6=S, x_7=L,x_8=M,x_9=L,x_{10}=S)\)
  • \(n=10\)
  • \(S_X=\{\mathrm{x}_1 = E,\mathrm{x}_2 = M, \mathrm{x}_3=S,\mathrm{x}_4=L\}\)
  • \(K=4\)

Esempio 2.3 (Variabile: Numero di interventi di manutenzione giornalieri) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = 0, x_2 =1, x_3 =0, x_4=2,x_5=1,x_6=1, x_7=0,x_8=1,x_9=3,x_{10}=1)\)
  • \(n=10\)
  • \(S_X=\{\mathrm{x}_1 = 0,\mathrm{x}_2 = 1,\mathrm{x}_3=2,\mathrm{x}_4=3,...\}\)
  • \(K=+\infty\)

2.1.2 Ordinamento e conteggio

Se l’ordine di osservazione non è influente ai fini della conoscenza del fenomeno i dati possono essere permutati (mescolati) a piacimento, la sequenza:

\[(x_{(1)},x_{(2)},...,x_{(i)},...,x_{(n)}),\]

indica i dati riordinati, dal più piccolo, al più grande. Se i dati sono numerici l’ordinamento è univoco, se i dati sono categoriali l’ordinamento è arbitrario.

Esempio 2.4 (Continua) Continuiamo l’esempio della variabile genere discussa nell’esempio 2.1

  • \(\mathbf{x}=(x_1 = M, x_2 =F, x_3 =M, x_4=F,x_5=F,x_6=F)\)
  • \(S_X=\{\mathrm{x}_1 = F,\mathrm{x}_2 = M\}\)
  • \(x_{(1)}=F,x_{(2)}=F,x_{(3)}=F,x_{(4)}=F,x_{(5)}=M,x_{(6)}=M\)

Esempio 2.5 (Continua: codifica 0, 1) \(\phantom{.}\)

  • Variabile: genere {M -> 0,F-> 1}
  • \(\mathbf{x}=(x_1 = 0, x_2 =1, x_3 =0, x_4=1,x_5=1,x_6=1)\)
  • \(S_X=\{\mathrm{x}_1 = 0,\mathrm{x}_2 = 1\}\)
  • \(x_{(1)}=0,x_{(2)}=0,x_{(3)}=1,x_{(4)}=1,x_{(5)}=1,x_{(6)}=1\)
  • nota: nella codifica 0, 1 ha senso sommare i dati: \[x_1+x_2+x_3+x_4+x_6=4,~~\text{Numero di femmine}\]

Esempio 2.6 (Continua: Variabile titolo di studio) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = E, x_2 =M, x_3 =L, x_4=S,x_5=S,x_6=S, x_7=L,x_8=M,x_9=L,x_{10}=S)\)
  • \(S_X=\{\mathrm{x}_1 = E,\mathrm{x}_2 = M, x_3=S, x_4=L\}\)
  • \(x_{(1)}=E,x_{(2)}=M,x_{(3)}=M,x_{(4)}=S,x_{(5)}=S,x_{(6)}=S,x_{(7)}=S,x_{(8)}=L,x_{(9)}=L, x_{(10)}=L\)

Esempio 2.7 (Continua: Codifica Numerica) \(\phantom{.}\)

  • Variabile: titolo di studio {E -> 1, M -> 2, S -> 3, L -> 4}
  • \(\mathbf{x}=(x_1 = 1, x_2 = 2, x_3 = 4, x_4= 3,x_5=3,x_6=3, x_7=4,x_8=2,x_9=4,x_{10}=3)\)
  • \(S_X=\{\mathrm{x}_1 = 1,\mathrm{x}_2 = 2, x_3=3, x_4=4\}\)
  • \(x_{(1)}=1,x_{(2)}=2,x_{(3)}=2,x_{(4)}=3,x_{(5)}=3,x_{(6)}=3,x_{(7)}=3,x_{(8)}=4,x_{(9)}=4, x_{(10)}=4\)
  • ha senso sommare i dati?

La codifica numerica corretta sarebbe più complessa

E M S L
\(x_1\) 1 0 0 0
\(x_2\) 0 1 0 0
\(x_3\) 0 0 0 1
\(x_4\) 0 0 1 0
\(x_5\) 0 0 1 0
\(x_6\) 0 0 1 0
\(x_7\) 0 0 0 1
\(x_8\) 0 1 0 0
\(x_9\) 0 0 0 1
\(x_{10}\) 0 0 1 0
\(Tot\) 1 2 4 3

I totali di colonna hanno senso e indicano il numero di individui che ha un determinato titolo di studio.

Questa codifica è sovra abbondante infatti come per maschio e femmina possiamo contare solo un colonna di presenza 1 (è femmina) e assenza 0 (non è femmina e quindi maschio), per una variabile a 4 modalità possiamo contare solo 3, ad esempio

  • 0,0,0 elementari
  • 1,0,0 medie
  • 0,1,0 superiori
  • 0,0,1 università
M S L
\(x_1\) 0 0 0
\(x_2\) 1 0 0
\(x_3\) 0 0 1
\(x_4\) 0 1 0
\(x_5\) 0 1 0
\(x_6\) 0 1 0
\(x_7\) 0 0 1
\(x_8\) 1 0 0
\(x_9\) 0 0 1
\(x_{10}\) 0 1 0
\(Tot\) 2 4 3

Per sapere il numero persone che ha al massimo le elementari basta fare 10 (numero totale di individui) meno 2 (medie) più 4 (superiori) più 3 (laureati):

\[ 10-(2+4+3)=1~~~\text{con le elemntari} \]

Esempio 2.8 (Continua: Numero di interventi di manutenzione giornalieri) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = 0, x_2 =1, x_3 =0, x_4=2,x_5=1,x_6=1, x_7=0,x_8=1,x_9=3,x_{10}=1)\)
  • \(S_X=\{\mathrm{x}_1 = 0,\mathrm{x}_2 = 1,\mathrm{x}_3=2,\mathrm{x}_4=3,...\}\)
  • \(x_{(1)}=0,x_{(2)}=0,x_{(3)}=0,x_{(4)}=1,x_{(5)}=1,x_{(6)}=1,x_{(7)}=1,x_{(8)}=1,x_{(9)}=2, x_{(10)}=3\)
  • ha senso sommare i dati?
  • cosa rappresenta la somma dei dati?

2.2 Distribuzione di Frequenza

La frequenza indica quanto una modalità insiste sul collettivo. Le frequenze si dividono in:

Definizione 2.1 (Frequenze Assolute) Si definiscono le \(n_j\) le frequenze assolute: il numero di individui che presentano la modalità \(j\).

Definizione 2.2 (Frequenze Relative) Si definiscono le \(f_j=n_j/n\) le frequenze relative: la proporzione di individui che presentano la modalità \(j\).

Definizione 2.3 (Frequenze Percentuali) Si definiscono le \(f_{\% j}=f_j\times 100\) le frequenze percentuali: la percentuale di individui che presentano la modalità \(j\).

Proprietà 2.1 Le proprietà della frequenze assolute(\(n_{j}\)) sono:

  • \(0\leq n_{j} \leq n, \forall j=1,...,K\),
  • \(\sum_{j=1}^{K} n_{j} = n\).

Proprietà 2.2 Le proprietà della frequenze relative (\(f_{j}\)) sono:

  • \(0\leq f_{j} \leq 1, \forall j=1,...,K\),
  • \(\sum_{j=1}^{K} f_{j} = 1\).

Proprietà 2.3 Le proprietà della frequenze percentuali (\(f_{\% j}\)) sono:

  • \(0\leq f_{\%,\, j} \leq 100, \forall j=1,...,K\),
  • \(\sum_{j=1}^{K} f_{\%,\, j} = 100\).

Definizione 2.4 (Distribuzione di Frequenza) Una distribuzione di frequenza è una tabella a cui vengono associate le modalità e le frequenze

Esempio 2.9 (Continua: Variabile: genere) \[x_{(1)}=F,x_{(2)}=F,x_{(3)}=F,x_{(4)}=F,x_{(5)}=M,x_{(6)}=M\]

\(X\) \(n_j\) \(f_j\) \(f_{\% j}\)
F \(4\) \(4/6=0.67\) \(67\%\)
M \(2\) \(2/6=0.33\) \(33\%\)
Tot \(6\) \(1.00\) \(100\%\)

Esempio 2.10 (Continua: Variabile titolo di studio) \(\phantom{.}\)

\(x_{(1)}=E,x_{(2)}=M,x_{(3)}=M,x_{(4)}=S,x_{(5)}=S,x_{(6)}=S,x_{(7)}=S,x_{(8)}=L,x_{(9)}=L, x_{(10)}=L\)

\(X\) \(n_j\) \(f_j\) \(f_{\% j}\)
E \(2\) \(2/20=0.1\) \(10\%\)
M \(4\) \(4/20=0.2\) \(20\%\)
S \(8\) \(8/20=0.4\) \(40\%\)
L \(6\) \(6/20=0.3\) \(30\%\)
Tot \(20\) \(1.0\) \(100\%\)

2.2.1 Dati quantitativi continui

Se i dati sono quantitativi continui il numero delle modalità è spesso di gran lunga superiore al numero dei dati e non sempre è possibile fissare un limite superiore in anticipo all’osservazione dei dati. Se per esempio volessi misurare il reddito di una persona in centesimi, otterrei:

Esempio 2.11 (Variabile: Reddito mensile lordo in migliaia di euro) \(\phantom{x}\)

  • unità di rilevazione: famiglie del comune A a febbraio 2021
  • \(n=45\)
  • \(S_X=\{0.00,0.01,0.02,...,100.00,100.01,...,2000.00,...,10~000,...\}\)

Qui di seguito i dati nell’ordine in cui sono stati raccolti è sono mostrati sopra, mentre i dati riordinati sono mostrati sotto:

\[\begin{array}{crcrcrcrcr} \hline x_{1}= & 2.13 & x_{10}= & 3.08 & x_{19}= & 4.73 & x_{28}= & 7.31 & x_{37}= & 14.54 \\ x_{2}= & 0.74 & x_{11}= & 4.32 & x_{20}= & 4.36 & x_{29}= & 6.65 & x_{38}= & 10.52 \\ x_{3}= & 1.17 & x_{12}= & 4.76 & x_{21}= & 3.27 & x_{30}= & 8.17 & x_{39}= & 17.59 \\ x_{4}= & 0.27 & x_{13}= & 4.78 & x_{22}= & 4.09 & x_{31}= & 7.12 & x_{40}= & 10.84 \\ x_{5}= & 2.89 & x_{14}= & 4.13 & x_{23}= & 4.36 & x_{32}= & 7.03 & x_{41}= & 16.04 \\ x_{6}= & 0.03 & x_{15}= & 4.19 & x_{24}= & 4.06 & x_{33}= & 9.59 & x_{42}= & 12.30 \\ x_{7}= & 1.72 & x_{16}= & 3.73 & x_{25}= & 3.17 & x_{34}= & 9.04 & x_{43}= & 19.67 \\ x_{8}= & 2.29 & x_{17}= & 3.71 & x_{26}= & 8.10 & x_{35}= & 7.70 & x_{44}= & 16.05 \\ x_{9}= & 2.62 & x_{18}= & 4.18 & x_{27}= & 5.16 & x_{36}= & 11.07 & x_{45}= & 16.40 \\ \hline x_{(1)}= & 0.03 & x_{(10)}= & 3.08 & x_{(19)}= & 4.19 & x_{(28)}= & 7.03 & x_{(37)}= & 10.84 \\ x_{(2)}= & 0.27 & x_{(11)}= & 3.17 & x_{(20)}= & 4.32 & x_{(29)}= & 7.12 & x_{(38)}= & 11.07 \\ x_{(3)}= & 0.74 & x_{(12)}= & 3.27 & x_{(21)}= & 4.36 & x_{(30)}= & 7.31 & x_{(39)}= & 12.30 \\ x_{(4)}= & 1.17 & x_{(13)}= & 3.71 & x_{(22)}= & 4.36 & x_{(31)}= & 7.70 & x_{(40)}= & 14.54 \\ x_{(5)}= & 1.72 & x_{(14)}= & 3.73 & x_{(23)}= & 4.73 & x_{(32)}= & 8.10 & x_{(41)}= & 16.04 \\ x_{(6)}= & 2.13 & x_{(15)}= & 4.06 & x_{(24)}= & 4.76 & x_{(33)}= & 8.17 & x_{(42)}= & 16.05 \\ x_{(7)}= & 2.29 & x_{(16)}= & 4.09 & x_{(25)}= & 4.78 & x_{(34)}= & 9.04 & x_{(43)}= & 16.40 \\ x_{(8)}= & 2.62 & x_{(17)}= & 4.13 & x_{(26)}= & 5.16 & x_{(35)}= & 9.59 & x_{(44)}= & 17.59 \\ x_{(9)}= & 2.89 & x_{(18)}= & 4.18 & x_{(27)}= & 6.65 & x_{(36)}= & 10.52 & x_{(45)}= & 19.67 \\ \hline \end{array}\]

Come si osserva aver rimesso in ordine i dati non ci aiuta a capire la distribuzione del fenomeno.

2.2.2 Raggruppamenti in Classi

L’idea è quella di raggruppare i dati in intervalli contigui e procedere alla rappresentazione in distribuzione di frequenza. In tabella 2.1 vediamo a sinistra troppe poche classi, al centro troppe, mentre a destra vediamo che il numero delle classi e la loro ampiezza variabile rende più leggibile la distribuzione dei dati.

Tabella 2.1 A sinistra abbiamo troppe poche classi, si perde troppa variabilità. Al centro sono state scelte troppe classi, non si coglie la distribuzone. A destra infine le classi sono state scelte ad hoc per rappresentare al meglio i dati cercando un compromesso tra sintesi e ricchezza dei dati.
\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0 5 55.56
5 20 44.44
100.00
\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0.0 2.5 15.56
2.5 5.0 40.00
5.0 7.5 11.11
7.5 10.0 11.11
10.0 12.5 8.89
12.5 15.0 2.22
15.0 17.5 6.67
17.5 20.0 4.44
100.00
\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0 3 20.00
3 5 35.56
5 10 22.22
10 20 22.22
100.00

2.2.3 Frequenze Cumulate

Si definisce frequenza cumulata \(F\) la seguente quantità:

  • \(F_1 = f_1\)
  • \(F_2= f_1+f_2=F_1+f_2\)
  • \(F_3= f_1+f_2+f_3=F_2+f_3\)
  • \(F_j= f_1+f_2+...+f_j=F_{j-1}+f_j\)
  • \(F_K= f_1+f_2+...+f_K=1\)

ovvero \(F_j=f_1+...+f_j\) cumula tutte le frequenze dalla 1 alla \(j\).

Esempio 2.12 (Continua: Variabile titolo di studio) \(\phantom{.}\)

\(n_j\) \(f_j\) \(F_j\)
E 1 0.1 0.1
M 2 0.2 0.3
S 4 0.4 0.7
U 3 0.3 1.0

E si legge: \(F_1=0.1\) ci dice che il 10% del collettivo in esame ha come massimo titolo ha non più delle elementari. \(F_1=0.3\) ci dice che il 30% del collettivo ha come massimo titolo ha non più delle medie. \(F_4=0.7\) ci dice che il 30% del collettivo ha come massimo titolo ha non più delle superiori e \(F_5=1\) che il 100% del collettivo ha, al massimo, la laurea.

Esempio 2.13 (Continua: Reddito) \(\phantom{.}\)

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_j\) \(F_j\)
0 3 0.20 0.20
3 5 0.36 0.56
5 10 0.22 0.78
10 20 0.22 1.00
1.00

E si legge: \(F_1=0.21\) ci dice che il 20% del collettivo in esame guadagna al massimo 3 (mila euro); alternativamente leggiamo che il 20% del collettivo non guadagna più di 3 (mila euro). \(F_2=0.56\) ci dice che il 56% del collettivo guadagna al massimo 5. \(F_2=0.56\) ci dice che il 56% del collettivo guadagna al massimo 5 (mila euro); il 56% non guadagna più di 5 (mila euro). \(F_3=0.78\) ci dice che il 78% del collettivo guadagna 10 (mila euro); il 78% non guadagna più di 10 (mila euro). E infine il 100% del collettivo guadagna al massimo 20 (mila euro).

2.3 Istogramma di Densità

È grafico che rappresenta rettangoli contigui la cui area è la frequenza e la base è l’intervallo di raggruppamento. Usiamo il simbolo \(b_j\) per denotare l’ampiezza della base del rettangolo, l’altezza dei rettangoli viene chiamata densità

\[h_j = Const.\times \frac {f_j} {b_j}\]

Se \(Const.=1\) si ottiene l’istogramma di densità relativa, la somma delle aree dei rettangoli è 1. Se \(Const.=n\) si ottiene l’istogramma di densità assoluta, la somma delle aree dei rettangoli è \(n\). Se \(Const.=100\) si ottiene l’istogramma di densità percentuale, la somma delle aree dei rettangoli è 100. Per comodità tutti gli esempi si riferiscono all’istogramma di densità percentuale.

Tabella 2.2 Tabella 2.2 Come ricavare le quantità necessarie per calcolare l’istogramma di densità percentuale
\([\text{x}_j\), \(\text{x}_{j+1})\) \(n_j\) \(f_j=\frac{n_j}{n}\) \(b_j=\text{x}_{j+1}-\text{x}_{j}\) \(h_j=100\times\frac{f_j}{b_j}\)
\([\text{x}_1=0\), \(\text{x}_{2}=3)\) \(n_1=9\) \(f_1=\frac {n_1} n =\frac 9{45}=0.20\) \(b_1=3-0=3\) \(h_1=100\times\frac{0.20}{3}=6.67\)
\([\text{x}_2=3\), \(\text{x}_{3}=5)\) \(n_2=16\) \(f_2=\frac {n_2} n =\frac {16}{45}=0.36\) \(b_2=5-3=2\) \(h_2=100\times\frac{0.36}{2}=17.78\)
\([\text{x}_3=5\), \(\text{x}_{4}=10)\) \(n_3=10\) \(f_3=\frac {n_3} n =\frac {10}{45}=0.22\) \(b_3=10-5=5\) \(h_3=100\times\frac{0.22}{5}=4.44\)
\([\text{x}_4=10\) \(\text{x}_{5}=20)\) \(n_4=10\) \(f_4=\frac {n_4} n =\frac {10}{45}=0.22\) \(b_4=20-10=10\) \(h_4=100\times\frac{0.22}{10}=2.22\)

Esempio 2.14 La tabella 2.2 mostra passo, passo lo sviluppo del calcolo. La figura 2.1 la corrispondente rappresentazione grafica.

Rappresentazione grafica dell'istogramma di densità percentuale, l'area di ogni rettangolo corrisponde alla frequenza percentuale della classe, rappresentata sull'asse delle ascisse

Figura 2.1 Rappresentazione grafica dell’istogramma di densità percentuale, l’area di ogni rettangolo corrisponde alla frequenza percentuale della classe, rappresentata sull’asse delle ascisse

2.4 La Funzione di Ripartizione

Se i dati sono quantitativi continui raggruppati in classi, la Funzione di Ripartizione della VS \(X\) è la funzione che misura l’area dell’istogramma di densità (le aree sommano ad 1) dal più piccolo dei dati \(x_{(0)}\) fino ad un \(x\) qualunque. Se nel caso dell’esempio precedente scegliessimo \(x=7.2\), graficamente vedremmo la figura 2.2. Notiamo innanzitutto che:

\[\begin{eqnarray*} F(\text{x}_1)&=& 0\\ F(\text{x}_2) &=& F_1\\ F(\text{x}_3) &=& F_2\\ \vdots~~~ && \vdots\\ F(\text{x}_j) &=& F_{j-1}\\ \vdots~~~ && \vdots\\ F(\text{x}_{K+1}) &=& 1 \end{eqnarray*}\]

Rappresentazione grafica della Funzione di Ripartizione di $X$ valutata nel punto $7.2$, $F(7.2)$ è l'area da 0 a 7.2 dell'istogramma.

Figura 2.2 Rappresentazione grafica della Funzione di Ripartizione di \(X\) valutata nel punto \(7.2\), \(F(7.2)\) è l’area da 0 a 7.2 dell’istogramma.

Nel nostro caso \(F(7.2)\) è la comma delle frequenze fino a 5 più l’area del rettangolo di base \((7.2-5)\) e altezza \(h_3=4.4444/100\), ovvero \[\begin{eqnarray*} F(7.2) &=& f_1+f_2+\frac{(7.2-5)}{100}\times4.4444 \\ &=& F_2 +2.5\times0.0444\\ &=& 0.6533 \end{eqnarray*}\] Se per esempio ci interessasse sapere, in modo approssimato, che percentuale e quanti individui che guadagno meno di 7.2 (mila euro) al mese, basta moltiplicare \(F(7.2)\) per 100 e per \(n\), rispettivamente. \[\begin{eqnarray*} \%(X<7.2) &=& 100\times F(7.2) \\ &=& 65.3333\% \\ \#(X<7.2) &=& 45\times F(7.2) \\ &=& 29.4 \end{eqnarray*}\] Dove \(\%(X<7.2)\) significa la percentuale approssimata di dati minori di 7.2 e dove \(\#(X<7.2)\) significa il numero approssimato di dati minori di 7.2.

Se per esempio sono interessato alla percentuale (o al numero) di dati compresi tra 2.4 e 7.2 osservo che \[\begin{eqnarray*} \%(2.4<X<7.2) &=& 100\times (F(7.2)-F(2.4)) \\ F(2.4) &=& \frac{2.4-0}{100}\times6.6667 \\ &=&0.16\\ \%(2.4<X<7.2) &=& 100\times (0.6533-0.16) \\ &=& 49.3333. \end{eqnarray*}\] Infatti calcolare l’area tra 2.4 e 7.2 equivale a calcolare l’area fino a 7.2, l’area fino a 2.4 e sottrarle.

Più in generale la funzione di ripartizione cumula l’area dal più piccolo degli \(\text{x}\) fino al più grande.

\[\begin{eqnarray*} F(x) &=& 0 \quad \text{per ogni } x\le \text{x}_1\\ F(x) &=& F(\text{x}_{j^*-1}) + \frac{x-\text{x}_{j^*}}{100}h_{j^*}\\ F(x) &=& 1 \quad \text{per ogni } x\ge \text{x}_{K+1}\\ \end{eqnarray*}\]

dove \(j^*\) è la classe che contiene \(x\). Se la volessimo rappresentare graficamente, nel nostro esempio sarebbe così:

2.5 L’inversa della Funzione di Ripartizione

La funzione di ripartizione è una funziona che crescente che vale zero quando \(x\) è il più piccolo dei dati e vale uno quando \(x\) è il più grande dei dati. \[ F:S_X\to [0,1] \] Definiamo \(Q=F^{-1}\) la funzione inversa: \[ Q:[0,1]\to S_X \] ed è tale che \[ Q(p)=x_p:F(x_p)=p, 0\le p\le 1 \]

2.6 Indicatori Sintetici di Centralità e di Variabilità

Un indicatore è un numero che sintetizza una caratteristica del fenomeno collettivo. Esempi di indicatori sono: il massimo del fenomeno, il minimo del fenomeno, la media del fenomeno, la modalità più ricorrente, ecc.

Gli indicatori di centralità sintetizzano l’intero fenomeno in un numero. Indicatori di che osserveremo centralità sono:

  • La media aritmetica (variabili quantitative) nella sezione 3.1
  • La mediana (variabili quantitative e variabili qualitative ordinate) nella sezione 4.1
  • La moda (ogni tipo di variabile) nella sezione 4.4

La media aritmetica è una media analitica perché dipende dal valore che la variabile assume sulle unità. Mediana e Moda sono invece medie lasche perché dipendono dall’ordinamento dei dati.

Gli indicatori di variabilità misurano lo scostamento del fenomeno oggetto di studio dall’indicatore di centralità. Vedremo:

  • La varianza 3.2 e la standard deviation nella sezione 3.3
  • Lo scarto interquartile nella sezione 4.3