Capitolo 16 Confronto tra due Popolazioni

Abbiamo trattato un gruppo di 15 pazienti con un placebo e un secondo gruppo di 10 pazienti con il farmaco A, il numero medio di giorni dei pazienti trattati con il placebo è di 10.4 giorni, con una sd di 2.3 giorni; il numero medio di giorni dei pazienti trattati con il farmaco è di 9.6 giorni, con una sd di 1.9 giorni. - La differenza tra 10.4 e 9.6 è significativa? - Il farmaco davvero diminuisce il numero medio di giorni oppure la differenza è colpa del caso?

In un’indagine sul reddito estraiamo un campione di 56 individui dalla città \(A\) e un secondo campione di 67 individui dalla città \(B\). Il reddito medio del campione estratto da \(A\) è \(\bar x_A=15.1\)mila euro lordi annui, con una sd \(\hat\sigma_A=3.1\)mila euro; Il reddito medio del campione estratto da \(B\) è \(\bar x_A=18.6\)mila euro lordi annui, con una sd \(\hat\sigma_A=5.7\)mila euro; - Le due città hanno lo stesso reddito medio e la differenza nei campioni è dovuta ala caso oppure i due campioni provengono da due città con reddito medio diverso?

Facciamo un sondaggio di opinione sul gradimento di un personaggio X in due provincie, A e B. Nella provincia A 35 persone su 130 intervistate gradisce il personaggio X, nella provincia B 54 su 150 persone intervistate gradisce il personaggio X. - la differenza tra i due campioni è significativa? - nella provincia A e in quella B la proporzione di gradimento è la stessa e la differenza nei campioni è dovuta al caso oppure no?

16.1 Test per due medie

16.1.1 il contesto probabilistico

Siano \(X_{1,A},X_{2,A},...,X_{n_A,A}\) \(n_A\) VC IID replicazioni di \(X_A\sim N(\mu_A,\sigma_A^2)\) e siano \(X_{1,B},X_{2,B},...,X_{n_B,B}\) \(n_B\) VC IID replicazioni di \(X_B\sim N(\mu_B,\sigma_B^2)\)

\(X_{1,A},X_{2,A},...,X_{n_A,A}\) è un campione di ampiezza \(n_A\) dalla popolazione \(\mathscr{P}_A\) e \(X_{1,B},X_{2,B},...,X_{n_B,B}\) è un campione di ampiezza \(n_B\) dalla popolazione \(\mathscr{P}_B\)

Ci possiamo chiedere se: \[\begin{cases} H_0:\mu_A=\mu_B\\ H_1:\mu_A>\mu_B \end{cases}\] Test Unilaterale

Oppure se \[\begin{cases} H_0:\mu_A=\mu_B\\ H_1:\mu_A\neq\mu_B \end{cases}\] Test Bilaterale

Perché solo due possibili \(H_1\)? Perché l’ipotesi \[\begin{cases} H_0:\mu_A=\mu_B\\ H_1:\mu_A<\mu_B \end{cases}\] equivale a \[\begin{cases} H_0:\mu_B=\mu_A\\ H_1:\mu_B>\mu_A \end{cases}\]

16.1.2 Derivazione della statistica test

Se \(X_{1,A},X_{2,A},...,X_{n_A,A}\) \(n_A\) VC IID replicazioni di \(X_A\sim N(\mu_A,\sigma_A^2)\) e siano \(X_{1,B},X_{2,B},...,X_{n_B,B}\) \(n_B\) VC IID replicazioni di \(X_B\sim N(\mu_B,\sigma_B^2)\), allora \[\hat\mu_A\sim N\left(\mu_A,\frac {\sigma_A^2}{n_A}\right)\qquad\text{e}\qquad\hat\mu_B\sim N\left(\mu_B,\frac {\sigma_B^2}{n_B}\right)\]

E dunque, dalle proprietà delle normali \[\hat\mu_A - \hat\mu_B\sim N\left(\mu_A-\mu_B,\frac{\sigma^2_A}{n_A}+\frac{\sigma^2_B}{n_B}\right)\]

E quindi \[\frac{(\hat\mu_A - \hat\mu_B)-(\mu_A-\mu_B)}{\sqrt{\frac{\sigma^2_A}{n_A}+\frac{\sigma^2_B}{n_B}}}\sim N(0,1)\]

Sotto \(H_0:\mu_A=\mu_B\) \[Z=\frac{\hat\mu_A - \hat\mu_B}{\sqrt{\frac{\sigma^2_A}{n_A}+\frac{\sigma^2_B}{n_B}}}\sim N(0,1)\]

Ma \(\sigma_A\) e \(\sigma_B\) sono incogniti

16.1.3 Stima di \(\sigma_A\) e \(\sigma_B\)

Dipende dalle ipotesi che abbiamo sulle due popolazioni:

Ipotesi 1: omogeneità: si ipotizza che in popolazione \(\sigma_A^2=\sigma_B^2=\sigma^2\), e dunque sia il campione proveniente da A che quello proveniente da B contribuiscono a stimare la varianza comune di popolazione \(\sigma^2\).

Ipotesi 2: eterogeneità: si ipotizza che in popolazione \(\sigma_A^2\neq\sigma_B^2\)

In teoria per scegliere tra l’ipotesi di omogeneità e quella di eterogeneità dovremmo fare un test \[\begin{cases} H_0:\sigma^2_A=\sigma^2_B\\ H_1:\sigma^2_A\neq\sigma^2_B \end{cases}\] il cui sviluppo esula dagli scopi del corso.

In tutti gli esercizi che faremo l’ipotesi verrà assunta nel problema.

16.1.4 Ipotesi 1: omogeneità

Sotto ipotesi di omogeneità, entrambi i campioni contribuiscono alla stima della stima comune di \(\sigma^2\), lo stimatore congiunto ( pooled ) è \[S^2_p=\frac{n_A\hat\sigma_A^2+n_B\hat\sigma_B^2}{n_A+n_B-2}\]

E quindi sotto \(H_0\) \[T=\frac{\hat\mu_A-\hat\mu_B}{\sqrt{\frac{S_p^2}{n_A}+\frac{S_p^2}{n_B}}}\sim t_{n_A+n_B-2}\]

La statistica osservata \[t_{\text{obs}}=\frac{\bar x_A-\bar x_B}{\sqrt{\frac{S_p^2}{n_A}+\frac{S_p^2}{n_B}}}\]

Andrà letta nella direzione di \(H_1\), sulle tavole della \(t\) con \(n_A+n_B-2\) gradi di libertà.

16.1.5 Ipotesi 2: eterogeneità

Sotto ipotesi di eterogeneità, costruiamo gli stimatori corretti per \(\sigma^2_A\) e \(\sigma^2_B\) \[S^2_A=\frac{n_A}{n_A-1}\hat\sigma_A^2\qquad S^2_B=\frac{n_B}{n_B-1}\hat\sigma_B^2\]

E quindi sotto \(H_0\) \[T=\frac{\hat\mu_A-\hat\mu_B}{\sqrt{\frac{S_A^2}{n_A}+\frac{S_B^2}{n_B}}}\sim t_{n_A+n_B-2}\]

La statistica osservata \[t_{\text{obs}}=\frac{\bar x_A-\bar x_B}{\sqrt{\frac{S_A^2}{n_A}+\frac{S_B^2}{n_B}}}\]

Andrà letta nella direzione di \(H_1\), sulle tavole della \(t\) con \(n_A+n_B-2\) gradi di libertà.

16.1.6 Esempio

Si sperimentano due diete: \(A\) e \(B\). Per la dieta \(A\) si selezionano a caso 15 soggetti. Dopo due settima- ne, si osserva una diminuzione di peso: \(\bar x_A\) = 6kg con \(\hat\sigma_A=\) 1.2kg. Per la dieta \(B\) si selezionano a caso 18 soggetti. Dopo due settimane, si osserva una diminuzione di peso: \(\bar x_B\) = 5kg con \(\hat\sigma_B=\) 1.8kg. Nell’ipotesi di varianze eterogenee, verificare, se le due diete sono equivalenti contro l’alternativa che la dieta \(A\) sia più efficace (maggiore) della dieta \(B\).

Test \(t\) per due medie, (eterogeneità)

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \mu_\text{A} = \mu_\text{B} \\ H_1: \mu_\text{A} > \mu_\text{B} \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) \[ S^2_\text{ $A$ }=\frac{n_\text{ $A$ }}{n_\text{ $A$ }-1}\hat\sigma^2_\text{ $A$ }=\frac{ 15 }{ 15 -1} 1.2 ^2= 1.543 \qquad S^2_\text{ $B$ }=\frac{n_\text{ $B$ }}{n_\text{ $B$ }-1}\hat\sigma^2_\text{ $B$ }=\frac{ 18 }{ 18 -1} 1.8 ^2= 3.431 \]

\[\begin{eqnarray*} \frac{\hat\mu_\text{ $A$ } - \hat\mu_\text{ $B$ }} {\sqrt{\frac {S^2_\text{ $A$ }}{n_\text{ $A$ }}+\frac {S^2_\text{ $B$ }}{n_\text{ $B$ }}}}&\sim&t_{n_\text{ $A$ }+n_\text{ $B$ }-2}\\ t_{\text{obs}} &=& \frac{ ( 6 - 5 )} {\sqrt{\frac{ 1.543 }{ 15 }+\frac{ 3.431 }{ 18 }}} = 1.846 \, . \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Consideriamo \(\alpha=0.1, 0.05, 0.01, 0.001\)

I valori critici sono

\(t_{33-2;0.1}=1.3095\); \(t_{33-2;0.05}=1.6955\); \(t_{33-2;0.01}=2.4528\); \(t_{33-2;0.001}=3.3749\)

Siccome \(1.6955<t_\text{obs}=1.846<2.4528\), quindi rifiuto \(H_0\) al 5%,

\(0.01<p_\text{value}<0.05\), significativo \(\fbox{*}\).

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(T_{33-2}>1.85)=0.037229 \]

Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0.01 < p_\text{value}= 0.037229 \leq 0.05 \]

16.1.7 Esempio

La direzione vuole verificare se l’ammontare delle vendite di due supermercati, \(A\) e \(B\), sia la stessa. Un campione di 18 giorni per il supermercato \(A\) fornisce una vendita media giornaliera pari a \(\bar x_A=\) 55 mila euro, con \(\hat\sigma_A=\) 2.9 mila euro. Un campione di 24 giorni per il supermercato \(B\) fornisce \(\bar x_B=\) 57 mila euro, con \(\hat\sigma_A=\) 3.1 mila euro.

Sotto assunto di omogeneità delle varianze verificare l’ipotesi che la vendita media del supermercato \(A\) sia uguale a quella del supermercato \(B\), contro l’alternativa sia diversa.

Test \(T\) per due medie, (omogeneità)

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \mu_\text{$A$} = \mu_\text{$B$} \\ H_1: \mu_\text{$A$} \neq \mu_\text{$B$} \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\)

L’ipotesi è di omogeneità e quindi calcoliamo:\[ S_p^2=\frac{n_\text{ $A$ }\hat\sigma^2_\text{ $A$ }+n_\text{ $B$ }\hat\sigma^2_\text{ $B$ }}{n_\text{ $A$ }+n_\text{ $B$ }-2} = \frac{ 18 \cdot 2.9 ^2+ 24 \cdot 3.1 ^2}{ 18 + 24 -2}= 9.551 \]

\[\begin{eqnarray*} \frac{\hat\mu_\text{ $A$ } - \hat\mu_\text{ $B$ }} {\sqrt{\frac {S^2_p}{n_\text{ $A$ }}+\frac {S^2_p}{n_\text{ $B$ }}}}&\sim&t_{n_\text{ $A$ }+n_\text{ $B$ }-2}\\ t_{\text{obs}} &=& \frac{ ( 55 - 57 )} {\sqrt{\frac{ 8.905 }{ 18 }+\frac{ 10.03 }{ 24 }}} = -2.076 \, . \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\alpha=0.1, 0.05, 0.01, 0.001\) e quindi \(\alpha/2=0.05, 0.025, 0.005, 0.0005\)

I valori critici sono

\(t_{42-2;0.05}=1.6839\); \(t_{42-2;0.025}=2.0211\); \(t_{42-2;0.005}=2.7045\); \(t_{42-2;0.0005}=3.551\)

Siccome \(2.0211<|t_\text{obs}|=2.0756<2.7045\), quindi rifiuto \(H_0\) al 5%,

\(0.01<p_\text{value}<0.05\), significativo \(\fbox{*}\).

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(|T_{42-2}|>|-2.08|)=2P(T_{42-2}>2.08)=0.044408 \]

Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0.01 < p_\text{value}= 0.044408 \leq 0.05 \]

16.2 Test per due proporzioni

16.2.1 Il contesto probabilistico

Siano \(X_{1,A},X_{2,A},...,X_{n_A,A}\) \(n_A\) VC IID replicazioni di \(X_A\sim \text{Ber}(\pi_A)\) e siano \(X_{1,B},X_{2,B},...,X_{n_B,B}\) \(n_B\) VC IID replicazioni di \(X_B\sim \text{Ber}(\pi_B)\)

\(X_{1,A},X_{2,A},...,X_{n_A,A}\) è un campione di ampiezza \(n_A\) dalla popolazione \(\mathscr{P}_A\) e \(X_{1,B},X_{2,B},...,X_{n_B,B}\) è un campione di ampiezza \(n_B\) dalla popolazione \(\mathscr{P}_B\)

Ci possiamo chiedere se: \[\begin{cases} H_0:\pi_A=\pi_B\\ H_1:\pi_A>\pi_B \end{cases}\] Test Unilaterale

Oppure se \[\begin{cases} H_0:\pi_A=\pi_B\\ H_1:\pi_A\neq\pi_B \end{cases}\] Test Bilaterale

16.2.2 Derivazione della statistica test

Se \(X_{1,A},X_{2,A},...,X_{n_A,A}\) \(n_A\) VC IID replicazioni di \(X_A\sim \text{Ber}(\pi_A)\) e siano \(X_{1,B},X_{2,B},...,X_{n_B,B}\) \(n_B\) VC IID replicazioni di \(X_B\sim \text{Ber}(\pi_B)\), allora \[\hat\pi_A\operatorname*{\sim}_a N\left(\pi_A,\frac {\pi_A(1-\pi_A)}{n_A}\right)\qquad\text{e}\qquad\hat\pi_B\operatorname*{\sim}_a N\left(\pi_B,\frac {\pi_B(1-\pi_B)}{n_B}\right)\]

E dunque, dalle proprietà delle normali \[\hat\pi_A - \hat\pi_B\operatorname*{\sim}_a N\left(\pi_A-\pi_B,\frac{\pi_A(1-\pi_A)}{n_A}+\frac{\pi_B(1-\pi_B)}{n_B}\right)\]

E quindi \[\frac{(\hat\pi_A - \hat\pi_B)-(\pi_A-\pi_B)}{\sqrt{\frac{\pi_A(1-\pi_A)}{n_A}+\frac{\pi_B(1-\pi_B)}{n_B}}}\sim N(0,1)\]

Sotto \(H_0:\pi_A=\pi_B=\pi_C\) \[Z=\frac{\hat\pi_A - \hat\pi_B}{\sqrt{\frac{\pi_C(1-\pi_C)}{n_A}+\frac{\pi_C(1-\pi_C)}{n_B}}}\sim N(0,1)\]

La stima di \(\pi_C\) è \[\hat\pi_C=\frac{\#\{\text{successi nel gruppo A}\}+\#\{\text{successi nel gruppo B}\}}{n_A+n_B}=\frac{n_A\hat\pi_A+n_B\hat\pi_B}{n_A+n_B}\]

E dunque \[Z=\frac{\hat\pi_A - \hat\pi_B}{\sqrt{\frac{\hat\pi_C(1-\hat\pi_C)}{n_A}+\frac{\hat\pi_C(1-\hat\pi_C)}{n_B}}}\operatorname*{\sim}_a N(0,1)\]

La statistica osservata è \[z_{\text{obs}}=\frac{\hat\pi_A-\hat\pi_B}{\sqrt{\frac{\hat\pi_C(1-\hat\pi_C)}{n_A}+\frac{\hat\pi_C(1-\hat\pi_C)}{n_B}}}\] e andrà letta nella direzione di \(H_1\) sulle tavole della \(Z\).

16.2.3 Esempio

Tra i abitanti del comune \(A\), si intervistano 80 uomini e 100 donne per capire l’impatto che avrà la legge comunale sul divieto di fumo nei parchi pubblici. Dalle interviste risulta che 70 uomini e 70 donne si dichiarano a favore di tale legge. Verificare l’ipotesi che la nuova legge sia accolta in modo equivalente da donne e uomini, contro l’alternativa che le donne si dimostrino meno propense a accettare tale legge.

Test \(Z\) per due proporzioni

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \pi_\text{$U$} = \pi_\text{$D$} \\ H_1: \pi_\text{$U$} > \pi_\text{$D$} \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(Z\)

\[\hat\pi_\text{ $U$ }=\frac{s_\text{ $U$ }}{n_\text{ $U$ }}=\frac{ 70 }{ 80 }= 0.875 \qquad \hat\pi_\text{ $D$ }=\frac{s_\text{ $D$ }}{n_\text{ $D$ }}=\frac{ 70 }{ 100 }= 0.7 \]Calcoliamo la proporzione comune sotto \(H_0\) \[ \pi_C=\frac{s_\text{ $U$ }+s_\text{ $D$ }}{n_\text{ $U$ }+n_\text{ $D$ }}= \frac{ 140 }{ 180 }= 0.7778 \]\[\begin{eqnarray*} \frac{\hat\pi_\text{ $U$ } - \hat\pi_\text{ $D$ }} {\sqrt{\frac {\pi_C(1-\pi_C)}{n_\text{ $U$ }}+\frac {\pi_C(1-\pi_C)}{n_\text{ $D$ }}}}&\sim&N(0,1)\\ z_{\text{obs}} &=& \frac{ ( 0.875 - 0.7 )} {\sqrt{\frac{ 0.7778 (1- 0.7778 )}{ 80 }+\frac{ 0.7778 (1- 0.7778 )}{ 100 }}} = 2.806 \, . \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(Z>2.81)=0.002506 \]

\[ 0.001 < p_\text{value}= 0.002506 \leq 0.01 \]

Rifiuto \(H_0\) all’1%,

\(0.001<p_\text{value}<0.01\), molto significativo \(\fbox{**}\).

16.3 Specchietto Finale per i Test ad Due Campioni

\[\begin{align*} \text{Test $t$, 2 Campioni} & \qquad\text{ Test $t$, 2 Campioni} & \text{Proporzione, 2 Campioni} \\ \text{Omogeneità} & \qquad \text{Eterogeneità} & \\ \hline \begin{aligned} t_{\text{obs}}&=\frac{\hat\mu_A-\hat\mu_B}{\sqrt{\frac{S_p^2}{n_A}+\frac{S_p^2}{n_B}}}\\ S^2_p &= \frac{n_A\hat\sigma_A^2+n_B\hat\sigma_B^2}{n_A+n_B-2}\\ \end{aligned} & \begin{aligned} \displaystyle \quad t_{\text{obs}}=\frac{\hat\mu_A-\hat\mu_B}{\sqrt{\frac{S_A^2}{n_A}+\frac{S_B^2}{n_B}}}\\ \end{aligned} & \begin{aligned} z_{\text{obs}} &=\frac{\hat\pi_A-\hat\pi_B}{\sqrt{\frac{\hat\pi_C(1-\hat\pi_C)}{n_A}+\frac{\hat\pi_C(1-\hat\pi_C)}{n_B}}}\\ \hat\pi_C &=\frac{\#\{\text{successi A}\}+\#\{\text{successi B}\}}{n_A+n_B}\\ &=\frac{n_A\hat\pi_A+n_B\hat\pi_B}{n_A+n_B} \end{aligned} \\ \hline \end{align*}\]