Il dataset di dimensioni \(n = 51\) è relativo ai 50 stati e al Distretto di Columbia negli Stati Uniti. Le variabili sono
(Fonte dei dati: Mind On Statistics, 3a edizione, Utts and Heckard).
\(i\) | Stato | Tasso di povertà | Tasso di natalità 15-17 |
---|---|---|---|
1 | Alabama | 20.1 | 31.5 |
2 | Alaska | 7.1 | 18.9 |
3 | Arizona | 16.1 | 35.0 |
4 | Arkansas | 14.9 | 31.6 |
5 | California | 16.7 | 22.6 |
6 | Colorado | 8.8 | 26.2 |
7 | Connecticut | 9.7 | 14.1 |
8 | Delaware | 10.3 | 24.7 |
9 | District_of_Columbia | 22.0 | 44.8 |
10 | Florida | 16.2 | 23.2 |
11 | Georgia | 12.1 | 31.4 |
12 | Hawaii | 10.3 | 17.7 |
13 | Idaho | 14.5 | 18.4 |
14 | Illinois | 12.4 | 23.4 |
15 | Indiana | 9.6 | 22.6 |
16 | Iowa | 12.2 | 16.4 |
17 | Kansas | 10.8 | 21.4 |
18 | Kentucky | 14.7 | 26.5 |
19 | Louisiana | 19.7 | 31.7 |
20 | Maine | 11.2 | 11.9 |
21 | Maryland | 10.1 | 20.0 |
22 | Massachusetts | 11.0 | 12.5 |
23 | Michigan | 12.2 | 18.0 |
24 | Minnesota | 9.2 | 14.2 |
25 | Mississippi | 23.5 | 37.6 |
26 | Missouri | 9.4 | 22.2 |
27 | Montana | 15.3 | 17.8 |
28 | Nebraska | 9.6 | 18.3 |
29 | Nevada | 11.1 | 28.0 |
30 | New_Hampshire | 5.3 | 8.1 |
31 | New_Jersey | 7.8 | 14.7 |
32 | New_Mexico | 25.3 | 37.8 |
33 | New_York | 16.5 | 15.7 |
34 | North_Carolina | 12.6 | 28.6 |
35 | North_Dakota | 12.0 | 11.7 |
36 | Ohio | 11.5 | 20.1 |
37 | Oklahoma | 17.1 | 30.1 |
38 | Oregon | 11.2 | 18.2 |
39 | Pennsylvania | 12.2 | 17.2 |
40 | Rhode_Island | 10.6 | 19.6 |
41 | South_Carolina | 19.9 | 29.2 |
42 | South_Dakota | 14.5 | 17.3 |
43 | Tennessee | 15.5 | 28.2 |
44 | Texas | 17.4 | 38.2 |
45 | Utah | 8.4 | 17.8 |
46 | Vermont | 10.3 | 10.4 |
47 | Virginia | 10.2 | 19.0 |
48 | Washington | 12.5 | 16.8 |
49 | West_Virginia | 16.7 | 21.5 |
50 | Wisconsin | 8.5 | 15.9 |
51 | Wyoming | 12.2 | 17.7 |
Tutta l’informazione sul modello di regressione lineare semplice è contenuta nelle seguenti statistiche \[\sum_{i=1}^n x_i= 669.00, ~~\sum_{i=1}^n y_i= 1~136.40, ~~\sum_{i=1}^n x_i^2= 9~690.44, ~~\sum_{i=1}^ny_i^2= 28~556.56, ~~ \sum_{i=1}^n x_i y_i= 16~163.14\] o, equivalentemente, le medie \[\frac{1}{51}\sum_{i=1}^n x_i= 13.1176, ~~\frac{1}{51}\sum_{i=1}^n y_i= 22.2824, ~~\frac{1}{51}\sum_{i=1}^n x_i^2= 190.0086, ~~\frac{1}{51}\sum_{i=1}^ny_i^2= 559.9325, ~~ \frac{1}{51}\sum_{i=1}^n x_i y_i= 316.9243\]
\[\begin{alignat*}{3} \bar x & = \frac 1 n \sum_{i=1}^n x_i = 13.1176 & \hat\sigma_X^2 & = \frac 1 n \sum_{i=1}^n x_i^2 - \bar x^2 = 17.936 &\\ \bar y & = \frac 1 n \sum_{i=1}^n y_i = 22.2824 & \hat\sigma_Y^2 & = \frac 1 n \sum_{i=1}^n y_i^2 - \bar y^2 = 63.4293 &\\ \text{cov}(x,y) & = \frac 1 n \sum_{i=1}^n x_iy_i -\bar x\bar y = 24.6323 & r & = \frac{\text{cov}(x,y)}{\hat\sigma_X \hat\sigma_Y } = 0.7303 &\\ \hat\beta_1 & = \frac{\text{cov}(x,y)}{\hat\sigma_X^2} = 1.3733 & \hat\beta_0 & = \bar y - \hat\beta_1\bar x = 4.2673. &\\ \hat\sigma_\varepsilon^2 & = \hat\sigma_Y^2(1-r^2)=29.6007 & S_\varepsilon^2 & = \frac{n}{n-2}\hat\sigma_\varepsilon^2 = 30.8089\\ \hat\sigma_\varepsilon & = \hat\sigma_Y\sqrt{(1-r^2)}=5.4407 & \qquad S_\varepsilon & = \sqrt{\frac{n}{n-2}}\hat\sigma_\varepsilon = 5.5506\\ \end{alignat*}\]
Valutare la bontà di adattamento del modello precedente.
Soluzione
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 24.63 }{ 4.235 \times 7.964 }= 0.7303 \\r^2&=& 0.5333 < 0.75 \end{eqnarray*}\] Il modello non si adatta bene ai dati.
Fornire una interpretazione dei parametri della retta di regressione.
Soluzione
I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.
In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= 4.2673 + 1.3733 X\]
ossia, è composto da un quantitativo fisso di \(4.2673\) di tasso di natalità delle minorenni in un ipotetico stato a povertà zero (\(x=0\)), a cui si aggiunge un incremento di \(1.3733\) per ogni incremento unitario del tasso di povertà .
Determinare il residuo per lo stato del Colorado \(i=6\) uguale 6, ossia per \(x=6\).
\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 4.267 + 1.3733 \times 8.8 = 16.35 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 26.2 - 16.35 = 9.847 \end{eqnarray*}\]
Verificare al livello di significatività dell’1% (\(\alpha=0.05\)) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia diversa da zero.
Soluzione
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.5333)\times63.4293\\ &=& 29.6007\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{51} {51-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{51} {51-2} \times 29.6007 = 30.8089 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 30.8089\times\left( \frac{1} {51} + \frac{13.1176^{2}} {51\times 17.936} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{6.3996}\\ &=& 2.5297 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (4.2673- 0)} {2.5297} = 1.6868\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(51-2);\, 0.025} = 2.0096\). \[t_{\text{obs}} = 1.6868 < t_{49;\, 0.025} = 2.0096\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 1.6868 |)= 0.09799\]
Verificare al livello di significatività del 5% (\(\alpha=0.01\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 0 contro l’alternativa che sia diversa da 0.
Soluzione
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.5333)\times63.4293\\ &=& 29.6007\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{51} {51-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{51} {51-2} \times 29.6007 = 30.8089 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{30.8089} {51\times 17.936} = 0.0337\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0337}\\ &=& 0.1835 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} > 0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (1.3733- 0)} {0.1835} = 7.4832\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(51-2);\, 0.01} = 2.4033\). \[t_{\text{obs}} = 7.4832 > t_{49;\, 0.01} = 2.4033\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 1%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 7.483 )= 0.0000000005939\]
Un software professionale restituisce un output del genere
modello <- lm(formula = birth_rate ~ poverty_rate,data = data_poverty)
print(modello)
Call: lm(formula = birth_rate ~ poverty_rate, data = data_poverty)
Coefficients: (Intercept) poverty_rate
4.27 1.37
summary(modello)
Call: lm(formula = birth_rate ~ poverty_rate, data = data_poverty)
Residuals: Min 1Q Median 3Q Max -11.227 -3.655 -0.041 2.497 10.515
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.267 2.530 1.69 0.098 .
poverty_rate 1.373 0.184 7.48 0.0000000012 *** — Signif. codes: 0
‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1
Residual standard error: 5.55 on 49 degrees of freedom Multiple R-squared: 0.533, Adjusted R-squared: 0.524 F-statistic: 56 on 1 and 49 DF, p-value: 0.00000000119
plot(modello)