I dati

Il dataset di dimensioni \(n = 51\) è relativo ai 50 stati e al Distretto di Columbia negli Stati Uniti. Le variabili sono

(Fonte dei dati: Mind On Statistics, 3a edizione, Utts and Heckard).

La matrice dei dati

\(i\) Stato Tasso di povertà Tasso di natalità 15-17
1 Alabama 20.1 31.5
2 Alaska 7.1 18.9
3 Arizona 16.1 35.0
4 Arkansas 14.9 31.6
5 California 16.7 22.6
6 Colorado 8.8 26.2
7 Connecticut 9.7 14.1
8 Delaware 10.3 24.7
9 District_of_Columbia 22.0 44.8
10 Florida 16.2 23.2
11 Georgia 12.1 31.4
12 Hawaii 10.3 17.7
13 Idaho 14.5 18.4
14 Illinois 12.4 23.4
15 Indiana 9.6 22.6
16 Iowa 12.2 16.4
17 Kansas 10.8 21.4
18 Kentucky 14.7 26.5
19 Louisiana 19.7 31.7
20 Maine 11.2 11.9
21 Maryland 10.1 20.0
22 Massachusetts 11.0 12.5
23 Michigan 12.2 18.0
24 Minnesota 9.2 14.2
25 Mississippi 23.5 37.6
26 Missouri 9.4 22.2
27 Montana 15.3 17.8
28 Nebraska 9.6 18.3
29 Nevada 11.1 28.0
30 New_Hampshire 5.3 8.1
31 New_Jersey 7.8 14.7
32 New_Mexico 25.3 37.8
33 New_York 16.5 15.7
34 North_Carolina 12.6 28.6
35 North_Dakota 12.0 11.7
36 Ohio 11.5 20.1
37 Oklahoma 17.1 30.1
38 Oregon 11.2 18.2
39 Pennsylvania 12.2 17.2
40 Rhode_Island 10.6 19.6
41 South_Carolina 19.9 29.2
42 South_Dakota 14.5 17.3
43 Tennessee 15.5 28.2
44 Texas 17.4 38.2
45 Utah 8.4 17.8
46 Vermont 10.3 10.4
47 Virginia 10.2 19.0
48 Washington 12.5 16.8
49 West_Virginia 16.7 21.5
50 Wisconsin 8.5 15.9
51 Wyoming 12.2 17.7

La rappresentazione dei dati

Tutta l’informazione sul modello di regressione lineare semplice è contenuta nelle seguenti statistiche \[\sum_{i=1}^n x_i= 669.00, ~~\sum_{i=1}^n y_i= 1~136.40, ~~\sum_{i=1}^n x_i^2= 9~690.44, ~~\sum_{i=1}^ny_i^2= 28~556.56, ~~ \sum_{i=1}^n x_i y_i= 16~163.14\] o, equivalentemente, le medie \[\frac{1}{51}\sum_{i=1}^n x_i= 13.1176, ~~\frac{1}{51}\sum_{i=1}^n y_i= 22.2824, ~~\frac{1}{51}\sum_{i=1}^n x_i^2= 190.0086, ~~\frac{1}{51}\sum_{i=1}^ny_i^2= 559.9325, ~~ \frac{1}{51}\sum_{i=1}^n x_i y_i= 316.9243\]

\[\begin{alignat*}{3} \bar x & = \frac 1 n \sum_{i=1}^n x_i = 13.1176 & \hat\sigma_X^2 & = \frac 1 n \sum_{i=1}^n x_i^2 - \bar x^2 = 17.936 &\\ \bar y & = \frac 1 n \sum_{i=1}^n y_i = 22.2824 & \hat\sigma_Y^2 & = \frac 1 n \sum_{i=1}^n y_i^2 - \bar y^2 = 63.4293 &\\ \text{cov}(x,y) & = \frac 1 n \sum_{i=1}^n x_iy_i -\bar x\bar y = 24.6323 & r & = \frac{\text{cov}(x,y)}{\hat\sigma_X \hat\sigma_Y } = 0.7303 &\\ \hat\beta_1 & = \frac{\text{cov}(x,y)}{\hat\sigma_X^2} = 1.3733 & \hat\beta_0 & = \bar y - \hat\beta_1\bar x = 4.2673. &\\ \hat\sigma_\varepsilon^2 & = \hat\sigma_Y^2(1-r^2)=29.6007 & S_\varepsilon^2 & = \frac{n}{n-2}\hat\sigma_\varepsilon^2 = 30.8089\\ \hat\sigma_\varepsilon & = \hat\sigma_Y\sqrt{(1-r^2)}=5.4407 & \qquad S_\varepsilon & = \sqrt{\frac{n}{n-2}}\hat\sigma_\varepsilon = 5.5506\\ \end{alignat*}\]


Valutare la bontà di adattamento del modello precedente.

Soluzione

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 24.63 }{ 4.235 \times 7.964 }= 0.7303 \\r^2&=& 0.5333 < 0.75 \end{eqnarray*}\] Il modello non si adatta bene ai dati.


Fornire una interpretazione dei parametri della retta di regressione.

Soluzione

I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.

In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= 4.2673 + 1.3733 X\]

ossia, è composto da un quantitativo fisso di \(4.2673\) di tasso di natalità delle minorenni in un ipotetico stato a povertà zero (\(x=0\)), a cui si aggiunge un incremento di \(1.3733\) per ogni incremento unitario del tasso di povertà.


Determinare il residuo per lo stato del Colorado \(i=6\) uguale 6, ossia per \(x=6\).

\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 4.267 + 1.3733 \times 8.8 = 16.35 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 26.2 - 16.35 = 9.847 \end{eqnarray*}\]


Verificare al livello di significatività dell’1% (\(\alpha=0.05\)) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia diversa da zero.

Soluzione

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.5333)\times63.4293\\ &=& 29.6007\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{51} {51-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{51} {51-2} \times 29.6007 = 30.8089 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 30.8089\times\left( \frac{1} {51} + \frac{13.1176^{2}} {51\times 17.936} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{6.3996}\\ &=& 2.5297 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (4.2673- 0)} {2.5297} = 1.6868\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(51-2);\, 0.025} = 2.0096\). \[t_{\text{obs}} = 1.6868 < t_{49;\, 0.025} = 2.0096\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 1.6868 |)= 0.09799\]


Verificare al livello di significatività del 5% (\(\alpha=0.01\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 0 contro l’alternativa che sia diversa da 0.

Soluzione

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.5333)\times63.4293\\ &=& 29.6007\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{51} {51-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{51} {51-2} \times 29.6007 = 30.8089 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{30.8089} {51\times 17.936} = 0.0337\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0337}\\ &=& 0.1835 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} > 0 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (1.3733- 0)} {0.1835} = 7.4832\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(51-2);\, 0.01} = 2.4033\). \[t_{\text{obs}} = 7.4832 > t_{49;\, 0.01} = 2.4033\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 1%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 7.483 )= 0.0000000005939\]


Un software professionale restituisce un output del genere

modello <- lm(formula = birth_rate ~ poverty_rate,data = data_poverty)
print(modello)

Call: lm(formula = birth_rate ~ poverty_rate, data = data_poverty)

Coefficients: (Intercept) poverty_rate
4.27 1.37

summary(modello)

Call: lm(formula = birth_rate ~ poverty_rate, data = data_poverty)

Residuals: Min 1Q Median 3Q Max -11.227 -3.655 -0.041 2.497 10.515

Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.267 2.530 1.69 0.098 .
poverty_rate 1.373 0.184 7.48 0.0000000012 *** — Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1

Residual standard error: 5.55 on 49 degrees of freedom Multiple R-squared: 0.533, Adjusted R-squared: 0.524 F-statistic: 56 on 1 and 49 DF, p-value: 0.00000000119

plot(modello)