Esericizi sulla Regressione
Esercizio 1
Si sono raccolti i seguenti valori per la variabile indipendente \(X\), indice delle importazioni, e la variabile dipendente \(Y\), indice della produzione industriale (dati artificiali).
\(i\) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
\(x\) | 102 | 105 | 107 | 108 | 109 | 109 | 110 | 112 | 113 | 115 | 116 | 118 | 119 | 120 | 121 | 122 |
\(y\) | 107 | 108 | 109 | 110 | 111 | 112 | 112 | 116 | 118 | 121 | 123 | 126 | 128 | 130 | 131 | 133 |
- Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\).
(Suggerimento: \(\bar{x} = 112.875~~112.875\); \(\sigma_{X} = 5.89359~~5.8936\); \(\bar{y} = 118.4375\); \(\sigma_{Y} = 8.74620\); \(\text{cov}(X,Y)= 50.74219\)). NB: ora si danno le somme, le somme dei quadrati e dei prodotti: \(\sum_{i=1}^{n} x_{i}\), \(\sum_{i=1}^{n} x_{i}^{2}\), \(\sum_{i=1}^{n} y_{i}\), \(\sum_{i=1}^{n} y_{i}^{2}\), \(\sum_{i=1}^{n} x_{i}\, y_{i}\).
\[\begin{eqnarray*} \widehat{\beta}_{1} &=& r \frac{\sigma_{Y}} {\sigma_{X}} = \frac{\text{cov}(X,Y)} {\sigma_{X}^{2}} = \frac{50.7422} {(5.8936)^{2}} = 1.4609 \\ \widehat{\beta}_{0} &=& \overline{y} - \widehat{\beta}_{1} \overline{x} = 118.4375 - 1.4609 \times 112.875 = -46.4575. \end{eqnarray*}\]
- Valutare la bontà di adattamento del modello precedente.
\[\begin{eqnarray*} r &=& \frac{\text{cov}(X,Y)} {\sigma_{X}\ \sigma_{Y}} = \frac{50.7422} {5.8936 \times 8.7462} = 0.9844\\ r^{2} &=& (0.9844)^{2} = 0.969 \end{eqnarray*}\]
L’adattamento del modello ai dati è soddisfacente.
- Rappresentare nel diagramma di dispersione la retta di regressione.
Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, che può essere \(x=100\) o \(x=120\) (i numeri “tondi” facilitano il calcolo e il disegno). Tramite l’equazione della retta di regressione si stima la coordinata corrispondente:
\[\begin{eqnarray*} \widehat{y} &=& -46.457 + 1.461 \,\times\, 100 = 99.629 \qquad \mbox{per $x=100$} \qquad OY= 99.629 \\ \widehat{y} &=& -46.457 + 1.461 \,\times\, 120 = 128.846 \qquad \mbox{per $x=120$} \qquad OY= 128.846\, . \end{eqnarray*}\]
La “piccola” scala degli assi può portare a disegnare una retta non appropriata; l’ispezione visiva aiuta, in questi casi, meglio di quella numerica a disegnare una “buona” retta di regressione.
- Fornire una interpretazione dei parametri della retta di regressione.
I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.
Quando si chiede di fornire una interpretazione dei parametri della retta di regressione, tuttavia, si intende che il candidato interpreti anche i valori numerici di \(\beta_{0}\) e \(\beta_{1}\) effettivamente calcolati in precedenza, alla luce del fenomeno descritto da \(X\) e \(Y\). In questo caso, l’indice della produzione industriale, secondo il modello stimato, è dato da \[y= -46.4575 + 1.4609 x\] ossia, è composto da un quantitativo fisso di \(-46.4575\) quando l’indice delle importazione è zero (\(X=0\)), un caso molto raro (ma impossibile nel mondo attuale), a cui si aggiungono 1.4609 per ogni unità in più dell’indice delle importazioni.
- Calcolare un indicatore che sintetizzi l’ordine di grandezza dei residui della retta di regressione.
La media quadratica dei residui della retta di regressione coincide con il RMSE e rappresenta una sintesi della dispersione dei residui intorno alla retta di regressione. Si calcola con la formula:
- Prevedere il valore dell’indice industriale per un valore dell’indice delle importazioni pari a 120, ossia \(x=120\).
Si determina il valore previsto tramite la retta di regressione:
\[\begin{eqnarray*} \widehat{Y}_{i} &=& -46.4575 + 1.4609\times 120 \\ \widehat{y}_{x=120} &=& 128.8462 \end{eqnarray*}\]
- Dal diagramma di dispersione sotto riportato, spiegare se la retta di regressione è adeguata o no a rappresentare il fenomeno.
L’ispezione visiva dei dati potrebbe suggerire anche l’esistenza di una certa NON linearità. Non vi sono punti leva; in ogni caso, la non linearità impone di modellarla prima di cercare i punti leva.
- Si consideri il diagramma dei residui sotto riportato. Tracciare la retta dei residui. Commentare la loro forma e spiegare se sono indipendenti o presentano ancora una “struttura”, un andamento peculiare.
La retta dei residui è parallela all’asse delle \(X\), ossia coincide con esso. Il grafico dei residui evidenzia ancora la supposta la NON linearità; infatti, i residui mostrano un andamento “V”, tipica indicazione di non linearità.
- Verificare al livello di significatività dell’1% (\(\alpha=0.01\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 1 contro l’alternativa che sia maggiore di 1
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.969)\times76.4961\\ &=& 2.3687\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 2.3687 = 2.7071 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{2.7071} {16\times 34.7344} = 0.0049\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0049}\\ &=& 0.0698 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 1\\ H_1:\beta_{1} > 1 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (1.4609- 1)} {0.0698} = 6.6033\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.01} = 2.6025\). \[t_{\text{obs}} = 6.6033 > t_{14;\, 0.01} = 2.6025\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 1%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 6.603 )= 0.000005915\]
- Verificare al livello di significatività di \(\alpha=0.01\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.969)\times76.4961\\ &=& 2.3687\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 2.3687 = 2.7071 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 2.7071\times\left( \frac{1} {16} + \frac{112.875^{2}} {16\times 34.7344} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{62.2294}\\ &=& 7.8886 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-46.4575- 0)} {7.8886} = -5.8892\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.01} = -2.6025\). \[t_{\text{obs}} = -5.8892 < t_{14;\, 0.01} = -2.6025\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 1%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -5.889 )= 0.00001971\]
Esercizio 2
Nella tabella seguente sono riportati i valori del seguente esperimento: numero di ore dopo l’assunzione di un dato farmaco (\(X\)) e incremento percentuale della pressione sistolica (\(Y\)).
\(x\) | 0 | 1.00 | 2.00 | 3.0 | 4.00 | 5.00 | 6.00 | 7.00 | 8.00 | 9.00 | 10 |
\(y\) | 10 | 1.42 | -0.53 | 2.6 | 4.02 | 4.49 | 5.72 | 6.54 | 8.91 | 8.74 | 0 |
- Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 5\); \(\hat\sigma_{X} = 3.1623\); \(\bar{y} = 4.7191\); \(\hat\sigma_{Y} = 3.4598\); \(\text{cov}(X,Y)= 1.5618\)).
\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{1.5618}{10} = 0.1562\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 4.7191-0.1562\times 5=3.9382 \end{eqnarray*}\]
- Valutare la bontà di adattamento del modello precedente.
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 1.562 }{ 3.162 \times 3.46 }= 0.1427 \\r^2&=& 0.02038 < 0.75 \end{eqnarray*}\] Il modello non si adatta bene ai dati.
- Rappresentare nel diagramma di dispersione la retta di regressione.
Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, che può essere \(x=0\) o \(x=10\) (i numeri “tondi” facilitano il calcolo e il disegno). Qui, però, l’asse delle \(X\) presenta l’origine, ossia, il valore \(x=0\) che ha come ordinata il valore di \(\widehat{\beta_{0}}=3.9382\) già calcolato! Diversamente, tramite l’equazione della retta di regressione si stima la coordinata corrispondente:
\[\hat y_{X= 10 }=\hat\beta_0+\hat\beta_1 x= 3.938 + 0.1562 \times 10 = 5.5 \]
- Fornire una interpretazione dei parametri della retta di regressione.
I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.
In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= 3.9382 + 0.1562 X\] ossia, è composta da un quantitativo fisso di \(3.9382\) che si ottiene immediatamente dopo l’assunzione del farmaco (\(X=0\)), che non è privo di significato, a cui si aggiunge un incremento di \(0.1562\) per ogni ora aggiuntiva.
- Prevedere il valore relativo a \(x=5\) (notando che \(\bar{x}=5\), con opportune giustificazioni, si può rispondere senza fare necessariamente i conti)
Dalle proprietà della retta di regressione si ha che: \(\widehat{y}_{x=\bar{x}}=\bar{y}=4.7191\). Ovvero: la retta di regressione passa per il punto \((\bar{x},\bar{y})\)
- Calcolare l’ordine di grandezza dell’errore di previsione.
L’ordine di grandezza dell’errore di previsione commesso è dato da RMSE che rappresenta una sintesi della dispersione dei residui intorno alla retta di regressione.
- Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 0 contro l’alternativa che sia diversa da 0
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.0204)\times11.9705\\ &=& 11.7266\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{11} {11-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{11} {11-2} \times 11.7266 = 14.3325 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{14.3325} {11\times 10} = 0.1303\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.1303}\\ &=& 0.361 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (0.1562- 0)} {0.361} = 0.4327\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(11-2);\, 0.025} = 2.2622\). \[t_{\text{obs}} = 0.4327 < t_{9;\, 0.025} = 2.2622\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 0.4327 |)= 0.6754\]
- Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia diversa da zero
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.0204)\times11.9705\\ &=& 11.7266\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{11} {11-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{11} {11-2} \times 11.7266 = 14.3325 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 14.3325\times\left( \frac{1} {11} + \frac{5^{2}} {11\times 10} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{4.5603}\\ &=& 2.1355 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (3.9382- 0)} {2.1355} = 1.8442\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(11-2);\, 0.025} = 2.2622\). \[t_{\text{obs}} = 1.8442 < t_{9;\, 0.025} = 2.2622\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 1.8442 |)= 0.09826\]
Esercizio 3
L’incasso settimanale di un negozio sia rappresentato dalla variabile (casuale) \(X\) (in migliaia di euro). L’uscita di cassa settimanale sia rappresentata dalla variabile (casuale) \(Y\) (in migliaia di euro). I dati rilevati per 4 mesi sono riportati di séguito.
\(x\) | 12 | 21 | 25 | 31 | 13 | 15 | 10 | 18 | 19 | 24 | 28 | 32 | 33 | 22 | 24 | 35 |
\(y\) | 6 | 11 | 15 | 17 | 7 | 8 | 7 | 9 | 10 | 14 | 16 | 20 | 19 | 11 | 14 | 21 |
- Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 22.625\); \(\hat\sigma_{X} = 7.5736\); \(\bar{y} = 12.8125\); \(\hat\sigma_{Y} = 4.7331\); \(\text{cov}(X,Y)= 35.2422\)).
\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{35.2422}{57.3594} = 0.6144\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 12.8125-0.6144\times 22.625=-1.0885 \end{eqnarray*}\]
- Valutare la bontà di adattamento del modello precedente.
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 35.24 }{ 7.574 \times 4.733 }= 0.9831 \\r^2&=& 0.9666 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.
- Rappresentare nel diagramma di dispersione la retta di regressione.
Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, e un solo punto “estremo” nel grafico, che può essere \(x=5\) o \(x=35\) (i numeri “tondi” facilitano il calcolo e il disegno, ma qui \(x=0\) non funziona perché la Y diventa negativa). Tramite l’equazione della retta di regressione si stima la coordinata corrispondente:
\[\hat y_{X= 35 }=\hat\beta_0+\hat\beta_1 x= -1.089 + 0.6144 \times 35 = 20.42 \]
- Fornire una interpretazione dei parametri della retta di regressione.
I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.
In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= -1.0885 + 0.6144 X\]
ossia, è composta da un quantitativo fisso di \(-1.0885\) (migliaia di euro) quando l’uscita di cassa è zero (\(X=0\)), a cui si aggiungono \(0.6144\) migliaia di euro per ogni unità (in migliaia di euro) di incasso aggiunto.
- Prevedere il valore dell’uscita per un incasso di 30 migliaia di euro, ossia \(x=30\) e fornire l’ordine di grandezza dell’errore di previsione commesso.
\[\hat y_{X= 30 }=\hat\beta_0+\hat\beta_1 x= -1.089 + 0.6144 \times 30 = 17.34 \]
\[ \hat\sigma_{\varepsilon}=\hat\sigma_Y\sqrt{1-r^2}= 4.7331\sqrt{1-0.9666}=0.8656 \]
- Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 1/2 contro l’alternativa che sia diversa da 1/2.
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9666)\times22.4023\\ &=& 0.7492\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 0.7492 = 0.8562 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{0.8562} {16\times 57.3594} = 0.0009\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0009}\\ &=& 0.0305 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0.5\\ H_1:\beta_{1} \neq 0.5 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (0.6144- 0.5)} {0.0305} = 3.7457\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.025} = 2.1448\). \[t_{\text{obs}} = 3.7457 > t_{14;\, 0.025} = 2.1448\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 3.7457 |)= 0.002172\]
- Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9666)\times22.4023\\ &=& 0.7492\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 0.7492 = 0.8562 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 0.8562\times\left( \frac{1} {16} + \frac{22.625^{2}} {16\times 57.3594} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{0.5311}\\ &=& 0.7288 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-1.0885- 0)} {0.7288} = -1.4937\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.05} = -1.7531\). \[t_{\text{obs}} = -1.4937 > t_{14;\, 0.05} = -1.7531\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -1.494 )= 0.07872\]
Esercizio 4
Si esaminano 15 aziende e si rileva, per ognuna di esse, il numero di addetti (\(X\)) e il fatturato (\(Y\) in unità convenzionali). I risultati sono riportati nella tabella seguente.
\(x\) | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 | 160 |
\(y\) | 25 | 40 | 50 | 64 | 75 | 85 | 100 | 105 | 120 | 145 | 178 | 210 | 260 | 315 | 380 |
- Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 90\); \(\hat\sigma_{X} = 43.2049\); \(\bar{y} = 143.4667\); \(\hat\sigma_{Y} = 102.1077\); \(\text{cov}(X,Y)= 4145.3333\)).
\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{4145.3333}{1866.6667} = 2.2207\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 143.4667-2.2207\times 90=-56.3976 \end{eqnarray*}\]
- Valutare la bontà di adattamento del modello precedente.
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 4145 }{ 43.2 \times 102.1 }= 0.9397 \\r^2&=& 0.8829 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.
- Rappresentare nel diagramma di dispersione la retta di regressione.
Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, e un solo punto “estremo” nel nel grafico, che può essere \(x=160\) o \(x=40\) (un numero inferiore dà un \(y\) negativo). Quest’ultimo NON conviene perché “esce” dagli assi. Tramite l’equazione della retta di regressione si stima la coordinata corrispondente:
\[\hat y_{X= 40 }=\hat\beta_0+\hat\beta_1 x= -56.4 + 2.2207 \times 40 = 32.43 \]
- Fornire una interpretazione dei parametri della retta di regressione.
I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.
In questo caso, il numero di addetti, secondo il modello stimato, è dato da \[y= -56.3976 + 2.2207 x\] ossia, è composto da un quantitativo fisso di \(-56.3976\) di fatturato quando il numero degli addetti è è zero (\(X=0\)) che corrisponde al costo di una impresa senza addetti, a cui si aggiungono 2.2207 per ogni unità di lavoro aggiuntiva.
- Prevedere il valore del fatturato per un numero di addetti pari a 75 unità, ossia per \(x=75\).
\[\hat y_{X= 75 }=\hat\beta_0+\hat\beta_1 x= -56.4 + 2.2207 \times 75 = 110.2 \]
- Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 2 contro l’alternativa che sia maggiore di 2, sapendo che
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.8829)\times10425.9822\\ &=& 1220.3813\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 1220.3813 = 1408.1322 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{1408.1322} {15\times 1866.6667} = 0.0503\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0503}\\ &=& 0.2243 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 2\\ H_1:\beta_{1} > 2 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (2.2207- 2)} {0.2243} = 0.9842\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.05} = 1.7613\). \[t_{\text{obs}} = 0.9842 < t_{13;\, 0.05} = 1.7613\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 0.984 )= 0.1715\]
- Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.8829)\times10425.9822\\ &=& 1220.3813\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 1220.3813 = 1408.1322 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 1408.1322\times\left( \frac{1} {15} + \frac{90^{2}} {15\times 1866.6667} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{501.228}\\ &=& 22.3881 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-56.3976- 0)} {22.3881} = -2.5191\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.05} = -1.7613\). \[t_{\text{obs}} = -2.5191 < t_{13;\, 0.05} = -1.7613\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -2.519 )= 0.01282\]
Esercizio 5
Nel maggio del 1973 per 15 giorni consecutivi si sono osservati i valori di concentrazione di ozono (espressa in parti per milione) a New York \(Y\) e temperatura a terra, \(X\) (espressa in gradi Fahrenheit), come espresso nella seguente tabella.
\(x\) | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 | 160 |
\(y\) | 25 | 40 | 50 | 64 | 75 | 85 | 100 | 105 | 120 | 145 | 178 | 210 | 260 | 315 | 380 |
- Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 90\); \(\hat\sigma_{X} = 43.2049\); \(\bar{y} = 143.4667\); \(\hat\sigma_{Y} = 102.1077\); \(\text{cov}(X,Y)= 4145.3333\)).
\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{4145.3333}{1866.6667} = 2.2207\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 143.4667-2.2207\times 90=-56.3976 \end{eqnarray*}\]
- Valutare la bontà di adattamento del modello precedente.
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 4145 }{ 43.2 \times 102.1 }= 0.9397 \\r^2&=& 0.8829 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.
Nota altre domande simili alle precedenti non vengono riportate
- Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.8829)\times10425.9822\\ &=& 1220.3813\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 1220.3813 = 1408.1322 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 1408.1322\times\left( \frac{1} {15} + \frac{90^{2}} {15\times 1866.6667} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{501.228}\\ &=& 22.3881 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-56.3976- 0)} {22.3881} = -2.5191\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.05} = -1.7613\). \[t_{\text{obs}} = -2.5191 < t_{13;\, 0.05} = -1.7613\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -2.519 )= 0.01282\]
Esercizio 6
Il reddito pro capite, in migliaia di euro, relativo a 16 aree amministrative rilevato nell’anno 1989, \(X\), e rilevato nell’anno 1999, \(Y\), sono riportati nella tabella seguente.
\(x\) | 47.8 | 27.9 | 36.6 | 54.2 | 41.9 | 44.4 | 54.3 | 42.3 | 41.5 | 43.2 | 56.3 | 63.3 | 46.8 | 45.2 | 38.7 | 36.3 |
\(y\) | 63.0 | 33.4 | 42.0 | 72.8 | 52.0 | 54.0 | 63.4 | 60.7 | 54.4 | 55.5 | 74.0 | 79.2 | 53.1 | 59.6 | 52.0 | 47.2 |
- Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 45.0438\); \(\hat\sigma_{X} = 8.4996\); \(\bar{y} = 57.2687\); \(\hat\sigma_{Y} = 11.4263\); \(\text{cov}(X,Y)= 92.4239\)).
\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{92.4239}{72.2437} = 1.2793\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 57.2687-1.2793\times 45.0438=-0.3573 \end{eqnarray*}\]
- Valutare la bontà di adattamento del modello precedente.
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 92.42 }{ 8.5 \times 11.43 }= 0.9517 \\r^2&=& 0.9056 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.
- Determinare il residuo (o l’errore) derivante dalla previsione, calcolata con il modello di regressione in \(x=54.3\).
\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& -0.3573 + 1.2793 \times 54.3 = 69.11 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 63.4 - 69.11 = -5.711 \end{eqnarray*}\]
Nota altre domande simili alle precedenti non vengono riportate
- Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 0 contro l’alternativa che sia maggiore di 0.
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9056)\times130.5596\\ &=& 12.3186\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 12.3186 = 14.0784 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{14.0784} {16\times 72.2437} = 0.0122\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0122}\\ &=& 0.1104 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} > 0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (1.2793- 0)} {0.1104} = 11.5922\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.05} = 1.7531\). \[t_{\text{obs}} = 11.5922 > t_{14;\, 0.05} = 1.7531\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 11.592 )= 0.000000007279\]
Esercizio 7
Si esaminano 15 aziende e si rileva, per ognuna di esse, il costo (\(X\)) e il fatturato (\(Y\)) (in unità convenzionali). I risultati sono i seguenti: \[y_{i} = -17.418 + 4.093 x_{i} + \epsilon_{i}\] con \(r=0.9845\).
- Qual è l’incremento di fatturato, che ci si può attendere con un aumento del costo di una unità? Qual è la quantità di fatturato che ci si può attendere sia ottenute da una azienda senza costi?
\[\begin{eqnarray*} r &=& \frac{\text{cov}(X,Y)} {\hat\sigma_X\cdot\hat\sigma_Y} = 0.9845 \\ \beta_{1} &=& \frac{\text{cov}(X,Y)} {\hat\sigma_X^{2}} = r \frac{\hat\sigma_Y} {\hat\sigma_X} = 4.093 \\ \beta_{0} &=& \overline{y} - \beta_{1} \cdot \overline{x} = -17.418. \end{eqnarray*}\]
- Mostrare che la deviazione standard della \(Y\) è pari a 44.803 sapendo che \(\bar{x} = 26\); \(\widehat{\sigma}_{X} = 10.7765\).
\[\begin{eqnarray*} \beta_{1} &=& r\ \frac{\widehat{\sigma}_{Y}} {\widehat{\sigma}_{X}} \qquad\Rightarrow \\ \sigma_{Y} &=& \frac{\beta_{1} \widehat{\sigma}_{X}} {r} = \frac{4.093 \times 10.7765} {0.9845} = 44.803. \end{eqnarray*}\]
- Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia diversa da zero
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9692)\times2007.3088\\ &=& 61.7443\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 61.7443 = 71.2434 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 71.2434\times\left( \frac{1} {15} + \frac{26^{2}} {15\times 116.133} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{32.3964}\\ &=& 5.6918 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-17.4188- 0)} {5.6918} = -3.0603\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.025} = -2.1604\). \[t_{\text{obs}} = -3.0603 < t_{13;\, 0.025} = -2.1604\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%
Graficamente
Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| -3.0603 |)= 0.009117\]
Esercizio 8
Sia \(X\) il voto in matematica (in decimi) e sia \(Y\) il voto in statistica (in decimi). Si sono eseguite 5 osservazioni e i risultati ottenuti sono i seguenti.
\(i\) | \(x_i\) | \(y_i\) |
---|---|---|
1 | 5 | 6 |
2 | 6 | 7 |
3 | 7 | 6 |
4 | 8 | 9 |
5 | 4 | 5 |
- Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\).
\(i\) | \(x_i\) | \(y_i\) | \(x_i^2\) | \(y_i^2\) | \(x_i\cdot y_i\) |
---|---|---|---|---|---|
1 | 5 | 6.0 | 25 | 36.0 | 30.0 |
2 | 6 | 7.0 | 36 | 49.0 | 42.0 |
3 | 7 | 6.0 | 49 | 36.0 | 42.0 |
4 | 8 | 9.0 | 64 | 81.0 | 72.0 |
5 | 4 | 5.0 | 16 | 25.0 | 20.0 |
Totale | 30 | 33.0 | 190 | 227.0 | 206.0 |
Totale/n | 6 | 6.6 | 38 | 45.4 | 41.2 |
\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{5} 30= 6\\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{5} 33= 6.6\\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{5} 190 -6^2=2\\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{5} 227 -6.6^2=1.84\\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{5} 206-6\cdot6.6=1.6\\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{1.6}{2} = 0.8\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 6.6-0.8\times 6=1.8 \end{eqnarray*}\]
- Valutare la bontà di adattamento del modello precedente.
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 1.6 }{ 1.414 \times 1.356 }= 0.8341 \\r^2&=& 0.6957 < 0.75 \end{eqnarray*}\] Il modello non si adatta bene ai dati.
- Fornire una interpretazione dei parametri della retta di regressione.
I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.
In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= 1.8 + 0.8 X\]
ossia, è composto da un quantitativo fisso di \(1.8\) di voto quando il voto di matematica è zero (\(X=0\)) che in linea generale non ha molto senso e quindi non è interpretabile chiaramente, a cui si aggiungono \(0.8\) punti per ogni unità di voto di matematica aggiuntivo.
- Determinare il residuo per un voto di matematica uguale 6, ossia per \(x=6\).
\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 1.8 + 0.8 \times 6 = 6.6 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 7 - 6.6 = 0.4 \end{eqnarray*}\]
- Verificare al livello di significatività dell’1% (\(\alpha=0.01\)) l’ipotesi che la pendenza della retta di regressione sia uguale a zero contro l’alternativa che sia maggiore di zero.
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.6957)\times1.84\\ &=& 0.56\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{5} {5-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{5} {5-2} \times 0.56 = 0.9333 \end{eqnarray*}\]
E quindi
\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{0.9333} {5\times 2} = 0.0933\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0933}\\ &=& 0.3055 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (0.8- 0)} {0.3055} = 2.6186\, . \end{eqnarray*}\]
\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(5-2);\, 0.005} = 5.8409\). \[t_{\text{obs}} = 2.6186 < t_{3;\, 0.005} = 5.8409\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 1%
Graficamente
Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 2.6186 |)= 0.0791\]