Esericizi sulla Regressione

Esercizio 1

Si sono raccolti i seguenti valori per la variabile indipendente \(X\), indice delle importazioni, e la variabile dipendente \(Y\), indice della produzione industriale (dati artificiali).

\(i\) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
\(x\) 102 105 107 108 109 109 110 112 113 115 116 118 119 120 121 122
\(y\) 107 108 109 110 111 112 112 116 118 121 123 126 128 130 131 133
  1. Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\).

(Suggerimento: \(\bar{x} = 112.875~~112.875\); \(\sigma_{X} = 5.89359~~5.8936\); \(\bar{y} = 118.4375\); \(\sigma_{Y} = 8.74620\); \(\text{cov}(X,Y)= 50.74219\)). NB: ora si danno le somme, le somme dei quadrati e dei prodotti: \(\sum_{i=1}^{n} x_{i}\), \(\sum_{i=1}^{n} x_{i}^{2}\), \(\sum_{i=1}^{n} y_{i}\), \(\sum_{i=1}^{n} y_{i}^{2}\), \(\sum_{i=1}^{n} x_{i}\, y_{i}\).

\[\begin{eqnarray*} \widehat{\beta}_{1} &=& r \frac{\sigma_{Y}} {\sigma_{X}} = \frac{\text{cov}(X,Y)} {\sigma_{X}^{2}} = \frac{50.7422} {(5.8936)^{2}} = 1.4609 \\ \widehat{\beta}_{0} &=& \overline{y} - \widehat{\beta}_{1} \overline{x} = 118.4375 - 1.4609 \times 112.875 = -46.4575. \end{eqnarray*}\]

  1. Valutare la bontà di adattamento del modello precedente.

\[\begin{eqnarray*} r &=& \frac{\text{cov}(X,Y)} {\sigma_{X}\ \sigma_{Y}} = \frac{50.7422} {5.8936 \times 8.7462} = 0.9844\\ r^{2} &=& (0.9844)^{2} = 0.969 \end{eqnarray*}\]

L’adattamento del modello ai dati è soddisfacente.

  1. Rappresentare nel diagramma di dispersione la retta di regressione.

Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, che può essere \(x=100\) o \(x=120\) (i numeri “tondi” facilitano il calcolo e il disegno). Tramite l’equazione della retta di regressione si stima la coordinata corrispondente:

\[\begin{eqnarray*} \widehat{y} &=& -46.457 + 1.461 \,\times\, 100 = 99.629 \qquad \mbox{per $x=100$} \qquad OY= 99.629 \\ \widehat{y} &=& -46.457 + 1.461 \,\times\, 120 = 128.846 \qquad \mbox{per $x=120$} \qquad OY= 128.846\, . \end{eqnarray*}\]

La “piccola” scala degli assi può portare a disegnare una retta non appropriata; l’ispezione visiva aiuta, in questi casi, meglio di quella numerica a disegnare una “buona” retta di regressione.

  1. Fornire una interpretazione dei parametri della retta di regressione.

I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.

Quando si chiede di fornire una interpretazione dei parametri della retta di regressione, tuttavia, si intende che il candidato interpreti anche i valori numerici di \(\beta_{0}\) e \(\beta_{1}\) effettivamente calcolati in precedenza, alla luce del fenomeno descritto da \(X\) e \(Y\). In questo caso, l’indice della produzione industriale, secondo il modello stimato, è dato da \[y= -46.4575 + 1.4609 x\] ossia, è composto da un quantitativo fisso di \(-46.4575\) quando l’indice delle importazione è zero (\(X=0\)), un caso molto raro (ma impossibile nel mondo attuale), a cui si aggiungono 1.4609 per ogni unità in più dell’indice delle importazioni.

  1. Calcolare un indicatore che sintetizzi l’ordine di grandezza dei residui della retta di regressione.

La media quadratica dei residui della retta di regressione coincide con il RMSE e rappresenta una sintesi della dispersione dei residui intorno alla retta di regressione. Si calcola con la formula:

  1. Prevedere il valore dell’indice industriale per un valore dell’indice delle importazioni pari a 120, ossia \(x=120\).

Si determina il valore previsto tramite la retta di regressione:

\[\begin{eqnarray*} \widehat{Y}_{i} &=& -46.4575 + 1.4609\times 120 \\ \widehat{y}_{x=120} &=& 128.8462 \end{eqnarray*}\]

  1. Dal diagramma di dispersione sotto riportato, spiegare se la retta di regressione è adeguata o no a rappresentare il fenomeno.

L’ispezione visiva dei dati potrebbe suggerire anche l’esistenza di una certa NON linearità. Non vi sono punti leva; in ogni caso, la non linearità impone di modellarla prima di cercare i punti leva.

  1. Si consideri il diagramma dei residui sotto riportato. Tracciare la retta dei residui. Commentare la loro forma e spiegare se sono indipendenti o presentano ancora una “struttura”, un andamento peculiare.

La retta dei residui è parallela all’asse delle \(X\), ossia coincide con esso. Il grafico dei residui evidenzia ancora la supposta la NON linearità; infatti, i residui mostrano un andamento “V”, tipica indicazione di non linearità.

  1. Verificare al livello di significatività dell’1% (\(\alpha=0.01\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 1 contro l’alternativa che sia maggiore di 1

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.969)\times76.4961\\ &=& 2.3687\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 2.3687 = 2.7071 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{2.7071} {16\times 34.7344} = 0.0049\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0049}\\ &=& 0.0698 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 1\\ H_1:\beta_{1} > 1 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (1.4609- 1)} {0.0698} = 6.6033\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.01} = 2.6025\). \[t_{\text{obs}} = 6.6033 > t_{14;\, 0.01} = 2.6025\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 1%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 6.603 )= 0.000005915\]

  1. Verificare al livello di significatività di \(\alpha=0.01\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.969)\times76.4961\\ &=& 2.3687\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 2.3687 = 2.7071 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 2.7071\times\left( \frac{1} {16} + \frac{112.875^{2}} {16\times 34.7344} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{62.2294}\\ &=& 7.8886 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-46.4575- 0)} {7.8886} = -5.8892\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.01} = -2.6025\). \[t_{\text{obs}} = -5.8892 < t_{14;\, 0.01} = -2.6025\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 1%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -5.889 )= 0.00001971\]

Esercizio 2

Nella tabella seguente sono riportati i valori del seguente esperimento: numero di ore dopo l’assunzione di un dato farmaco (\(X\)) e incremento percentuale della pressione sistolica (\(Y\)).

\(x\) 0 1.00 2.00 3.0 4.00 5.00 6.00 7.00 8.00 9.00 10
\(y\) 10 1.42 -0.53 2.6 4.02 4.49 5.72 6.54 8.91 8.74 0
  1. Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 5\); \(\hat\sigma_{X} = 3.1623\); \(\bar{y} = 4.7191\); \(\hat\sigma_{Y} = 3.4598\); \(\text{cov}(X,Y)= 1.5618\)).

\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{1.5618}{10} = 0.1562\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 4.7191-0.1562\times 5=3.9382 \end{eqnarray*}\]

  1. Valutare la bontà di adattamento del modello precedente.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 1.562 }{ 3.162 \times 3.46 }= 0.1427 \\r^2&=& 0.02038 < 0.75 \end{eqnarray*}\] Il modello non si adatta bene ai dati.

  1. Rappresentare nel diagramma di dispersione la retta di regressione.

Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, che può essere \(x=0\) o \(x=10\) (i numeri “tondi” facilitano il calcolo e il disegno). Qui, però, l’asse delle \(X\) presenta l’origine, ossia, il valore \(x=0\) che ha come ordinata il valore di \(\widehat{\beta_{0}}=3.9382\) già calcolato! Diversamente, tramite l’equazione della retta di regressione si stima la coordinata corrispondente:

\[\hat y_{X= 10 }=\hat\beta_0+\hat\beta_1 x= 3.938 + 0.1562 \times 10 = 5.5 \]

  1. Fornire una interpretazione dei parametri della retta di regressione.

I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.

In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= 3.9382 + 0.1562 X\] ossia, è composta da un quantitativo fisso di \(3.9382\) che si ottiene immediatamente dopo l’assunzione del farmaco (\(X=0\)), che non è privo di significato, a cui si aggiunge un incremento di \(0.1562\) per ogni ora aggiuntiva.

  1. Prevedere il valore relativo a \(x=5\) (notando che \(\bar{x}=5\), con opportune giustificazioni, si può rispondere senza fare necessariamente i conti)

Dalle proprietà della retta di regressione si ha che: \(\widehat{y}_{x=\bar{x}}=\bar{y}=4.7191\). Ovvero: la retta di regressione passa per il punto \((\bar{x},\bar{y})\)

  1. Calcolare l’ordine di grandezza dell’errore di previsione.

L’ordine di grandezza dell’errore di previsione commesso è dato da RMSE che rappresenta una sintesi della dispersione dei residui intorno alla retta di regressione.

  1. Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 0 contro l’alternativa che sia diversa da 0

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.0204)\times11.9705\\ &=& 11.7266\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{11} {11-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{11} {11-2} \times 11.7266 = 14.3325 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{14.3325} {11\times 10} = 0.1303\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.1303}\\ &=& 0.361 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (0.1562- 0)} {0.361} = 0.4327\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(11-2);\, 0.025} = 2.2622\). \[t_{\text{obs}} = 0.4327 < t_{9;\, 0.025} = 2.2622\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 0.4327 |)= 0.6754\]

  1. Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia diversa da zero

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.0204)\times11.9705\\ &=& 11.7266\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{11} {11-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{11} {11-2} \times 11.7266 = 14.3325 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 14.3325\times\left( \frac{1} {11} + \frac{5^{2}} {11\times 10} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{4.5603}\\ &=& 2.1355 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (3.9382- 0)} {2.1355} = 1.8442\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(11-2);\, 0.025} = 2.2622\). \[t_{\text{obs}} = 1.8442 < t_{9;\, 0.025} = 2.2622\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 1.8442 |)= 0.09826\]

Esercizio 3

L’incasso settimanale di un negozio sia rappresentato dalla variabile (casuale) \(X\) (in migliaia di euro). L’uscita di cassa settimanale sia rappresentata dalla variabile (casuale) \(Y\) (in migliaia di euro). I dati rilevati per 4 mesi sono riportati di séguito.

\(x\) 12 21 25 31 13 15 10 18 19 24 28 32 33 22 24 35
\(y\) 6 11 15 17 7 8 7 9 10 14 16 20 19 11 14 21
  1. Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 22.625\); \(\hat\sigma_{X} = 7.5736\); \(\bar{y} = 12.8125\); \(\hat\sigma_{Y} = 4.7331\); \(\text{cov}(X,Y)= 35.2422\)).

\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{35.2422}{57.3594} = 0.6144\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 12.8125-0.6144\times 22.625=-1.0885 \end{eqnarray*}\]

  1. Valutare la bontà di adattamento del modello precedente.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 35.24 }{ 7.574 \times 4.733 }= 0.9831 \\r^2&=& 0.9666 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.

  1. Rappresentare nel diagramma di dispersione la retta di regressione.

Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, e un solo punto “estremo” nel grafico, che può essere \(x=5\) o \(x=35\) (i numeri “tondi” facilitano il calcolo e il disegno, ma qui \(x=0\) non funziona perché la Y diventa negativa). Tramite l’equazione della retta di regressione si stima la coordinata corrispondente:

\[\hat y_{X= 35 }=\hat\beta_0+\hat\beta_1 x= -1.089 + 0.6144 \times 35 = 20.42 \]

  1. Fornire una interpretazione dei parametri della retta di regressione.

I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.

In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= -1.0885 + 0.6144 X\]

ossia, è composta da un quantitativo fisso di \(-1.0885\) (migliaia di euro) quando l’uscita di cassa è zero (\(X=0\)), a cui si aggiungono \(0.6144\) migliaia di euro per ogni unità (in migliaia di euro) di incasso aggiunto.

  1. Prevedere il valore dell’uscita per un incasso di 30 migliaia di euro, ossia \(x=30\) e fornire l’ordine di grandezza dell’errore di previsione commesso.

\[\hat y_{X= 30 }=\hat\beta_0+\hat\beta_1 x= -1.089 + 0.6144 \times 30 = 17.34 \]

\[ \hat\sigma_{\varepsilon}=\hat\sigma_Y\sqrt{1-r^2}= 4.7331\sqrt{1-0.9666}=0.8656 \]

  1. Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 1/2 contro l’alternativa che sia diversa da 1/2.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9666)\times22.4023\\ &=& 0.7492\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 0.7492 = 0.8562 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{0.8562} {16\times 57.3594} = 0.0009\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0009}\\ &=& 0.0305 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0.5\\ H_1:\beta_{1} \neq 0.5 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (0.6144- 0.5)} {0.0305} = 3.7457\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.025} = 2.1448\). \[t_{\text{obs}} = 3.7457 > t_{14;\, 0.025} = 2.1448\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 3.7457 |)= 0.002172\]

  1. Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9666)\times22.4023\\ &=& 0.7492\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 0.7492 = 0.8562 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 0.8562\times\left( \frac{1} {16} + \frac{22.625^{2}} {16\times 57.3594} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{0.5311}\\ &=& 0.7288 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-1.0885- 0)} {0.7288} = -1.4937\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.05} = -1.7531\). \[t_{\text{obs}} = -1.4937 > t_{14;\, 0.05} = -1.7531\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -1.494 )= 0.07872\]

Esercizio 4

Si esaminano 15 aziende e si rileva, per ognuna di esse, il numero di addetti (\(X\)) e il fatturato (\(Y\) in unità convenzionali). I risultati sono riportati nella tabella seguente.

\(x\) 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160
\(y\) 25 40 50 64 75 85 100 105 120 145 178 210 260 315 380
  1. Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 90\); \(\hat\sigma_{X} = 43.2049\); \(\bar{y} = 143.4667\); \(\hat\sigma_{Y} = 102.1077\); \(\text{cov}(X,Y)= 4145.3333\)).

\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{4145.3333}{1866.6667} = 2.2207\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 143.4667-2.2207\times 90=-56.3976 \end{eqnarray*}\]

  1. Valutare la bontà di adattamento del modello precedente.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 4145 }{ 43.2 \times 102.1 }= 0.9397 \\r^2&=& 0.8829 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.

  1. Rappresentare nel diagramma di dispersione la retta di regressione.

Per disegnare velocemente la retta si individuano nel grafico due punti: (1)il punto medio \((\bar{x},\, \bar{y})\), che è già noto; e un solo punto “estremo” nel grafico, e un solo punto “estremo” nel nel grafico, che può essere \(x=160\) o \(x=40\) (un numero inferiore dà un \(y\) negativo). Quest’ultimo NON conviene perché “esce” dagli assi. Tramite l’equazione della retta di regressione si stima la coordinata corrispondente:

\[\hat y_{X= 40 }=\hat\beta_0+\hat\beta_1 x= -56.4 + 2.2207 \times 40 = 32.43 \]

  1. Fornire una interpretazione dei parametri della retta di regressione.

I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.

In questo caso, il numero di addetti, secondo il modello stimato, è dato da \[y= -56.3976 + 2.2207 x\] ossia, è composto da un quantitativo fisso di \(-56.3976\) di fatturato quando il numero degli addetti è è zero (\(X=0\)) che corrisponde al costo di una impresa senza addetti, a cui si aggiungono 2.2207 per ogni unità di lavoro aggiuntiva.

  1. Prevedere il valore del fatturato per un numero di addetti pari a 75 unità, ossia per \(x=75\).

\[\hat y_{X= 75 }=\hat\beta_0+\hat\beta_1 x= -56.4 + 2.2207 \times 75 = 110.2 \]

  1. Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 2 contro l’alternativa che sia maggiore di 2, sapendo che

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.8829)\times10425.9822\\ &=& 1220.3813\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 1220.3813 = 1408.1322 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{1408.1322} {15\times 1866.6667} = 0.0503\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0503}\\ &=& 0.2243 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 2\\ H_1:\beta_{1} > 2 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (2.2207- 2)} {0.2243} = 0.9842\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.05} = 1.7613\). \[t_{\text{obs}} = 0.9842 < t_{13;\, 0.05} = 1.7613\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 0.984 )= 0.1715\]

  1. Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.8829)\times10425.9822\\ &=& 1220.3813\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 1220.3813 = 1408.1322 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 1408.1322\times\left( \frac{1} {15} + \frac{90^{2}} {15\times 1866.6667} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{501.228}\\ &=& 22.3881 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-56.3976- 0)} {22.3881} = -2.5191\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.05} = -1.7613\). \[t_{\text{obs}} = -2.5191 < t_{13;\, 0.05} = -1.7613\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -2.519 )= 0.01282\]

Esercizio 5

Nel maggio del 1973 per 15 giorni consecutivi si sono osservati i valori di concentrazione di ozono (espressa in parti per milione) a New York \(Y\) e temperatura a terra, \(X\) (espressa in gradi Fahrenheit), come espresso nella seguente tabella.

\(x\) 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160
\(y\) 25 40 50 64 75 85 100 105 120 145 178 210 260 315 380
  1. Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 90\); \(\hat\sigma_{X} = 43.2049\); \(\bar{y} = 143.4667\); \(\hat\sigma_{Y} = 102.1077\); \(\text{cov}(X,Y)= 4145.3333\)).

\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{4145.3333}{1866.6667} = 2.2207\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 143.4667-2.2207\times 90=-56.3976 \end{eqnarray*}\]

  1. Valutare la bontà di adattamento del modello precedente.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 4145 }{ 43.2 \times 102.1 }= 0.9397 \\r^2&=& 0.8829 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.

Nota altre domande simili alle precedenti non vengono riportate

  1. Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia minore di zero.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.8829)\times10425.9822\\ &=& 1220.3813\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 1220.3813 = 1408.1322 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 1408.1322\times\left( \frac{1} {15} + \frac{90^{2}} {15\times 1866.6667} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{501.228}\\ &=& 22.3881 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} < 0 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-56.3976- 0)} {22.3881} = -2.5191\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.05} = -1.7613\). \[t_{\text{obs}} = -2.5191 < t_{13;\, 0.05} = -1.7613\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}<t_{\text{obs}})=P(T_{n-2}< -2.519 )= 0.01282\]

Esercizio 6

Il reddito pro capite, in migliaia di euro, relativo a 16 aree amministrative rilevato nell’anno 1989, \(X\), e rilevato nell’anno 1999, \(Y\), sono riportati nella tabella seguente.

\(x\) 47.8 27.9 36.6 54.2 41.9 44.4 54.3 42.3 41.5 43.2 56.3 63.3 46.8 45.2 38.7 36.3
\(y\) 63.0 33.4 42.0 72.8 52.0 54.0 63.4 60.7 54.4 55.5 74.0 79.2 53.1 59.6 52.0 47.2
  1. Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\). (Suggerimento \(\bar{x} = 45.0438\); \(\hat\sigma_{X} = 8.4996\); \(\bar{y} = 57.2687\); \(\hat\sigma_{Y} = 11.4263\); \(\text{cov}(X,Y)= 92.4239\)).

\[\begin{eqnarray*} \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{92.4239}{72.2437} = 1.2793\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 57.2687-1.2793\times 45.0438=-0.3573 \end{eqnarray*}\]

  1. Valutare la bontà di adattamento del modello precedente.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 92.42 }{ 8.5 \times 11.43 }= 0.9517 \\r^2&=& 0.9056 > 0.75 \end{eqnarray*}\] Il modello si adatta bene ai dati.

  1. Determinare il residuo (o l’errore) derivante dalla previsione, calcolata con il modello di regressione in \(x=54.3\).

\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& -0.3573 + 1.2793 \times 54.3 = 69.11 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 63.4 - 69.11 = -5.711 \end{eqnarray*}\]

Nota altre domande simili alle precedenti non vengono riportate

  1. Verificare al livello di significatività del 5% (\(\alpha=0.05\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 0 contro l’alternativa che sia maggiore di 0.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9056)\times130.5596\\ &=& 12.3186\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{16} {16-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{16} {16-2} \times 12.3186 = 14.0784 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{14.0784} {16\times 72.2437} = 0.0122\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0122}\\ &=& 0.1104 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} > 0 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (1.2793- 0)} {0.1104} = 11.5922\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(16-2);\, 0.05} = 1.7531\). \[t_{\text{obs}} = 11.5922 > t_{14;\, 0.05} = 1.7531\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(T_{n-2}>t_{\text{obs}})=P(T_{n-2}> 11.592 )= 0.000000007279\]

Esercizio 7

Si esaminano 15 aziende e si rileva, per ognuna di esse, il costo (\(X\)) e il fatturato (\(Y\)) (in unità convenzionali). I risultati sono i seguenti: \[y_{i} = -17.418 + 4.093 x_{i} + \epsilon_{i}\] con \(r=0.9845\).

  1. Qual è l’incremento di fatturato, che ci si può attendere con un aumento del costo di una unità? Qual è la quantità di fatturato che ci si può attendere sia ottenute da una azienda senza costi?

\[\begin{eqnarray*} r &=& \frac{\text{cov}(X,Y)} {\hat\sigma_X\cdot\hat\sigma_Y} = 0.9845 \\ \beta_{1} &=& \frac{\text{cov}(X,Y)} {\hat\sigma_X^{2}} = r \frac{\hat\sigma_Y} {\hat\sigma_X} = 4.093 \\ \beta_{0} &=& \overline{y} - \beta_{1} \cdot \overline{x} = -17.418. \end{eqnarray*}\]

  1. Mostrare che la deviazione standard della \(Y\) è pari a 44.803 sapendo che \(\bar{x} = 26\); \(\widehat{\sigma}_{X} = 10.7765\).

\[\begin{eqnarray*} \beta_{1} &=& r\ \frac{\widehat{\sigma}_{Y}} {\widehat{\sigma}_{X}} \qquad\Rightarrow \\ \sigma_{Y} &=& \frac{\beta_{1} \widehat{\sigma}_{X}} {r} = \frac{4.093 \times 10.7765} {0.9845} = 44.803. \end{eqnarray*}\]

  1. Verificare al livello di significatività di \(\alpha=0.05\) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia diversa da zero

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.9692)\times2007.3088\\ &=& 61.7443\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{15} {15-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{15} {15-2} \times 61.7443 = 71.2434 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 71.2434\times\left( \frac{1} {15} + \frac{26^{2}} {15\times 116.133} \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{32.3964}\\ &=& 5.6918 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{0} = 0\\ H_1:\beta_{0} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{0} - \beta_{0;H_0}} {\widehat{SE(\hat\beta_{0})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (-17.4188- 0)} {5.6918} = -3.0603\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(15-2);\, 0.025} = -2.1604\). \[t_{\text{obs}} = -3.0603 < t_{13;\, 0.025} = -2.1604\] CONCLUSIONE: i dati non sono coerenti con \(H_{0}\) al LdS del 5%

Graficamente

Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| -3.0603 |)= 0.009117\]

Esercizio 8

Sia \(X\) il voto in matematica (in decimi) e sia \(Y\) il voto in statistica (in decimi). Si sono eseguite 5 osservazioni e i risultati ottenuti sono i seguenti.

\(i\) \(x_i\) \(y_i\)
1 5 6
2 6 7
3 7 6
4 8 9
5 4 5
  1. Calcolare i parametri \(\beta_{0}\) e \(\beta_{1}\) della retta di regressione in cui \(Y\) è spiegata attraverso \(X\).
\(i\) \(x_i\) \(y_i\) \(x_i^2\) \(y_i^2\) \(x_i\cdot y_i\)
1 5 6.0 25 36.0 30.0
2 6 7.0 36 49.0 42.0
3 7 6.0 49 36.0 42.0
4 8 9.0 64 81.0 72.0
5 4 5.0 16 25.0 20.0
Totale 30 33.0 190 227.0 206.0
Totale/n 6 6.6 38 45.4 41.2

\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{5} 30= 6\\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{5} 33= 6.6\\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{5} 190 -6^2=2\\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{5} 227 -6.6^2=1.84\\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{5} 206-6\cdot6.6=1.6\\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{1.6}{2} = 0.8\\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 6.6-0.8\times 6=1.8 \end{eqnarray*}\]

  1. Valutare la bontà di adattamento del modello precedente.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 1.6 }{ 1.414 \times 1.356 }= 0.8341 \\r^2&=& 0.6957 < 0.75 \end{eqnarray*}\] Il modello non si adatta bene ai dati.

  1. Fornire una interpretazione dei parametri della retta di regressione.

I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.

In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= 1.8 + 0.8 X\]

ossia, è composto da un quantitativo fisso di \(1.8\) di voto quando il voto di matematica è zero (\(X=0\)) che in linea generale non ha molto senso e quindi non è interpretabile chiaramente, a cui si aggiungono \(0.8\) punti per ogni unità di voto di matematica aggiuntivo.

  1. Determinare il residuo per un voto di matematica uguale 6, ossia per \(x=6\).

\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 1.8 + 0.8 \times 6 = 6.6 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 7 - 6.6 = 0.4 \end{eqnarray*}\]

  1. Verificare al livello di significatività dell’1% (\(\alpha=0.01\)) l’ipotesi che la pendenza della retta di regressione sia uguale a zero contro l’alternativa che sia maggiore di zero.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1-0.6957)\times1.84\\ &=& 0.56\\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{5} {5-2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{5} {5-2} \times 0.56 = 0.9333 \end{eqnarray*}\]

E quindi

\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{0.9333} {5\times 2} = 0.0933\\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{0.0933}\\ &=& 0.3055 \end{eqnarray*}\]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI \[\begin{cases} H_0:\beta_{1} = 0\\ H_1:\beta_{1} \neq 0 \end{cases}\] Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \frac{\hat\beta_{1} - \beta_{1;H_0}} {\widehat{SE(\hat\beta_{1})}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ (0.8- 0)} {0.3055} = 2.6186\, . \end{eqnarray*}\]

\(\fbox{C}\) DECISIONE Dalle tavole si ha \(t_{(5-2);\, 0.005} = 5.8409\). \[t_{\text{obs}} = 2.6186 < t_{3;\, 0.005} = 5.8409\] CONCLUSIONE: i dati sono coerenti con \(H_{0}\) al LdS del 1%

Graficamente

Il \(p_{\text{value}}\) è \[P(|T_{n-2}|>|t_{\text{obs}}|)=2P(T_{n-2}>|t_{\text{obs}}|)=2P(T_{n-2}>| 2.6186 |)= 0.0791\]