Capitolo 10 Inferenza: concetti introduttivi
Inferire è un termine che trova le sue radici nella filosofia e si estende in numerosi ambiti del sapere. Nella sua essenza, inferire significa trarre una conclusione a partire da premesse date, ma il modo in cui questo processo viene attuato varia in base al contesto. Sebbene l’inferenza abbia applicazioni in diversi campi, quando si parla comunemente di “inferenza”, ci si riferisce spesso all’inferenza nel contesto statistico.
In statistica, inferire si traduce nell’arte di estrarre conclusioni significative e informazioni da dati e campioni, un processo cruciale nella ricerca e nell’analisi dei dati. La Treccani definisce l’atto di inferire come:
2a Trarre, partendo da una determinata premessa o dalla constatazione di un fatto, una conseguenza, un giudizio, una conclusione.
Questa definizione si adatta perfettamente al contesto statistico, dove l’attenzione è focalizzata sull’interpretazione e sulle implicazioni dei dati raccolti.
10.1 Inferenza deduttiva, induttiva diretta e indiretta
La matematica è un processo di inferenza deduttiva: partendo da premesse accettate come vere, giunge a conclusioni logicamente inderogabili e univoche, con ogni conclusione già implicita nelle premesse.
Se disponiamo di un’urna con composizione nota, calcolare la probabilità di una certa composizione di bussolotti è un processo di inferenza induttiva diretta. In questo caso, pur non potendo predire con certezza l’esito di un singolo evento, possiamo valutare le probabilità relative a vari esiti.
Con un’urna dalla composizione incognita e un insieme di dati estratti da essa, entriamo nel campo dell’inferenza induttiva inversa meglio nota come inferenza statistica. Qui, il nostro obiettivo è speculare sulla composizione totale dell’urna utilizzando le informazioni ottenute da una parte limitata di essa (il campione).
10.2 Inferenza da Popolazioni finite, infinite, da modello e distribution free
Se si conosce il numero di unità di cui è composta la popolazione ed è possibile scegliere il campione da una lista che consenta di sorteggiare il numero della lista, allora parliamo di inferenza da popolazioni finite.
Se non si conosce il numero di unità di cui è composta la popolazione, allora parliamo di inferenza da popolazioni infinite.
Se siamo interessati solo ad alcuni aspetti statistici della distribuzione della popolazione, come la sua media, la sua varianza, la mediana, ecc. allora si parla di distribution free.
Se abbiamo un’ipotesi sulla distribuzione dei dati e possiamo adottare un modello noto, a meno dei suoi parametri, allora parliamo di inferenza da modello.
Esempio 10.1 Il reddito medio annuo degli italiani ha una distribuzione incognita \(X_i\sim\mathcal{L}\), con valore atteso \(E(X_i)=\mu\) e \(V(X_i)=\sigma^2\). Estraiamo senza reinserimento \(n=100\) italiani a caso e osserviamo \[\bar x=25\text{mila €},\qquad \hat\sigma=5\text{mila €}\]
- è come estrarre \(n=100\) bussolotti da un’urna che contiene un numero noto di bussolotti ognuno numerato col reddito del singolo italiano.
- Cosa possiamo dire su \(\mu\) e \(\sigma^2\)?
- Inferenza da Popolazioni Finite: conosco il numero di individui di cui è composta la popolazione \(N\), posseggo la lista degli individui e campiono direttamente dalla lista. Sono interessato solo a \(\mu\), \(\sigma^2\) (distribution free)
Esempio 10.2 Una moneta che non sappiamo se è bilanciata, dunque \(X_i\sim\text{Ber}(\pi)\), dove \(\pi\) è incognito: la lanciamo 10 volte e otteniamo \[T,T,T,C,C,T,T,T,C,T\]
- è come aver estratto \(n=10\) bussolotti da un’urna che contiene una quantità incognita di bussolotti \(T\) e \(C\)
- Cosa possiamo dire su \(\pi\)?
- Inferenza da Popolazioni Infinite: la popolazione dei lanci è chiaramente infinita, non ha senso parlare di lista. Le ripetizioni sono chiaramente IID, il modello Bernoulli è obbligato.
Esempio 10.3 Il numero di automobili in fila alle 12 di un giorno lavorativo ad un dato semaforo è distribuito come una Poisson di parametro \(\lambda\) incognito, osserviamo le auto in fila per 10 giorni feriali alle ore 12 e otteniamo \[5,10,3,6,6,7,4,7,9,3\]
- è come aver estratto \(n=10\) bussolotti da un’urna che contiene una quantità incognita di bussolotti numerati con numeri interi
- Cosa possiamo dire su \(\lambda\)?
- Inferenza da modello su Popolazioni Infinite: la popolazione dei giorni feriali è infinita, non ha senso parlare di lista, aggiungiamo un’informazione: sappiamo che il modello è Poisson
Esempio 10.4 Il livello dell’acqua \(X\) di un fiume, il giorno \(i\), è descritto bene da una normale di \(X_i\sim N(\mu,\sigma^2)\). I parametri \(\mu\) e \(\sigma^2\) sono incogniti. Dopo \(n=30\) giorni di osservazione abbiamo osservato \[\hat\mu=122\text{cm},\qquad \hat\sigma=11.3\text{cm}\]
- Cosa possiamo dire su \[P(X_{n+1}>150)=?\]
- Inferenza da modello su Popolazioni Infinite: la popolazione delle possibili misure del livello dell’acqua è infinita, non ha senso parlare di lista, aggiungiamo un’informazione: sappiamo che il modello è Normale, siamo interessati non solo ai parametri ma all’intera distribuzione.