Inferenza Statistica e Analisi dei Dati da Simulazioni ed Esperimenti

Dopo aver esplorato come modellare sistemi (con grafi), come incorporare la casualità (con probabilità e passeggiate aleatorie) e come usare la simulazione (Monte Carlo) per studiare questi sistemi, questa parte finale si concentra su come interpretare i risultati ottenuti. Impareremo a quantificare l'incertezza delle nostre stime tramite gli intervalli di confidenza, a comprendere la relazione tra campionamento ed errore, e ad utilizzare strumenti statistici e grafici per analizzare e comunicare efficacemente i dati derivanti da esperimenti o simulazioni.

7. Intervalli di Confidenza: Quantificare l'Incertezza delle Stime

Quando usiamo dati campionari (provenienti da esperimenti reali o simulazioni) per stimare un parametro di interesse (es. la media di una popolazione, la probabilità di un evento, il valore atteso di un output di simulazione), la nostra stima sarà inevitabilmente affetta da incertezza dovuta al campionamento casuale. Gli intervalli di confidenza forniscono un modo per quantificare questa incertezza.

7.1 Stima Puntuale vs. Stima Intervallare

Stima Puntuale: È un singolo valore, calcolato dal campione, che rappresenta la nostra "migliore ipotesi" per il valore del parametro incognito della popolazione.
- Esempi: La media campionaria Xˉ=N1∑i=1NXi stima la media della popolazione μ. La proporzione campionaria p^=Nsuccessi/N stima la proporzione della popolazione p.
- Limite: Non fornisce alcuna informazione sulla precisione o affidabilità della stima. Quanto è probabile che Xˉ sia vicino a μ?
Stima Intervallare (Intervallo di Confidenza - IC): Fornisce un intervallo di valori [L,U], calcolato dal campione, che si ritiene contenga il vero valore del parametro con un certo livello di "fiducia".
- Idea: Riconosce che la stima puntuale è soggetta a errore campionario e fornisce un margine di errore attorno ad essa.

7.2 Definizione e Interpretazione di un Intervallo di Confidenza

Definizione Formale: Un Intervallo di Confidenza (IC) al livello (1−α) per un parametro θ è un intervallo [L,U] dove L e U sono statistiche calcolate dal campione (quindi sono variabili aleatorie), tali che: P(L≤θ≤U)=1−α
Livello di Confidenza (1−α): È la probabilità, interpretata in senso frequentista, che il metodo utilizzato per costruire l'intervallo produca un intervallo che cattura il vero valore del parametro θ. Valori comuni sono 90% (α=0.10), 95% (α=0.05), 99% (α=0.01).
Interpretazione Corretta: Se calcoliamo un IC al 95% per μ e otteniamo [10,14], l'interpretazione corretta è: "Siamo confidenti al 95% che questa procedura di calcolo produca intervalli che contengono la vera media μ. L'intervallo specifico [10,14] potrebbe contenere μ oppure no, ma se ripetessimo l'esperimento molte volte, circa il 95% degli intervalli così calcolati conterrebbe μ."
Interpretazione Errata: Non si può dire "C'è una probabilità del 95% che la vera media μ sia compresa tra 10 e 14". Questo perché, una volta calcolato l'intervallo [10,14], sia μ (parametro fisso) sia l'intervallo sono fissati: μ o è dentro o è fuori, la probabilità è 0 o 1. La probabilità (1−α) si riferisce alla affidabilità del metodo prima di effettuare il campionamento.

7.3 Costruzione di un IC per la Media μ (Caso Comune)

La costruzione dell'IC dipende dalle assunzioni sulla distribuzione della popolazione e se la sua varianza σ2 è nota.

Assunzione Chiave: I dati X1,…,XN sono un campione casuale da una popolazione con media μ e varianza σ2.
Caso 1: Popolazione Normale o N Grande (TLC), σ2 Nota (Raro):
- La media campionaria Xˉ ha distribuzione N(μ,σ2/N).
- La variabile standardizzata Z=σ/NXˉ−μ∼N(0,1).
  
  [](data:image/svg+xml;utf8,<svg xmlns="http://www.w3.org/2000/svg" width="400em" height="1.08em" viewBox="0 0 400000 1080" preserveAspectRatio="xMinYMin slice"><path d="M95,702%0Ac-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14%0Ac0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54%0Ac44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10%0As173,378,173,378c0.7,0,35.3,-71,104,-213c68.7,-142,137.5,-285,206.5,-429%0Ac69,-144,104.5,-217.7,106.5,-221%0Al0 -0%0Ac5.3,-9.3,12,-14,20,-14%0AH400000v40H845.2724%0As-225.272,467,-225.272,467s-235,486,-235,486c-2.7,4.7,-9,7,-19,7%0Ac-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z%0AM834 80h400000v40h-400000z"></path></svg>)
- Troviamo il valore critico zα/2 tale che l'area nelle due code della normale standard sia α. (Es. per 1−α=0.95, α=0.05, α/2=0.025, z0.025≈1.96).
- L'IC è: Xˉ±zα/2Nσ
  
  [](data:image/svg+xml;utf8,<svg xmlns="http://www.w3.org/2000/svg" width="400em" height="1.08em" viewBox="0 0 400000 1080" preserveAspectRatio="xMinYMin slice"><path d="M95,702%0Ac-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14%0Ac0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54%0Ac44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10%0As173,378,173,378c0.7,0,35.3,-71,104,-213c68.7,-142,137.5,-285,206.5,-429%0Ac69,-144,104.5,-217.7,106.5,-221%0Al0 -0%0Ac5.3,-9.3,12,-14,20,-14%0AH400000v40H845.2724%0As-225.272,467,-225.272,467s-235,486,-235,486c-2.7,4.7,-9,7,-19,7%0Ac-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z%0AM834 80h400000v40h-400000z"></path></svg>)
Caso 2: Popolazione Normale o N Grande (TLC), σ2 Ignota (Comune):
- Stimiamo σ2 con la varianza campionaria (corretta) s2=N−11∑(Xi−Xˉ)2.
- La variabile T=s/NXˉ−μ segue una distribuzione t di Student con N−1 gradi di libertà (gdl). La distribuzione t è simile alla normale standard ma ha code più "pesanti" per tenere conto dell'incertezza aggiuntiva dovuta alla stima di σ con s. Converge alla normale per N→∞.
  
  [](data:image/svg+xml;utf8,<svg xmlns="http://www.w3.org/2000/svg" width="400em" height="1.08em" viewBox="0 0 400000 1080" preserveAspectRatio="xMinYMin slice"><path d="M95,702%0Ac-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14%0Ac0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54%0Ac44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10%0As173,378,173,378c0.7,0,35.3,-71,104,-213c68.7,-142,137.5,-285,206.5,-429%0Ac69,-144,104.5,-217.7,106.5,-221%0Al0 -0%0Ac5.3,-9.3,12,-14,20,-14%0AH400000v40H845.2724%0As-225.272,467,-225.272,467s-235,486,-235,486c-2.7,4.7,-9,7,-19,7%0Ac-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z%0AM834 80h400000v40h-400000z"></path></svg>)
- Troviamo il valore critico tN−1,α/2 dalla tavola o funzione della distribuzione t.
- L'IC è: Xˉ±tN−1,α/2Ns
  
  [](data:image/svg+xml;utf8,<svg xmlns="http://www.w3.org/2000/svg" width="400em" height="1.08em" viewBox="0 0 400000 1080" preserveAspectRatio="xMinYMin slice"><path d="M95,702%0Ac-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14%0Ac0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54%0Ac44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10%0As173,378,173,378c0.7,0,35.3,-71,104,-213c68.7,-142,137.5,-285,206.5,-429%0Ac69,-144,104.5,-217.7,106.5,-221%0Al0 -0%0Ac5.3,-9.3,12,-14,20,-14%0AH400000v40H845.2724%0As-225.272,467,-225.272,467s-235,486,-235,486c-2.7,4.7,-9,7,-19,7%0Ac-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z%0AM834 80h400000v40h-400000z"></path></svg>)
Componenti dell'IC:
- Stima Puntuale: Xˉ.
- Margine di Errore (ME): ME=valore critico×Errore Standard Stimato=tN−1,α/2Ns.
  
  [](data:image/svg+xml;utf8,<svg xmlns="http://www.w3.org/2000/svg" width="400em" height="1.08em" viewBox="0 0 400000 1080" preserveAspectRatio="xMinYMin slice"><path d="M95,702%0Ac-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14%0Ac0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54%0Ac44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10%0As173,378,173,378c0.7,0,35.3,-71,104,-213c68.7,-142,137.5,-285,206.5,-429%0Ac69,-144,104.5,-217.7,106.5,-221%0Al0 -0%0Ac5.3,-9.3,12,-14,20,-14%0AH400000v40H845.2724%0As-225.272,467,-225.272,467s-235,486,-235,486c-2.7,4.7,-9,7,-19,7%0Ac-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z%0AM834 80h400000v40h-400000z"></path></svg>)
- Ampiezza dell'IC: 2×ME. Dipende da:
  - Livello di confidenza (1−α): Maggiore confidenza ⟹ valore critico più grande ⟹ IC più ampio.
  - Variabilità dei dati (s): Maggiore variabilità ⟹ IC più ampio.
  - Dimensione del campione (N): Maggiore N⟹N più grande ⟹ Errore Standard più piccolo ⟹ IC più stretto (più preciso).
    
    [](data:image/svg+xml;utf8,<svg xmlns="http://www.w3.org/2000/svg" width="400em" height="1.08em" viewBox="0 0 400000 1080" preserveAspectRatio="xMinYMin slice"><path d="M95,702%0Ac-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14%0Ac0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54%0Ac44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10%0As173,378,173,378c0.7,0,35.3,-71,104,-213c68.7,-142,137.5,-285,206.5,-429%0Ac69,-144,104.5,-217.7,106.5,-221%0Al0 -0%0Ac5.3,-9.3,12,-14,20,-14%0AH400000v40H845.2724%0As-225.272,467,-225.272,467s-235,486,-235,486c-2.7,4.7,-9,7,-19,7%0Ac-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z%0AM834 80h400000v40h-400000z"></path></svg>)

Inferenza Statistica e Analisi dei Dati da Simulazioni ed Esperimenti

7. Intervalli di Confidenza: Quantificare l'Incertezza delle Stime

7.1 Stima Puntuale vs. Stima Intervallare

7.2 Definizione e Interpretazione di un Intervallo di Confidenza

7.3 Costruzione di un IC per la Media μ (Caso Comune)

7.4 Applicazione agli Output di Simulazione Monte Carlo