Questo modulo copre i concetti statistici fondamentali indispensabili per comprendere, implementare e valutare efficacemente i modelli di Machine Learning. La statistica fornisce gli strumenti per esplorare i dati, quantificare l'incertezza e trarre conclusioni affidabili.
Perché la Statistica è Cruciale nel ML?
- Comprensione dei Dati (EDA): Riassumere e visualizzare i dati per scoprirne pattern, relazioni e anomalie.
- Costruzione del Modello: Molti algoritmi ML sono basati su principi statistici (es. Regressione Lineare, Naive Bayes). La statistica aiuta nella scelta delle feature e nella configurazione del modello.
- Valutazione del Modello: Utilizzare metriche statistiche e test di ipotesi per valutare le performance del modello e confrontare diverse alternative (es. A/B testing).
- Quantificazione dell'Incertezza: Stimare la confidenza nelle predizioni del modello (es. intervalli di confidenza o predizione).
4.1 – Statistica Descrittiva: Riassumere i Dati 📝
La statistica descrittiva ci aiuta a sintetizzare le caratteristiche principali di un dataset attraverso misure numeriche e visualizzazioni.
Misure di Tendenza Centrale
Indicano il "centro" o il valore tipico dei dati.
- Media (Mean): La somma di tutti i valori divisa per il numero di valori.
$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$
- Pro: Utilizza tutte le informazioni.
- Contro: Sensibile ai valori anomali (outlier).
- Mediana (Median): Il valore centrale in un set di dati ordinato (o la media dei due centrali se n è pari).
- Pro: Robusta agli outlier.
- Contro: Non considera tutti i valori.
- Moda (Mode): Il valore (o i valori) che appare più frequentemente nel dataset. Utile per dati categorici.
Misure di Dispersione (Variabilità)
Descrivono quanto i dati sono "sparpagliati" attorno al centro.
- Varianza (Variance): La media dei quadrati delle differenze tra ciascun valore e la media. Misura la dispersione media.
- Varianza della popolazione: $\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$
- Varianza campionaria (stima non distorta): $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$
- Deviazione Standard (Standard Deviation): La radice quadrata della varianza ($\sigma$ o s). Ha la stessa unità di misura dei dati originali, rendendola più interpretabile.
- Range: Differenza tra il valore massimo e minimo. Molto sensibile agli outlier.