Modulo 3: Statistica Essenziale per il Machine Learning

Questo modulo copre i concetti statistici fondamentali indispensabili per comprendere, implementare e valutare efficacemente i modelli di Machine Learning. La statistica fornisce gli strumenti per esplorare i dati, quantificare l'incertezza e trarre conclusioni affidabili.

Perché la Statistica è Cruciale nel ML?

Comprensione dei Dati (EDA): Riassumere e visualizzare i dati per scoprirne pattern, relazioni e anomalie.
Costruzione del Modello: Molti algoritmi ML sono basati su principi statistici (es. Regressione Lineare, Naive Bayes). La statistica aiuta nella scelta delle feature e nella configurazione del modello.
Valutazione del Modello: Utilizzare metriche statistiche e test di ipotesi per valutare le performance del modello e confrontare diverse alternative (es. A/B testing).
Quantificazione dell'Incertezza: Stimare la confidenza nelle predizioni del modello (es. intervalli di confidenza o predizione).

4.1 – Statistica Descrittiva: Riassumere i Dati 📝

La statistica descrittiva ci aiuta a sintetizzare le caratteristiche principali di un dataset attraverso misure numeriche e visualizzazioni.

Misure di Tendenza Centrale

Indicano il "centro" o il valore tipico dei dati.

Media (Mean): La somma di tutti i valori divisa per il numero di valori. $\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$
- Pro: Utilizza tutte le informazioni.
- Contro: Sensibile ai valori anomali (outlier).
Mediana (Median): Il valore centrale in un set di dati ordinato (o la media dei due centrali se n è pari).
- Pro: Robusta agli outlier.
- Contro: Non considera tutti i valori.
Moda (Mode): Il valore (o i valori) che appare più frequentemente nel dataset. Utile per dati categorici.

Misure di Dispersione (Variabilità)

Descrivono quanto i dati sono "sparpagliati" attorno al centro.

Varianza (Variance): La media dei quadrati delle differenze tra ciascun valore e la media. Misura la dispersione media.
- Varianza della popolazione: $\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$
- Varianza campionaria (stima non distorta): $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$
Deviazione Standard (Standard Deviation): La radice quadrata della varianza ($\sigma$ o s). Ha la stessa unità di misura dei dati originali, rendendola più interpretabile.
Range: Differenza tra il valore massimo e minimo. Molto sensibile agli outlier.