Normalizzazione e standardizzazione
Prima di addestrare un modello è essenziale portare tutte le variabili su una scala comparabile. La normalizzazione min-max trasforma i valori in un intervallo [0,1], mentre la standardizzazione Z-score li centra intorno alla media con varianza unità, migliorando la convergenza di algoritmi come SVM e regressione logistica.
Creazione di nuove feature
L’arte del feature engineering consiste nel generare variabili che catturino relazioni non lineari o interazioni complesse. Tecniche comuni includono:
- Polynomial Features: espandere le variabili con potenze e prodotti.
- Feature Interaction: combinare due o più variabili per evidenziare dipendenze nascoste.
- Embedding di categorie: trasformare variabili categoriche in vettori denso tramite tecniche come target encoding o embedding neural.
Selezione automatica delle feature
Per evitare l’overfitting e ridurre il tempo di calcolo, è consigliabile filtrare le feature inutili. Strumenti utili sono:
- Recursive Feature Elimination (RFE): elimina iterativamente le variabili meno importanti.
- Feature Importance from Tree Models: sfrutta l’importanza assegnata dagli alberi decisionali.
- Regularizzazione L1/Lasso: penalizza i coefficienti per forzare la sparsità del modello.