Normalizzazione e standardizzazione

Prima di addestrare un modello è essenziale portare tutte le variabili su una scala comparabile. La normalizzazione min-max trasforma i valori in un intervallo [0,1], mentre la standardizzazione Z-score li centra intorno alla media con varianza unità, migliorando la convergenza di algoritmi come SVM e regressione logistica.

Creazione di nuove feature

L’arte del feature engineering consiste nel generare variabili che catturino relazioni non lineari o interazioni complesse. Tecniche comuni includono:

  • Polynomial Features: espandere le variabili con potenze e prodotti.
  • Feature Interaction: combinare due o più variabili per evidenziare dipendenze nascoste.
  • Embedding di categorie: trasformare variabili categoriche in vettori denso tramite tecniche come target encoding o embedding neural.

Selezione automatica delle feature

Per evitare l’overfitting e ridurre il tempo di calcolo, è consigliabile filtrare le feature inutili. Strumenti utili sono:

  • Recursive Feature Elimination (RFE): elimina iterativamente le variabili meno importanti.
  • Feature Importance from Tree Models: sfrutta l’importanza assegnata dagli alberi decisionali.
  • Regularizzazione L1/Lasso: penalizza i coefficienti per forzare la sparsità del modello.