Normalizzazione dei dati per il Machine Learning


Condividi:

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su telegram

La normalizzazione dei dati è un tema fondamentale quando si parla di machine learning.
Non è una tecnica che si usa sempre ma, se utilizzata con i giusti data set, l’accuratezza del modello aumenta esponenzialmente.

Essenzialmente, con la parola normalizzazione (o ridimensionamento) intendiamo la serie di operazioni che permettono di valutare il dataset semplificandolo e impedendo ai valori sproporzionati o fuori scala di influenzare col proprio peso il resto dei dati che ha valori “normali”.

Il problema si risolve applicando il Feature Scaling, cioè il ridimensionamento di dati o normalizzazione. Tecnicamente parlando il Feature scaling bisogna distinguere fra normalizzazione e standardizzazione, ma di solito la parola normalizzazione comprende anche la standardizzazione.


Potrebbe interessarti anche: Esplorazione del dataset del Titanic


Gli strumenti e le tecniche per la normalizzazione

  • NORMALIZZAZIONE MIN-MAX: è il metodo più semplice, i dati vengono ridimensionati e scalati su un intervallo fisso, in genere [0, 1]. Questa normalizzazione migliora l’accuratezza dell’analisi grazie alla migliore distribuzione dei dati.

    Questa è la formula per una normalizzazione min-max:

    Dove Z è il valore normalizzato, x il valore originale e min/max si riferiscono ai valori minimi e massimi del dataset.

    Va usato quando non ci sono valori anomali che sono estremamente alti o estremamente bassi, perché in quel caso ovviamente ne risente l’accuratezza.

    Per esempio, avendo 99 valori compresi fra 0 e 40 e un solo elemento di valore 100, i 99 valori rimarrebbero in
  • NORMALIZZAZIONE MEDIA: In alcune situazioni si può preferire mappare i dati su un intervallo [-1, 1] e utilizzando la media dei valori osservati, in questo caso la formula diventa:

    L’unica cosa che cambia nella formula è la sottrazione per il valore medio della sequenza al numeratore, ma questo metodo aiuta molto se vogliamo implementare altre tecniche come la fattorizzazione di matrice.
  • STANDARDIZZAZIONE Z-SCORE: ridimensiona gli attributi in modo che il valore medio sia 0 e la deviazione standard 1.

    La formula per la standardizzazione z-score è:

    Dove μ è la media dei campioni, σ è la deviazione standard dei dati di addestramento e x è il valore che si vuole standardizzare.

    Questo metodo tiene in conto anche dei valori anomali, standardizzando la varianza di questi ultimi (che altrimenti dominerebbero rispetto agli altri dati).

    Per la sua versatilità e la perdita di informazioni minima è ampiamente utilizzata per algoritmi di machine learning come SVM a la regressione logistica

L’altra faccia della moneta

Visti tutti i lati positivi della normalizzazione nella data science, è giunto il momento di parlare del perché non si applichi sempre.

L’effetto indesiderato più importante dell’uso indiscriminato di questa tecnica è la perdita di alcuni dati.

Infatti tenendo conto del fatto che i dati vengono compressi in piccoli intervalli, viene ridotta la variazione standard e viene imposto un “peso” uguale per tutte le caratteristiche, capiamo che non è una cosa da usare con leggerezza.

La normalizzazione fa perdere i valori “anomali” che sono estremamente fuori scala rispetto agli altri, questo permette di avere un modello migliore – è vero – ma allo stesso tempo sono comunque dati importanti.


Leggi anche: Cosa sono le reti neurali convoluzionali


Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su telegram
Andrew

Andrew


Iscriviti
Notificami
guest
0 Commenti
Inline Feedback
Vedi tutti i commenti
Neuragate