11 settembre 2025Italiano

Una guida completa alla creazione di trasformatori personalizzati in scikit-learn per realizzare pipeline di machine learning robuste e riutilizzabili. Impara a migliorare i tuoi flussi di lavoro di pre-elaborazione dei dati e di feature engineering.

Pipeline di Machine Learning: Sviluppo di Trasformatori Personalizzati in Scikit-learn

Le pipeline di machine learning sono essenziali per costruire modelli di machine learning robusti e manutenibili. Scikit-learn (sklearn) fornisce un potente framework per la creazione di queste pipeline. Un componente chiave di ogni buona pipeline è la capacità di eseguire trasformazioni di dati personalizzate. Questo articolo esplora lo sviluppo di trasformatori personalizzati in scikit-learn, fornendo una guida completa per data scientist e ingegneri di machine learning in tutto il mondo.

Cos'è una Pipeline di Machine Learning?

Una pipeline di machine learning è una sequenza di componenti di elaborazione dati che vengono concatenati. Questi componenti includono tipicamente:

Pulizia dei Dati: Gestione di valori mancanti, outlier e incongruenze.
Feature Engineering: Creazione di nuove feature da quelle esistenti per migliorare le prestazioni del modello.
Selezione delle Feature: Selezione delle feature più rilevanti per il modello.
Addestramento del Modello: Addestramento di un modello di machine learning sui dati preparati.
Valutazione del Modello: Valutazione delle prestazioni del modello addestrato.

L'utilizzo di una pipeline offre diversi vantaggi, tra cui:

Riproducibilità: Garantire che gli stessi passaggi di elaborazione dei dati siano applicati in modo coerente.
Modularità: Scomporre il flusso di lavoro di elaborazione dati in componenti riutilizzabili.
Manutenibilità: Rendere più facile l'aggiornamento e la manutenzione del flusso di lavoro di elaborazione dati.
Deployment Semplificato: Semplificare il processo di deployment dei modelli di machine learning.

Perché i Trasformatori Personalizzati?

Scikit-learn fornisce una vasta gamma di trasformatori integrati per le comuni attività di elaborazione dei dati. Tuttavia, in molti scenari reali, sarà necessario eseguire trasformazioni di dati personalizzate, specifiche per i tuoi dati e il tuo problema. È qui che entrano in gioco i trasformatori personalizzati. I trasformatori personalizzati ti consentono di incapsulare la tua logica di elaborazione dati personalizzata in componenti riutilizzabili che possono essere integrati senza soluzione di continuità in una pipeline di scikit-learn.

Ad esempio, immagina di lavorare con i dati dei clienti di una piattaforma di e-commerce globale. Potresti aver bisogno di creare un trasformatore personalizzato che converta le valute delle transazioni in una valuta comune (es. USD) basandosi sui tassi di cambio storici. Oppure, considera uno scenario che coinvolge dati di sensori da dispositivi IoT in diversi paesi; potresti costruire un trasformatore personalizzato per normalizzare i dati in base ai fusi orari locali e alle unità di misura.

Costruire un Trasformatore Personalizzato

Per creare un trasformatore personalizzato in scikit-learn, è necessario creare una classe che erediti da sklearn.base.BaseEstimator e sklearn.base.TransformerMixin. La tua classe deve implementare due metodi:

fit(self, X, y=None): Questo metodo apprende eventuali parametri necessari per la trasformazione. In molti casi, questo metodo restituisce semplicemente self.
transform(self, X): Questo metodo applica la trasformazione ai dati.

Ecco un esempio di base di un trasformatore personalizzato che aggiunge un valore costante a ogni feature:

            from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class AddConstantTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, constant=1):
        self.constant = constant

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X + self.constant

Analizziamo questo esempio:

Importare le librerie necessarie: BaseEstimator, TransformerMixin da sklearn.base e numpy per le operazioni numeriche.
Definire la classe: AddConstantTransformer eredita da BaseEstimator e TransformerMixin.
Costruttore (__init__): Questo metodo inizializza il trasformatore con un valore constant (con valore predefinito 1).
Metodo fit: Questo metodo restituisce semplicemente self, poiché questo trasformatore non ha bisogno di apprendere alcun parametro dai dati.
Metodo transform: Questo metodo aggiunge il valore constant a ogni elemento nei dati di input X.

Esempio di Utilizzo

            from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

X = np.array([[1, 2], [3, 4], [5, 6]])

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('add_constant', AddConstantTransformer(constant=2))
])

X_transformed = pipeline.fit_transform(X)

print(X_transformed)

Questo esempio dimostra come utilizzare AddConstantTransformer in una pipeline. Innanzitutto, i dati vengono scalati utilizzando StandardScaler, e poi la costante viene aggiunta utilizzando il nostro trasformatore personalizzato.

Sviluppo Avanzato di Trasformatori Personalizzati

Ora, esploriamo alcuni scenari e tecniche più avanzati per la costruzione di trasformatori personalizzati.

Gestione delle Feature Categoriche

Le feature categoriche sono un tipo di dati comune nel machine learning. È possibile creare trasformatori personalizzati per eseguire varie operazioni sulle feature categoriche, come la codifica one-hot, la codifica a etichette (label encoding) o il feature hashing.

Ecco un esempio di un trasformatore personalizzato che esegue la codifica one-hot su colonne specificate:

            import pandas as pd
from sklearn.preprocessing import OneHotEncoder

class CategoricalEncoder(BaseEstimator, TransformerMixin):
    def __init__(self, categorical_features=None):
        self.categorical_features = categorical_features
        self.encoder = None

    def fit(self, X, y=None):
        if self.categorical_features is None:
            self.categorical_features = X.select_dtypes(include=['object']).columns

        self.encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
        self.encoder.fit(X[self.categorical_features])
        return self

    def transform(self, X):
        X_encoded = self.encoder.transform(X[self.categorical_features])
        X_encoded = pd.DataFrame(X_encoded, index=X.index, columns=self.encoder.get_feature_names_out(self.categorical_features))
        X = X.drop(columns=self.categorical_features)
        X = pd.concat([X, X_encoded], axis=1)
        return X

In questo esempio:

Il trasformatore identifica automaticamente le colonne categoriche (se non specificate).
Utilizza OneHotEncoder da scikit-learn per eseguire la codifica.
Gestisce le categorie sconosciute utilizzando handle_unknown='ignore'.
Le feature codificate vengono concatenate di nuovo al dataframe originale.

Gestione dei Valori Mancanti

I valori mancanti sono un altro problema comune nei dataset di machine learning. È possibile creare trasformatori personalizzati per imputare i valori mancanti utilizzando varie strategie, come l'imputazione con la media, la mediana o la moda.

Ecco un esempio di un trasformatore personalizzato che imputa i valori mancanti utilizzando la mediana:

            from sklearn.impute import SimpleImputer

class MissingValueImputer(BaseEstimator, TransformerMixin):
    def __init__(self, strategy='median', missing_values=np.nan):
        self.strategy = strategy
        self.missing_values = missing_values
        self.imputer = None

    def fit(self, X, y=None):
        self.imputer = SimpleImputer(strategy=self.strategy, missing_values=self.missing_values)
        self.imputer.fit(X)
        return self

    def transform(self, X):
        return self.imputer.transform(X)

Questo trasformatore utilizza SimpleImputer da scikit-learn per eseguire l'imputazione. Consente di specificare la strategia di imputazione e il valore utilizzato per rappresentare i valori mancanti.

Scalatura e Normalizzazione delle Feature

La scalatura e la normalizzazione delle feature sono passaggi di pre-elaborazione importanti per molti algoritmi di machine learning. È possibile creare trasformatori personalizzati per implementare diverse tecniche di scalatura e normalizzazione.

Anche se scikit-learn fornisce trasformatori come StandardScaler e MinMaxScaler, potresti aver bisogno di uno scaler personalizzato per distribuzioni di dati specifiche. Ad esempio, se hai dati con una distribuzione molto asimmetrica, un PowerTransformer (anch'esso disponibile in scikit-learn) potrebbe essere più appropriato. Tuttavia, puoi incapsularlo all'interno di un trasformatore personalizzato per gestirne i parametri e integrarlo senza problemi nella tua pipeline.

            from sklearn.preprocessing import PowerTransformer

class SkewedDataTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, method='yeo-johnson'):
        self.method = method
        self.transformer = None

    def fit(self, X, y=None):
        self.transformer = PowerTransformer(method=self.method)
        self.transformer.fit(X)
        return self

    def transform(self, X):
        return self.transformer.transform(X)

Combinare Trasformazioni Multiple

A volte, potrebbe essere necessario applicare più trasformazioni agli stessi dati. È possibile creare un trasformatore personalizzato che combina più trasformazioni in un unico passaggio. Questo può aiutare a semplificare la tua pipeline e renderla più leggibile.

Ecco un esempio di un trasformatore personalizzato che combina la codifica one-hot e l'imputazione dei valori mancanti:

            class CombinedTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, categorical_features=None, missing_value_strategy='median'):
        self.categorical_features = categorical_features
        self.missing_value_strategy = missing_value_strategy
        self.categorical_encoder = None
        self.missing_value_imputer = None

    def fit(self, X, y=None):
        self.categorical_encoder = CategoricalEncoder(categorical_features=self.categorical_features)
        self.missing_value_imputer = MissingValueImputer(strategy=self.missing_value_strategy)
        self.categorical_encoder.fit(X)
        self.missing_value_imputer.fit(X)
        return self

    def transform(self, X):
        X = self.categorical_encoder.transform(X)
        X = self.missing_value_imputer.transform(X)
        return X

Questo trasformatore utilizza CategoricalEncoder e MissingValueImputer degli esempi precedenti per eseguire sia la codifica one-hot sia l'imputazione dei valori mancanti in un unico passaggio.

Best Practice per lo Sviluppo di Trasformatori Personalizzati

Ecco alcune best practice da seguire durante lo sviluppo di trasformatori personalizzati:

Mantienilo semplice: Ogni trasformatore dovrebbe eseguire un compito singolo e ben definito.
Rendilo riutilizzabile: Progetta i tuoi trasformatori in modo che siano il più generici possibile, così da poter essere riutilizzati in diverse pipeline.
Gestisci i casi limite: Considera come il tuo trasformatore gestirà i casi limite, come valori mancanti, outlier e tipi di dati inaspettati.
Scrivi unit test: Scrivi unit test per assicurarti che il tuo trasformatore funzioni correttamente.
Documenta il tuo codice: Documenta il tuo codice in modo chiaro affinché altri possano capire come utilizzare il tuo trasformatore.

Esempi dal Mondo Reale

Esploriamo alcuni altri esempi di trasformatori personalizzati dal mondo reale.

Feature Engineering su Date

Quando si lavora con dati di serie temporali, è spesso utile estrarre feature dalle date, come il giorno della settimana, il mese dell'anno o il trimestre dell'anno. È possibile creare un trasformatore personalizzato per eseguire questo compito.

            class DateFeatureExtractor(BaseEstimator, TransformerMixin):
    def __init__(self, date_columns=None):
        self.date_columns = date_columns

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        for col in self.date_columns:
            X[col + '_dayofweek'] = X[col].dt.dayofweek
            X[col + '_month'] = X[col].dt.month
            X[col + '_quarter'] = X[col].dt.quarter
        return X

Questo trasformatore estrae il giorno della settimana, il mese e il trimestre dalle colonne di date specificate.

Feature Engineering su Testo

Quando si lavora con dati testuali, è spesso utile eseguire la feature engineering utilizzando tecniche come TF-IDF o word embedding. È possibile creare trasformatori personalizzati per eseguire questi compiti. Ad esempio, considera le recensioni dei clienti in più lingue. Potresti aver bisogno di un trasformatore personalizzato che traduca le recensioni in inglese prima di applicare la vettorizzazione TF-IDF.

Nota: I servizi di traduzione spesso richiedono chiavi API e possono comportare costi. Questo esempio si concentra sulla struttura del trasformatore personalizzato.

            # Nota: Questo esempio richiede un servizio di traduzione (es. API di Google Translate) e una chiave API
# from googletrans import Translator # Esempio di libreria (installare con pip install googletrans==4.0.0-rc1)

class TextFeatureExtractor(BaseEstimator, TransformerMixin):
    def __init__(self, text_column, language='en'):
        self.text_column = text_column
        self.language = language
        # self.translator = Translator() # Istanzia il traduttore (richiede configurazione)

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        # Esempio: Traduci in inglese (sostituire con la logica di traduzione effettiva)
        # X[self.text_column + '_translated'] = X[self.text_column].apply(lambda text: self.translator.translate(text, dest=self.language).text)
        # Traduzione fittizia a scopo dimostrativo
        X[self.text_column + '_translated'] = X[self.text_column].apply(lambda text: "Translated: " + text)

        # Applica qui TF-IDF o altre tecniche di vettorizzazione del testo
        return X

Feature Engineering Geospaziale

Quando si lavora con dati geospaziali, è possibile creare trasformatori personalizzati per estrarre feature come la distanza dalla città più vicina, la densità di popolazione o il tipo di uso del suolo. Ad esempio, considera l'analisi dei prezzi immobiliari a livello globale. Potresti creare un trasformatore personalizzato che recupera il livello di reddito medio per una data località utilizzando API esterne basate su latitudine e longitudine.

Integrazione con Librerie Esistenti

I trasformatori personalizzati possono essere utilizzati per incapsulare funzionalità di altre librerie Python in una pipeline di scikit-learn. Ciò consente di sfruttare la potenza di altre librerie beneficiando al contempo della struttura e dell'organizzazione di una pipeline.

Ad esempio, potresti utilizzare un trasformatore personalizzato per integrare una libreria per il rilevamento di anomalie, la previsione di serie temporali o l'elaborazione di immagini nella tua pipeline di machine learning.

Conclusione

I trasformatori personalizzati sono uno strumento potente per costruire pipeline di machine learning robuste e manutenibili in scikit-learn. Incapsulando la tua logica di elaborazione dati personalizzata in componenti riutilizzabili, puoi creare pipeline più facili da capire, aggiornare e distribuire. Ricorda di seguire le best practice, scrivere unit test e documentare il tuo codice per garantire che i tuoi trasformatori personalizzati siano affidabili e manutenibili. Man mano che sviluppi le tue competenze di machine learning, padroneggiare lo sviluppo di trasformatori personalizzati diventerà prezioso per affrontare problemi complessi e diversificati del mondo reale in tutto il mondo. Dalla gestione delle conversioni di valuta per l'e-commerce internazionale all'elaborazione dei dati dei sensori da dispositivi IoT a livello globale, i trasformatori personalizzati ti danno il potere di adattare le tue pipeline alle esigenze specifiche dei tuoi dati e delle tue applicazioni.