19 settembre 2025Italiano

Sblocca la potenza di Pandas GroupBy per l'analisi dei dati. Questa guida esplora le tecniche di aggregazione e trasformazione con esempi pratici per dati internazionali.

Padroneggiare le Operazioni GroupBy di Pandas: Aggregazione vs. Trasformazione

Pandas, la pietra miliare della manipolazione dei dati in Python, offre uno strumento potente per analizzare e comprendere i dati: l'operazione GroupBy. Questa funzionalità consente di segmentare i dati in gruppi basati su caratteristiche condivise e quindi applicare funzioni a questi gruppi, rivelando intuizioni che altrimenti rimarrebbero nascoste. Questo articolo approfondisce due operazioni chiave di GroupBy: aggregazione e trasformazione, fornendo esempi pratici e spiegazioni adatte ai professionisti dei dati di tutto il mondo.

Comprendere il Concetto di GroupBy

Fondamentalmente, GroupBy è un processo che coinvolge tre passaggi principali: suddividere (splitting) i dati in gruppi basati su uno o più criteri, applicare (applying) una funzione a ciascun gruppo in modo indipendente e combinare (combining) i risultati in una nuova struttura dati. Questa strategia "split-apply-combine" è un concetto fondamentale nell'analisi dei dati e fornisce un framework flessibile per esplorare dataset complessi.

La potenza di GroupBy risiede nella sua capacità di gestire vari tipi di dati e strutture, rendendolo applicabile in diversi settori. Che si tratti di analizzare dati di vendita da più regioni, letture di sensori da dispositivi diversi o attività sui social media attraverso dati demografici, GroupBy può aiutare a estrarre intuizioni significative.

Aggregazione: Riepilogare i Dati all'Interno dei Gruppi

L'aggregazione è il processo di calcolo di statistiche di riepilogo per ciascun gruppo. Queste statistiche forniscono una panoramica sintetica delle caratteristiche del gruppo, consentendo di confrontare e contrapporre diversi segmenti dei dati. Le funzioni di aggregazione comuni includono:

sum(): Calcola la somma dei valori all'interno di ciascun gruppo.
mean(): Calcola il valore medio all'interno di ciascun gruppo.
median(): Calcola il valore mediano all'interno di ciascun gruppo.
min(): Trova il valore minimo all'interno di ciascun gruppo.
max(): Trova il valore massimo all'interno di ciascun gruppo.
count(): Conta il numero di valori non nulli all'interno di ciascun gruppo.
size(): Restituisce la dimensione di ciascun gruppo (inclusi i valori nulli).
std(): Calcola la deviazione standard all'interno di ciascun gruppo.
var(): Calcola la varianza all'interno di ciascun gruppo.

Esempi Pratici di Aggregazione

Consideriamo un dataset di dati di vendita internazionali per un'ipotetica azienda di e-commerce. I dati includono informazioni sulla categoria del prodotto, il paese di vendita e l'importo delle vendite.

            
import pandas as pd

# Sample data
data = {
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Home Goods', 'Electronics', 'Clothing', 'Home Goods'],
    'Country': ['USA', 'UK', 'Canada', 'USA', 'Germany', 'UK', 'Canada', 'Germany'],
    'Sales': [100, 50, 75, 60, 80, 90, 45, 70]
}

df = pd.DataFrame(data)

print(df)

L'output sarà:


     Category  Country  Sales
0  Electronics      USA    100
1     Clothing       UK     50
2  Electronics   Canada     75
3     Clothing      USA     60
4   Home Goods  Germany     80
5  Electronics       UK     90
6     Clothing   Canada     45
7   Home Goods  Germany     70

Esempio 1: Calcolo delle Vendite Totali per Categoria

Per calcolare le vendite totali per ogni categoria di prodotto, possiamo usare il metodo groupby() seguito dalla funzione di aggregazione sum().

            
category_sales = df.groupby('Category')['Sales'].sum()
print(category_sales)

L'output sarà:


Category
Clothing       155
Electronics    265
Home Goods     150
Name: Sales, dtype: int64

Esempio 2: Calcolo delle Vendite Medie per Paese

Allo stesso modo, per calcolare le vendite medie per paese, possiamo usare la funzione di aggregazione mean().

            
country_sales = df.groupby('Country')['Sales'].mean()
print(country_sales)

L'output sarà:


Country
Canada     60.0
Germany    75.0
UK         70.0
USA        80.0
Name: Sales, dtype: float64

Esempio 3: Utilizzo di Funzioni di Aggregazione Multiple

Pandas consente di applicare più funzioni di aggregazione simultaneamente utilizzando il metodo agg(). Ciò fornisce un riepilogo completo delle caratteristiche del gruppo.

            
category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', 'median', 'count'])
print(category_summary)

L'output sarà:


             sum   mean  median  count
Category                               
Clothing       155  51.666667    50.0      3
Electronics    265  88.333333    90.0      3
Home Goods     150  75.000000    75.0      2

Esempio 4: Funzioni di Aggregazione Personalizzate

È anche possibile definire le proprie funzioni di aggregazione personalizzate utilizzando espressioni lambda o funzioni nominate. Ciò consente di calcolare statistiche specifiche non disponibili nelle funzioni di aggregazione standard.

            
# Custom function to calculate the range (max - min)
def custom_range(x):
    return x.max() - x.min()

category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', custom_range])
print(category_summary)

L'output sarà:


             sum   mean  custom_range
Category                              
Clothing       155  51.666667          15
Electronics    265  88.333333          25
Home Goods     150  75.000000          10

Trasformazione: Modificare i Dati all'Interno dei Gruppi

La trasformazione, d'altra parte, comporta la modifica dei dati all'interno di ciascun gruppo sulla base di un calcolo. A differenza dell'aggregazione, che restituisce un valore riepilogativo per ogni gruppo, la trasformazione restituisce un valore per ogni riga nei dati originali, ma il valore è calcolato in base al gruppo a cui appartiene quella riga. Le operazioni di trasformazione preservano l'indice e la forma originali del DataFrame.

Casi d'uso comuni per la trasformazione includono:

Standardizzazione dei dati all'interno di ogni gruppo.
Calcolo del rango o del percentile all'interno di ogni gruppo.
Compilazione dei valori mancanti basata sulle statistiche del gruppo.

Esempi Pratici di Trasformazione

Continuiamo con i nostri dati di vendita internazionali. Possiamo applicare la trasformazione per eseguire calcoli relativi ai dati di vendita all'interno di ogni paese.

Esempio 1: Standardizzazione dei Dati di Vendita all'interno di Ogni Paese (Z-score)

La standardizzazione dei dati comporta la trasformazione dei valori in modo da avere una media di 0 e una deviazione standard di 1. Questo è utile per confrontare dati su scale e distribuzioni diverse. Possiamo usare il metodo transform() insieme a un'espressione lambda per ottenere questo risultato.

            
from scipy.stats import zscore

df['Sales_Zscore'] = df.groupby('Country')['Sales'].transform(zscore)
print(df)

L'output sarà:


     Category  Country  Sales  Sales_Zscore
0  Electronics      USA    100      1.000000
1     Clothing       UK     50     -1.000000
2  Electronics   Canada     75      1.000000
3     Clothing      USA     60     -1.000000
4   Home Goods  Germany     80      1.000000
5  Electronics       UK     90      1.000000
6     Clothing   Canada     45     -1.000000
7   Home Goods  Germany     70     -1.000000

La colonna Sales_Zscore ora contiene i valori di vendita standardizzati per ogni paese. I valori superiori a 0 sono al di sopra della media delle vendite per quel paese, mentre i valori inferiori a 0 sono al di sotto della media.

Esempio 2: Calcolo del Rango di Vendita all'interno di Ogni Categoria

Per calcolare il rango di ogni vendita all'interno della sua categoria, possiamo usare il metodo rank() all'interno della funzione transform().

            
df['Sales_Rank'] = df.groupby('Category')['Sales'].transform(lambda x: x.rank(method='dense'))
print(df)

L'output sarà:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    100      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA     60     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

La colonna Sales_Rank indica il rango di ogni vendita all'interno della rispettiva categoria. L'argomento `method='dense'` assicura che i ranghi consecutivi vengano assegnati senza interruzioni.

Esempio 3: Compilazione dei Valori Mancanti Basata sulla Media del Gruppo

Introduciamo alcuni valori mancanti nei dati di vendita e poi li compiliamo basandoci sulla media delle vendite per ogni paese.

            
import numpy as np

# Introduce missing values
df.loc[[0, 3], 'Sales'] = np.nan

print(df)

# Fill missing values based on country mean
df['Sales_Filled'] = df['Sales'].fillna(df.groupby('Country')['Sales'].transform('mean'))
print(df)

Il DataFrame iniziale con valori mancanti apparirebbe così:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    NaN      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA    NaN     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

E dopo aver compilato i valori mancanti:


     Category  Country  Sales  Sales_Zscore  Sales_Rank  Sales_Filled
0  Electronics      USA    NaN      1.000000         3.0          NaN
1     Clothing       UK     50     -1.000000         2.0           50.0
2  Electronics   Canada     75      1.000000         1.0           75.0
3     Clothing      USA    NaN     -1.000000         3.0          NaN
4   Home Goods  Germany     80      1.000000         2.0           80.0
5  Electronics       UK     90      1.000000         2.0           90.0
6     Clothing   Canada     45     -1.000000         1.0           45.0
7   Home Goods  Germany     70     -1.000000         1.0           70.0

Nota Importante: Poiché non esisteva una media per `USA`, i valori risultanti in `Sales_Filled` sono `NaN`. La gestione di casi limite come questo è cruciale per un'analisi dei dati affidabile e dovrebbe essere considerata durante l'implementazione.

Aggregazione vs. Trasformazione: Differenze Chiave

Sebbene sia l'aggregazione che la trasformazione siano potenti operazioni di GroupBy, servono a scopi diversi e hanno caratteristiche distinte:

Forma dell'Output: L'aggregazione riduce la dimensione dei dati, restituendo un singolo valore per ogni gruppo. La trasformazione preserva la dimensione originale dei dati, restituendo un valore trasformato per ogni riga.
Scopo: L'aggregazione è usata per riepilogare i dati e ottenere intuizioni sulle caratteristiche dei gruppi. La trasformazione è usata per modificare i dati all'interno dei gruppi, spesso per la standardizzazione o la normalizzazione.
Valore Restituito: L'aggregazione restituisce un nuovo DataFrame o una Series con i valori aggregati. La trasformazione restituisce una Series con i valori trasformati, che può essere poi aggiunta come nuova colonna al DataFrame originale.

La scelta tra aggregazione e trasformazione dipende dai tuoi specifici obiettivi analitici. Se hai bisogno di riepilogare i dati e confrontare i gruppi, l'aggregazione è la scelta appropriata. Se hai bisogno di modificare i dati all'interno dei gruppi preservando la struttura dati originale, la trasformazione è l'opzione migliore.

Tecniche Avanzate di GroupBy

Oltre all'aggregazione e alla trasformazione di base, GroupBy di Pandas offre una gamma di tecniche avanzate per un'analisi dei dati più sofisticata.

Applicare Funzioni Personalizzate con `apply()`

Il metodo apply() offre la massima flessibilità, consentendo di applicare qualsiasi funzione personalizzata a ciascun gruppo. Questa funzione può eseguire qualsiasi operazione, inclusa l'aggregazione, la trasformazione o calcoli ancora più complessi.

            
def custom_function(group):
    # Calculate the sum of sales for each category in a group, only if there is more than one row in the group
    if len(group) > 1:
        group['Sales_Sum'] = group['Sales'].sum()
    else:
        group['Sales_Sum'] = 0  # Or some other default value
    return group

df_applied = df.groupby('Country').apply(custom_function)
print(df_applied)

In questo esempio, definiamo una funzione personalizzata che calcola la somma delle vendite all'interno di ogni gruppo (paese). Il metodo apply() applica questa funzione a ogni gruppo, risultando in una nuova colonna contenente la somma delle vendite per quel gruppo.

Nota Importante: La funzione apply può essere computazionalmente più intensiva rispetto agli altri metodi. Ottimizza il tuo codice e considera implementazioni alternative quando lavori con dataset di grandi dimensioni.

Raggruppare per Colonne Multiple

Puoi raggruppare i tuoi dati per più colonne per creare segmenti più granulari. Ciò consente di analizzare i dati basandosi sull'intersezione di più caratteristiche.

            
category_country_sales = df.groupby(['Category', 'Country'])['Sales'].sum()
print(category_country_sales)

Questo raggrupperà i dati sia per Category che per Country, permettendoti di calcolare le vendite totali per ogni categoria all'interno di ogni paese. Ciò fornisce una visione più dettagliata delle performance di vendita tra diverse regioni e linee di prodotto.

Iterare attraverso i Gruppi

Per analisi più complesse, puoi iterare attraverso i gruppi usando un ciclo for. Ciò ti consente di accedere a ogni gruppo individualmente e di eseguire operazioni personalizzate su di esso.

            
for name, group in df.groupby('Category'):
    print(f"Category: {name}")
    print(group)

Questo itererà attraverso ogni categoria di prodotto e stamperà i dati corrispondenti. Può essere utile per eseguire analisi personalizzate o generare report per ogni categoria.

Migliori Pratiche per l'Uso di GroupBy

Per garantire un uso efficiente ed efficace di GroupBy, considera le seguenti migliori pratiche:

Comprendi i Tuoi Dati: Prima di applicare GroupBy, prenditi il tempo per comprendere i tuoi dati e identificare i criteri di raggruppamento e le funzioni di aggregazione/trasformazione pertinenti.
Scegli l'Operazione Giusta: Valuta attentamente se l'aggregazione o la trasformazione sia la scelta appropriata per i tuoi obiettivi analitici.
Ottimizza per le Prestazioni: Per dataset di grandi dimensioni, considera di ottimizzare il tuo codice utilizzando operazioni vettorializzate ed evitando cicli non necessari.
Gestisci i Valori Mancanti: Sii consapevole dei valori mancanti nei tuoi dati e gestiscili in modo appropriato usando metodi come fillna() o dropna().
Documenta il Tuo Codice: Documenta chiaramente il tuo codice per spiegare lo scopo di ogni operazione GroupBy e le ragioni dietro le tue scelte.

Conclusione

GroupBy di Pandas è uno strumento potente per l'analisi dei dati, che ti consente di segmentare i tuoi dati, applicare funzioni a ciascun gruppo ed estrarre preziose intuizioni. Padroneggiando le tecniche di aggregazione e trasformazione, puoi sbloccare il pieno potenziale dei tuoi dati e ottenere una comprensione più profonda dei modelli e delle tendenze sottostanti. Che tu stia analizzando dati di vendita, letture di sensori o attività sui social media, GroupBy può aiutarti a prendere decisioni basate sui dati e a raggiungere i tuoi obiettivi analitici. Abbraccia la potenza di GroupBy e porta le tue abilità di analisi dei dati al livello successivo.

Questa guida ha fornito una panoramica completa delle operazioni GroupBy di Pandas con un focus su Aggregazione vs Trasformazione. Utilizzando queste tecniche su dati internazionali, i data scientist di tutto il mondo sono in grado di estrarre intuizioni di business cruciali da diversi dataset. Fai pratica, sperimenta e adatta queste tecniche alle tue esigenze specifiche per sfruttare il pieno potenziale di Pandas.

Padroneggiare le Operazioni GroupBy di Pandas: Aggregazione vs. Trasformazione

Comprendere il Concetto di GroupBy

Aggregazione: Riepilogare i Dati all'Interno dei Gruppi

Esempi Pratici di Aggregazione

Esempio 1: Calcolo delle Vendite Totali per Categoria

Esempio 2: Calcolo delle Vendite Medie per Paese

Esempio 3: Utilizzo di Funzioni di Aggregazione Multiple

Esempio 4: Funzioni di Aggregazione Personalizzate

Trasformazione: Modificare i Dati all'Interno dei Gruppi

Esempi Pratici di Trasformazione

Esempio 1: Standardizzazione dei Dati di Vendita all'interno di Ogni Paese (Z-score)

Esempio 2: Calcolo del Rango di Vendita all'interno di Ogni Categoria

Esempio 3: Compilazione dei Valori Mancanti Basata sulla Media del Gruppo

Aggregazione vs. Trasformazione: Differenze Chiave

Tecniche Avanzate di GroupBy

Applicare Funzioni Personalizzate con apply()

Raggruppare per Colonne Multiple

Iterare attraverso i Gruppi

Migliori Pratiche per l'Uso di GroupBy

Conclusione

Applicare Funzioni Personalizzate con `apply()`