19 september 2025Svenska

Lås upp kraften i Pandas GroupBy för dataanalys. Den här guiden utforskar aggregerings- och transformationstekniker med praktiska exempel för internationell data.

Bemästra Pandas GroupBy-operationer: Aggregering kontra Transformation

Pandas, hörnstenen i datamanipulation i Python, erbjuder ett kraftfullt verktyg för att analysera och förstå data: GroupBy-operationen. Den här funktionen låter dig segmentera din data i grupper baserat på gemensamma egenskaper och sedan tillämpa funktioner på dessa grupper, vilket avslöjar insikter som annars skulle förbli dolda. Den här artikeln dyker djupt ner i två nyckeloperationer för GroupBy: aggregering och transformation, och ger praktiska exempel och förklaringar som är lämpliga för dataexperter över hela världen.

Förstå GroupBy-konceptet

I grunden är GroupBy en process som involverar tre huvudsteg: splittring av data i grupper baserat på ett eller flera kriterier, tillämpning av en funktion på varje grupp oberoende, och kombinering av resultaten till en ny datastruktur. Denna "split-apply-combine"-strategi är ett grundläggande koncept inom dataanalys och ger ett flexibelt ramverk för att utforska komplexa dataset.

Kraften i GroupBy ligger i dess förmåga att hantera olika datatyper och strukturer, vilket gör den tillämplig inom olika domäner. Oavsett om du analyserar försäljningsdata från flera regioner, sensormätningar från olika enheter eller sociala medieaktiviteter över demografier, kan GroupBy hjälpa dig att extrahera meningsfulla insikter.

Aggregering: Sammanfattning av data inom grupper

Aggregering är processen att beräkna sammanfattande statistik för varje grupp. Dessa statistiker ger en koncis översikt över gruppens egenskaper, vilket gör att du kan jämföra och kontrastera olika segment av din data. Vanliga aggregeringsfunktioner inkluderar:

sum(): Beräknar summan av värden inom varje grupp.
mean(): Beräknar medelvärdet inom varje grupp.
median(): Beräknar medianvärdet inom varje grupp.
min(): Hittar minimivärdet inom varje grupp.
max(): Hittar maximivärdet inom varje grupp.
count(): Räknar antalet icke-null-värden inom varje grupp.
size(): Returnerar storleken på varje grupp (inklusive null).
std(): Beräknar standardavvikelsen inom varje grupp.
var(): Beräknar variansen inom varje grupp.

Praktiska exempel på aggregering

Låt oss överväga ett dataset med internationell försäljningsdata för ett hypotetiskt e-handelsföretag. Datan inkluderar information om produktkategorin, försäljningslandet och försäljningsbeloppet.

            
import pandas as pd

# Exempeldata
data = {
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Home Goods', 'Electronics', 'Clothing', 'Home Goods'],
    'Country': ['USA', 'UK', 'Canada', 'USA', 'Germany', 'UK', 'Canada', 'Germany'],
    'Sales': [100, 50, 75, 60, 80, 90, 45, 70]
}

df = pd.DataFrame(data)

print(df)

Detta kommer att ge utskriften:


     Category  Country  Sales
0  Electronics      USA    100
1     Clothing       UK     50
2  Electronics   Canada     75
3     Clothing      USA     60
4   Home Goods  Germany     80
5  Electronics       UK     90
6     Clothing   Canada     45
7   Home Goods  Germany     70

Exempel 1: Beräkna total försäljning per kategori

För att beräkna den totala försäljningen för varje produktkategori kan vi använda metoden groupby() följt av aggregeringsfunktionen sum().

            
category_sales = df.groupby('Category')['Sales'].sum()
print(category_sales)

Detta kommer att ge utskriften:


Category
Clothing       155
Electronics    265
Home Goods     150
Name: Sales, dtype: int64

Exempel 2: Beräkna genomsnittlig försäljning per land

På liknande sätt kan vi för att beräkna genomsnittlig försäljning per land använda aggregeringsfunktionen mean().

            
country_sales = df.groupby('Country')['Sales'].mean()
print(country_sales)

Detta kommer att ge utskriften:


Country
Canada     60.0
Germany    75.0
UK         70.0
USA        80.0
Name: Sales, dtype: float64

Exempel 3: Använda flera aggregeringsfunktioner

Pandas låter dig tillämpa flera aggregeringsfunktioner samtidigt med hjälp av metoden agg(). Detta ger en omfattande sammanfattning av gruppens egenskaper.

            
category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', 'median', 'count'])
print(category_summary)

Detta kommer att ge utskriften:


             sum   mean  median  count
Category                               
Clothing       155  51.666667    50.0      3
Electronics    265  88.333333    90.0      3
Home Goods     150  75.000000    75.0      2

Exempel 4: Anpassade aggregeringsfunktioner

Du kan också definiera dina egna anpassade aggregeringsfunktioner med hjälp av lambda-uttryck eller namngivna funktioner. Detta gör att du kan beräkna specifika statistiker som inte finns tillgängliga i standardaggregeringsfunktionerna.

            
# Anpassad funktion för att beräkna intervallet (max - min)
def custom_range(x):
    return x.max() - x.min()

category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', custom_range])
print(category_summary)

Detta kommer att ge utskriften:


             sum   mean  custom_range
Category                              
Clothing       155  51.666667          15
Electronics    265  88.333333          25
Home Goods     150  75.000000          10

Transformation: Modifiering av data inom grupper

Transformation, å andra sidan, innebär att modifiera data inom varje grupp baserat på någon beräkning. Till skillnad från aggregering, som returnerar ett sammanfattat värde för varje grupp, returnerar transformation ett värde för varje rad i den ursprungliga datan, men värdet beräknas baserat på den grupp som raden tillhör. Transformationsoperationer bevarar det ursprungliga indexet och formen på DataFrame.

Vanliga användningsfall för transformation inkluderar:

Standardisering av data inom varje grupp.
Beräkning av rang eller percentil inom varje grupp.
Fyllning av saknade värden baserat på gruppstatistik.

Praktiska exempel på transformation

Låt oss fortsätta med våra internationella försäljningsdata. Vi kan tillämpa transformation för att utföra beräkningar relaterade till försäljningssiffrorna inom varje land.

Exempel 1: Standardisering av försäljningsdata inom varje land (Z-poäng)

Standardisering av data innebär att transformera värdena så att de har ett medelvärde på 0 och en standardavvikelse på 1. Detta är användbart för att jämföra data över olika skalor och distributioner. Vi kan använda metoden transform() tillsammans med ett lambda-uttryck för att uppnå detta.

            
from scipy.stats import zscore

df['Sales_Zscore'] = df.groupby('Country')['Sales'].transform(zscore)
print(df)

Detta kommer att ge utskriften:


     Category  Country  Sales  Sales_Zscore
0  Electronics      USA    100      1.000000
1     Clothing       UK     50     -1.000000
2  Electronics   Canada     75      1.000000
3     Clothing      USA     60     -1.000000
4   Home Goods  Germany     80      1.000000
5  Electronics       UK     90      1.000000
6     Clothing   Canada     45     -1.000000
7   Home Goods  Germany     70     -1.000000

Kolumnen Sales_Zscore innehåller nu de standardiserade försäljningsvärdena för varje land. Värden över 0 är över genomsnittlig försäljning för det landet, och värden under 0 är under genomsnittet.

Exempel 2: Beräkna försäljningsrangordning inom varje kategori

För att beräkna rangordningen av varje försäljning inom dess kategori kan vi använda metoden rank() inom funktionen transform().

            
df['Sales_Rank'] = df.groupby('Category')['Sales'].transform(lambda x: x.rank(method='dense'))
print(df)

Detta kommer att ge utskriften:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    100      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA     60     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

Kolumnen Sales_Rank indikerar rangordningen av varje försäljning inom sin respektive kategori. Argumentet method='dense' säkerställer att på varandra följande rangordningar tilldelas utan luckor.

Exempel 3: Fylla saknade värden baserat på gruppmedelvärde

Låt oss införa några saknade värden i försäljningsdata och sedan fylla dem baserat på genomsnittlig försäljning för varje land.

            
import numpy as np

# Inför saknade värden
df.loc[[0, 3], 'Sales'] = np.nan

print(df)

# Fyll saknade värden baserat på landets medelvärde
df['Sales_Filled'] = df['Sales'].fillna(df.groupby('Country')['Sales'].transform('mean'))
print(df)

Den initiala DataFrame med saknade värden skulle se ut så här:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    NaN      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA    NaN     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

Och efter att ha fyllt de saknade värdena:


     Category  Country  Sales  Sales_Zscore  Sales_Rank  Sales_Filled
0  Electronics      USA    NaN      1.000000         3.0           NaN
1     Clothing       UK     50     -1.000000         2.0           50.0
2  Electronics   Canada     75      1.000000         1.0           75.0
3     Clothing      USA    NaN     -1.000000         3.0           NaN
4   Home Goods  Germany     80      1.000000         2.0           80.0
5  Electronics       UK     90      1.000000         2.0           90.0
6     Clothing   Canada     45     -1.000000         1.0           45.0
7   Home Goods  Germany     70     -1.000000         1.0           70.0

Viktig anmärkning: Eftersom det inte fanns något befintligt medelvärde för USA är de resulterande värdena i Sales_Filled NaN. Att hantera kantfall som detta är avgörande för pålitlig dataanalys och bör beaktas under implementeringen.

Aggregering kontra transformation: Nyckelskillnader

Även om både aggregering och transformation är kraftfulla GroupBy-operationer, tjänar de olika syften och har distinkta egenskaper:

Utdataform: Aggregering minskar datans storlek och returnerar ett enda värde för varje grupp. Transformation bevarar den ursprungliga datastorleken och returnerar ett transformerat värde för varje rad.
Syfte: Aggregering används för att sammanfatta data och få insikter om gruppegenskaper. Transformation används för att modifiera data inom grupper, ofta för standardisering eller normalisering.
Returvärde: Aggregering returnerar en ny DataFrame eller Series med de aggregerade värdena. Transformation returnerar en Series med de transformerade värdena, som sedan kan läggas till som en ny kolumn i den ursprungliga DataFrame.

Valet mellan aggregering och transformation beror på dina specifika analytiska mål. Om du behöver sammanfatta data och jämföra grupper är aggregering det lämpliga valet. Om du behöver modifiera data inom grupper samtidigt som du bevarar den ursprungliga datastrukturen, är transformation det bättre alternativet.

Avancerade GroupBy-tekniker

Utöver grundläggande aggregering och transformation erbjuder Pandas GroupBy en rad avancerade tekniker för mer sofistikerad dataanalys.

Tillämpa anpassade funktioner med `apply()`

Metoden apply() ger störst flexibilitet och låter dig tillämpa vilken anpassad funktion som helst på varje grupp. Den här funktionen kan utföra vilken operation som helst, inklusive aggregering, transformation eller ännu mer komplexa beräkningar.

            
def custom_function(group):
    # Beräkna summan av försäljning för varje kategori i en grupp, endast om det finns mer än en rad i gruppen
    if len(group) > 1:
        group['Sales_Sum'] = group['Sales'].sum()
    else:
        group['Sales_Sum'] = 0  # Eller något annat standardvärde
    return group

df_applied = df.groupby('Country').apply(custom_function)
print(df_applied)

I det här exemplet definierar vi en anpassad funktion som beräknar summan av försäljning inom varje grupp (land). Metoden apply() tillämpar denna funktion på varje grupp, vilket resulterar i en ny kolumn som innehåller summan av försäljning för den gruppen.

Viktig anmärkning: apply-funktionen kan vara mer beräkningsintensiv än de andra metoderna. Optimera din kod och överväg alternativa implementationer när du arbetar med massiva dataset.

Gruppering efter flera kolumner

Du kan gruppera din data efter flera kolumner för att skapa mer detaljerade segment. Detta gör att du kan analysera data baserat på skärningspunkten mellan flera egenskaper.

            
category_country_sales = df.groupby(['Category', 'Country'])['Sales'].sum()
print(category_country_sales)

Detta grupperar datan efter både Category och Country, vilket gör att du kan beräkna den totala försäljningen för varje kategori inom varje land. Detta ger en mer detaljerad bild av försäljningsprestanda över olika regioner och produktlinjer.

Iterering genom grupper

För mer komplex analys kan du iterera genom grupperna med en for-loop. Detta gör att du kan komma åt varje grupp individuellt och utföra anpassade operationer på den.

            
for name, group in df.groupby('Category'):
    print(f"Category: {name}")
    print(group)

Detta kommer att iterera genom varje produktkategori och skriva ut motsvarande data. Detta kan vara användbart för att utföra anpassad analys eller generera rapporter för varje kategori.

Bästa metoder för att använda GroupBy

För att säkerställa effektiv och resultatrik användning av GroupBy, överväg följande bästa metoder:

Förstå din data: Innan du tillämpar GroupBy, ta dig tid att förstå din data och identifiera de relevanta grupperingskriterierna och aggregerings-/transformationsfunktionerna.
Välj rätt operation: Överväg noga om aggregering eller transformation är det lämpliga valet för dina analytiska mål.
Optimera för prestanda: För stora dataset, överväg att optimera din kod genom att använda vektoriserade operationer och undvika onödiga loopar.
Hantera saknade värden: Var medveten om saknade värden i din data och hantera dem på lämpligt sätt med metoder som fillna() eller dropna().
Dokumentera din kod: Dokumentera din kod tydligt för att förklara syftet med varje GroupBy-operation och resonemanget bakom dina val.

Slutsats

Pandas GroupBy är ett kraftfullt verktyg för dataanalys, som gör att du kan segmentera din data, tillämpa funktioner på varje grupp och extrahera värdefulla insikter. Genom att bemästra aggregerings- och transformationstekniker kan du låsa upp den fulla potentialen i din data och få en djupare förståelse för de underliggande mönstren och trenderna. Oavsett om du analyserar försäljningsdata, sensormätningar eller sociala medieaktiviteter, kan GroupBy hjälpa dig att fatta datadrivna beslut och uppnå dina analytiska mål. Omfamna kraften i GroupBy och höj dina dataanalysfärdigheter till nästa nivå.

Den här guiden har gett en omfattande översikt över Pandas GroupBy-operationer med fokus på Aggregering vs Transformation. Genom att använda dessa tekniker på internationell data kan datavetare över hela världen extrahera avgörande affärsinsikter från olika dataset. Öva, experimentera och anpassa dessa tekniker efter dina specifika behov för att utnyttja Pandas fulla potential.

Bemästra Pandas GroupBy-operationer: Aggregering kontra Transformation

Förstå GroupBy-konceptet

Aggregering: Sammanfattning av data inom grupper

Praktiska exempel på aggregering

Exempel 1: Beräkna total försäljning per kategori

Exempel 2: Beräkna genomsnittlig försäljning per land

Exempel 3: Använda flera aggregeringsfunktioner

Exempel 4: Anpassade aggregeringsfunktioner

Transformation: Modifiering av data inom grupper

Praktiska exempel på transformation

Exempel 1: Standardisering av försäljningsdata inom varje land (Z-poäng)

Exempel 2: Beräkna försäljningsrangordning inom varje kategori

Exempel 3: Fylla saknade värden baserat på gruppmedelvärde

Aggregering kontra transformation: Nyckelskillnader

Avancerade GroupBy-tekniker

Tillämpa anpassade funktioner med apply()

Gruppering efter flera kolumner

Iterering genom grupper

Bästa metoder för att använda GroupBy

Slutsats

Tillämpa anpassade funktioner med `apply()`