2025년 9월 19일한국어

Python Pandas를 사용하여 데이터 세트의 복잡한 결측 데이터를 처리하는 방법에 대한 종합 가이드입니다. 전 세계 사용자를 위한 필수적인 대체 및 제거 기술을 배우십시오.

Mastering Python Pandas Data Cleaning: A Global Guide to Missing Value Handling

데이터 분석 및 머신 러닝 분야에서 데이터 품질은 매우 중요합니다. 가장 흔하게 발생하는 문제 중 하나는 결측값의 존재입니다. 이는 데이터 입력 오류, 센서 오작동 또는 불완전한 설문 조사 등 다양한 원인으로 발생할 수 있습니다. 결측 데이터를 효과적으로 처리하는 것은 데이터 정리 프로세스의 중요한 단계이며 분석의 견고성과 모델의 정확성을 보장합니다. 이 가이드에서는 전 세계 사용자를 위해 설계된 강력한 Python Pandas 라이브러리를 사용하여 결측값을 관리하는 데 필요한 필수 기술을 안내합니다.

Why is Handling Missing Values So Crucial?

결측 데이터는 결과를 크게 왜곡할 수 있습니다. 많은 분석 알고리즘과 통계 모델은 결측값을 처리하도록 설계되지 않아 오류나 편향된 결과가 발생할 수 있습니다. 예를 들어:

Biased Averages: 결측값이 특정 그룹에 집중되어 있는 경우 평균을 계산하면 모집단의 실제 특성이 잘못 표현될 수 있습니다.
Reduced Sample Size: 결측값이 있는 행 또는 열을 단순히 삭제하면 데이터 세트가 크게 줄어들어 잠재적으로 귀중한 정보와 통계적 검정력이 손실될 수 있습니다.
Model Performance Degradation: 불완전한 데이터로 학습된 머신 러닝 모델은 예측 성능 및 일반화 기능이 저하될 수 있습니다.
Misleading Visualizations: 결측 데이터 포인트가 고려되지 않으면 차트와 그래프가 부정확한 그림을 제시할 수 있습니다.

결측값을 이해하고 해결하는 것은 지리적 위치나 산업에 관계없이 모든 데이터 전문가에게 기본적인 기술입니다.

Identifying Missing Values in Pandas

Pandas는 결측 데이터를 감지하는 직관적인 메서드를 제공합니다. 결측값에 대한 주요 표현은 숫자 데이터의 경우 NaN (Not a Number)이고 객체 데이터 유형의 경우 None입니다. Pandas는 둘 다 결측으로 처리합니다.

The `isnull()` and `notnull()` Methods

isnull() 메서드는 동일한 모양의 부울 DataFrame을 반환하여 값이 누락된 위치에 True를 나타내고 그렇지 않은 경우 False를 나타냅니다. 반대로 notnull()은 누락되지 않은 값에 대해 True를 반환합니다.

            import pandas as pd
import numpy as np

# Sample DataFrame with missing values
data = {'col1': [1, 2, np.nan, 4, 5],
        'col2': [np.nan, 'b', 'c', 'd', 'e'],
        'col3': [6, 7, 8, np.nan, 10]}
df = pd.DataFrame(data)

print("Original DataFrame:")
print(df)

print("\nChecking for null values:")
print(df.isnull())

print("\nChecking for non-null values:")
print(df.notnull())

Counting Missing Values

열당 결측값 요약을 얻으려면 isnull()을 sum() 메서드와 연결할 수 있습니다.

            print("\nNumber of missing values per column:")
print(df.isnull().sum())

이 출력은 각 열에 존재하는 누락된 항목 수를 정확하게 보여주어 문제의 범위를 빠르게 개요를 제공합니다.

Visualizing Missing Data

더 큰 데이터 세트의 경우 결측 데이터를 시각화하는 것이 매우 통찰력이 있을 수 있습니다. missingno와 같은 라이브러리는 결측 패턴을 식별하는 데 도움이 될 수 있습니다.

            # You might need to install this library:
# pip install missingno

import missingno as msno
import matplotlib.pyplot as plt

print("\nVisualizing missing data:")
msno.matrix(df)
plt.title("Missing Data Matrix")
plt.show()

매트릭스 플롯은 데이터가 있는 각 열에 대해 조밀한 막대를 표시하고 데이터가 없는 곳에 희소 막대를 표시합니다. 이는 결측이 임의적인지 아니면 패턴을 따르는지 여부를 나타낼 수 있습니다.

Strategies for Handling Missing Values

결측 데이터를 처리하는 데는 몇 가지 일반적인 전략이 있습니다. 전략 선택은 종종 데이터의 특성, 결측값의 비율 및 분석 목표에 따라 다릅니다.

1. Deletion Strategies

삭제는 결측값이 있는 데이터 포인트를 제거하는 것을 포함합니다. 겉보기에는 간단하지만 그 의미를 이해하는 것이 중요합니다.

a. Row Deletion (Listwise Deletion)

이것은 가장 간단한 접근 방식입니다. 하나 이상의 결측값이 있는 전체 행을 제거합니다.

            print("\nDataFrame after dropping rows with any missing values:")
df_dropped_rows = df.dropna()
print(df_dropped_rows)

Pros: 구현이 간단하고 결측값을 처리할 수 없는 알고리즘에 적합한 깨끗한 데이터 세트를 만듭니다.

Cons: 데이터 세트 크기가 크게 줄어들어 잠재적으로 귀중한 정보가 손실되고 결측이 완전히 임의적이지 않은 경우 편향이 발생할 수 있습니다 (MCAR - Missing Completely At Random).

b. Column Deletion

특정 열에 결측값의 비율이 매우 높고 분석에 중요하지 않은 경우 전체 열을 삭제하는 것을 고려할 수 있습니다.

            # Example: Drop 'col1' if it had too many missing values (hypothetically)
# For demonstration, let's create a scenario with more missing data in col1
data_high_missing = {'col1': [1, np.nan, np.nan, np.nan, 5],
                   'col2': [np.nan, 'b', 'c', 'd', 'e'],
                   'col3': [6, 7, 8, np.nan, 10]}
df_high_missing = pd.DataFrame(data_high_missing)

print("\nDataFrame with potentially high missingness in col1:")
print(df_high_missing)
print("\nMissing values per column:")
print(df_high_missing.isnull().sum())

# Let's say we decide to drop col1 due to high missingness
df_dropped_col = df_high_missing.drop('col1', axis=1) # axis=1 indicates dropping a column
print("\nDataFrame after dropping col1:")
print(df_dropped_col)

Pros: 열이 결측 데이터로 인해 대부분 유용하지 않은 경우 효과적입니다.

Cons: 귀중한 기능이 손실될 수 있습니다. "너무 많은 결측값"에 대한 임계값은 주관적입니다.

2. Imputation Strategies

대체는 결측값을 추정 또는 계산된 값으로 대체하는 것을 포함합니다. 데이터 세트 크기를 보존하므로 삭제보다 선호되는 경우가 많습니다.

a. Mean/Median/Mode Imputation

이것은 일반적이고 간단한 대체 기술입니다. 숫자 열의 경우 해당 열에서 결측값이 아닌 값의 평균 또는 중앙값으로 결측값을 대체할 수 있습니다. 범주형 열의 경우 최빈값 (가장 빈번한 값)이 사용됩니다.

Mean Imputation: 정규 분포 데이터에 적합합니다. 이상치에 민감합니다.
Median Imputation: 평균 대체보다 이상치에 더 강력합니다.
Mode Imputation: 범주형 기능에 사용됩니다.

            # Using the original df with some NaN values
print("\nOriginal DataFrame for imputation:")
print(df)

# Impute missing values in 'col1' with the mean
mean_col1 = df['col1'].mean()
df['col1'].fillna(mean_col1, inplace=True)

# Impute missing values in 'col3' with the median
median_col3 = df['col3'].median()
df['col3'].fillna(median_col3, inplace=True)

# Impute missing values in 'col2' with the mode
mode_col2 = df['col2'].mode()[0] # mode() can return multiple values if there's a tie
df['col2'].fillna(mode_col2, inplace=True)

print("\nDataFrame after mean/median/mode imputation:")
print(df)

Pros: 간단하고 데이터 세트 크기를 보존합니다.

Cons: 데이터의 분산 및 공분산을 왜곡할 수 있습니다. 평균/중앙값/최빈값이 결측 데이터에 대한 좋은 대표값이라고 가정하지만 항상 사실은 아닐 수 있습니다.

b. Forward Fill and Backward Fill

이러한 메서드는 시계열 데이터 또는 자연스러운 순서가 있는 데이터에 특히 유용합니다.

Forward Fill (ffill): 결측값을 마지막으로 알려진 유효한 관측값으로 채웁니다.
Backward Fill (bfill): 결측값을 다음으로 알려진 유효한 관측값으로 채웁니다.

            # Recreate a DataFrame with missing values suitable for ffill/bfill
data_time_series = {'value': [10, 12, np.nan, 15, np.nan, np.nan, 20]}
df_ts = pd.DataFrame(data_time_series)

print("\nOriginal DataFrame for time-series imputation:")
print(df_ts)

# Forward fill
df_ts_ffill = df_ts.fillna(method='ffill')
print("\nDataFrame after forward fill:")
print(df_ts_ffill)

# Backward fill
df_ts_bfill = df_ts.fillna(method='bfill')
print("\nDataFrame after backward fill:")
print(df_ts_bfill)

Pros: 정렬된 데이터에 유용하고 시간적 관계를 보존합니다.

Cons: 결측 데이터의 간격이 길면 잘못된 값을 전파할 수 있습니다. ffill은 미래 정보를 고려하지 않고 bfill은 과거 정보를 고려하지 않습니다.

c. Imputation using Groupby

보다 정교한 접근 방식은 그룹 통계를 기반으로 결측값을 대체하는 것입니다. 이는 결측이 데이터 내의 특정 범주 또는 그룹과 관련이 있다고 의심되는 경우 특히 유용합니다.

            data_grouped = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'value': [10, 20, np.nan, 25, 15, 30, 12, np.nan]
}
df_grouped = pd.DataFrame(data_grouped)

print("\nOriginal DataFrame for grouped imputation:")
print(df_grouped)

# Impute missing 'value' based on the mean 'value' of each 'category'
df_grouped['value'] = df_grouped.groupby('category')['value'].transform(lambda x: x.fillna(x.mean()))

print("\nDataFrame after grouped mean imputation:")
print(df_grouped)

Pros: 그룹 간의 변동을 고려하여 종종 글로벌 평균/중앙값/최빈값보다 더 정확한 대체로 이어집니다.

Cons: 관련 그룹화 변수가 필요합니다. 매우 큰 데이터 세트의 경우 계산 집약적일 수 있습니다.

d. More Advanced Imputation Techniques

특히 머신 러닝 파이프라인에서 보다 복잡한 시나리오의 경우 다음과 같은 고급 방법을 고려하십시오.

K-Nearest Neighbors (KNN) Imputer: 훈련 세트에서 찾은 K개의 가장 가까운 이웃의 값을 사용하여 결측값을 대체합니다.
Iterative Imputer (e.g., using MICE - Multiple Imputation by Chained Equations): 결측값이 있는 각 기능을 다른 기능의 함수로 모델링하고 반복적인 베이지안 행렬 완성을 사용하여 대체합니다.
Regression Imputation: 회귀 모델을 사용하여 결측값을 예측합니다.

이러한 메서드는 일반적으로 Scikit-learn과 같은 라이브러리에서 사용할 수 있습니다.

            # Example using Scikit-learn's KNNImputer
from sklearn.impute import KNNImputer

# KNNImputer works on numerical data. We'll use a sample numerical DataFrame.
data_knn = {'A': [1, 2, np.nan, 4, 5],
            'B': [np.nan, 20, 30, 40, 50],
            'C': [100, np.nan, 300, 400, 500]}
df_knn = pd.DataFrame(data_knn)

print("\nOriginal DataFrame for KNN imputation:")
print(df_knn)

imputer = KNNImputer(n_neighbors=2) # Use 2 nearest neighbors
df_knn_imputed_arr = imputer.fit_transform(df_knn)
df_knn_imputed = pd.DataFrame(df_knn_imputed_arr, columns=df_knn.columns)

print("\nDataFrame after KNN imputation:")
print(df_knn_imputed)

Pros: 기능 간의 관계를 고려하여 더 정확한 대체를 제공할 수 있습니다.

Cons: 계산 비용이 더 많이 들고 신중한 구현이 필요하며 기능 관계에 대한 가정이 유지되어야 합니다.

Handling Missing Values in Categorical Data

범주형 데이터는 자체적인 일련의 문제를 제시합니다. 최빈값 대체가 일반적이지만 다른 전략도 효과적입니다.

Mode Imputation: 앞에서와 같이 가장 빈번한 범주로 채웁니다.
Creating a New Category: 결측값을 별도의 범주로 처리합니다 (예: "Unknown", "Missing"). 데이터가 누락되었다는 사실 자체가 유익한 경우에 유용합니다.
Imputation based on other features: 범주형 기능과 다른 기능 간에 강력한 관계가 있는 경우 분류기를 사용하여 누락된 범주를 예측할 수 있습니다.

            data_cat = {'Product': ['A', 'B', 'A', 'C', 'B', 'A', np.nan],
            'Region': ['North', 'South', 'East', 'West', 'North', np.nan, 'East']}
df_cat = pd.DataFrame(data_cat)

print("\nOriginal DataFrame for categorical handling:")
print(df_cat)

# Strategy 1: Mode imputation for 'Region'
mode_region = df_cat['Region'].mode()[0]
df_cat['Region'].fillna(mode_region, inplace=True)

# Strategy 2: Create a new category for 'Product'
df_cat['Product'].fillna('Unknown', inplace=True)

print("\nDataFrame after categorical imputation:")
print(df_cat)

Best Practices and Considerations for a Global Audience

다양한 소스의 데이터로 작업하고 전 세계 사용자를 위해 작업하는 경우 다음을 고려하십시오.

Understand the Data Source: 왜 값이 누락되었습니까? 특정 지역 또는 플랫폼의 데이터 수집에 시스템 문제가 있습니까? 출처를 알면 전략을 안내할 수 있습니다. 예를 들어 설문 조사 플랫폼이 특정 국가에서 특정 인구 통계를 지속적으로 캡처하지 못하는 경우 해당 결측은 임의적이지 않을 수 있습니다.
Context is Key: 결측값을 처리하는 '올바른' 방법은 상황에 따라 다릅니다. 금융 모델은 작은 편향조차 피하기 위해 꼼꼼한 대체가 필요할 수 있지만 빠른 탐색적 분석에는 더 간단한 방법으로 충분할 수 있습니다.
Cultural Nuances in Data: 데이터 수집 방법은 문화권마다 다를 수 있습니다. 예를 들어 "소득"이 보고되는 방식 또는 "해당 없음"이 일반적인 응답인지 여부는 다를 수 있습니다. 이는 결측값이 해석되고 처리되는 방식에 영향을 줄 수 있습니다.
Time Zones and Data Lag: 다른 시간대의 시계열 데이터의 경우 ffill/bfill과 같은 시간 기반 대체 방법을 적용하기 전에 데이터가 표준화되었는지 확인합니다 (예: UTC로).
Currency and Units: 서로 다른 통화 또는 단위를 포함하는 숫자 값을 대체할 때 대체하기 전에 일관성 또는 적절한 변환을 확인합니다.
Document Your Decisions: 항상 결측 데이터를 처리하는 데 사용한 방법을 문서화하십시오. 이 투명성은 재현성에 매우 중요하며 다른 사람들이 분석을 이해하는 데 중요합니다.
Iterative Process: 결측값 처리를 포함한 데이터 정리는 종종 반복적인 프로세스입니다. 한 가지 방법을 시도하고 그 영향을 평가한 다음 접근 방식을 개선할 수 있습니다.
Use Libraries Wisely: Pandas는 기본 도구이지만 보다 복잡한 대체의 경우 Scikit-learn은 매우 귀중합니다. 작업에 적합한 도구를 선택하십시오.

Conclusion

결측값은 실제 데이터 작업의 불가피한 부분입니다. Python Pandas는 이러한 누락된 항목을 식별, 분석 및 처리할 수 있는 유연하고 강력한 도구 세트를 제공합니다. 삭제 또는 대체를 선택하든 각 방법에는 자체적인 절충점이 있습니다. 이러한 기술을 이해하고 데이터의 전역 컨텍스트를 고려함으로써 데이터 분석 및 머신 러닝 모델의 품질과 신뢰성을 크게 향상시킬 수 있습니다. 이러한 데이터 정리 기술을 마스터하는 것은 세계 어느 곳에서나 효과적인 데이터 전문가가 되는 데 있어 초석입니다.

Key Takeaways:

Identify: df.isnull().sum() 및 시각화를 사용하십시오.
Delete: 데이터 손실을 인식하면서 dropna()를 신중하게 사용하십시오.
Impute: 평균, 중앙값, 최빈값, ffill, bfill 또는 Scikit-learn의 고급 기술과 함께 fillna()를 사용하십시오.
Context Matters: 최상의 전략은 데이터와 목표에 따라 다릅니다.
Global Awareness: 문화적 뉘앙스와 데이터 출처를 고려하십시오.

이러한 기술을 계속 연습하면 강력한 데이터 과학 워크플로를 위한 강력한 기반을 구축할 수 있습니다.