20 September 2025Bahasa Indonesia

Pelajari cara membuat estimator kustom di scikit-learn untuk memperluas fungsionalitas dan mengimplementasikan algoritma ML Anda. Panduan ini mencakup dari dasar hingga teknik lanjutan.

Python Scikit-learn Estimator Kustom: Panduan Komprehensif Implementasi Algoritma

Scikit-learn adalah pustaka Python yang kuat dan banyak digunakan untuk pembelajaran mesin. Meskipun menyediakan banyak koleksi algoritma bawaan, ada situasi di mana Anda perlu mengimplementasikan algoritma kustom Anda sendiri. Untungnya, scikit-learn menawarkan kerangka kerja yang fleksibel untuk membuat estimator kustom, memungkinkan Anda mengintegrasikan algoritma Anda dengan mulus ke dalam ekosistem scikit-learn. Panduan komprehensif ini akan memandu Anda melalui proses membangun estimator kustom, mulai dari memahami dasar-dasar hingga mengimplementasikan teknik-teknik canggih. Kami juga akan menjelajahi contoh dunia nyata untuk mengilustrasikan aplikasi praktis dari estimator kustom.

Mengapa Membuat Estimator Kustom?

Sebelum menyelami detail implementasi, mari kita pahami mengapa Anda mungkin ingin membuat estimator kustom:

Mengimplementasikan Algoritma Baru: Scikit-learn tidak mencakup setiap algoritma pembelajaran mesin yang mungkin. Jika Anda telah mengembangkan algoritma baru atau ingin mengimplementasikan makalah penelitian, membuat estimator kustom adalah cara yang tepat.
Menyesuaikan Algoritma yang Ada: Anda mungkin ingin memodifikasi algoritma scikit-learn yang ada agar lebih sesuai dengan kebutuhan spesifik Anda. Estimator kustom memungkinkan Anda untuk memperluas atau mengadaptasi fungsionalitas yang ada.
Mengintegrasikan dengan Pustaka Eksternal: Anda mungkin ingin menggunakan algoritma dari pustaka Python lain yang tidak secara langsung kompatibel dengan scikit-learn. Estimator kustom menyediakan jembatan antara pustaka-pustaka ini dan API scikit-learn.
Meningkatkan Reusabilitas Kode: Dengan mengenkapsulasi algoritma Anda ke dalam estimator kustom, Anda dapat dengan mudah menggunakannya kembali dalam proyek yang berbeda dan membagikannya kepada orang lain.
Meningkatkan Integrasi Pipeline: Estimator kustom terintegrasi dengan mulus ke dalam pipeline scikit-learn, memungkinkan Anda untuk membangun alur kerja pembelajaran mesin yang kompleks.

Memahami Dasar-dasar Estimator Scikit-learn

Pada intinya, estimator scikit-learn adalah kelas Python yang mengimplementasikan metode fit dan predict (dan terkadang metode lain seperti transform atau fit_transform). Metode-metode ini mendefinisikan perilaku estimator selama pelatihan dan prediksi. Ada dua jenis utama estimator:

Transformer: Estimator ini mengubah data dari satu format ke format lain. Contohnya termasuk StandardScaler, PCA, dan OneHotEncoder. Mereka biasanya mengimplementasikan metode fit dan transform.
Model (Prediktor): Estimator ini mempelajari model dari data dan menggunakannya untuk membuat prediksi. Contohnya termasuk LinearRegression, DecisionTreeClassifier, dan KMeans. Mereka biasanya mengimplementasikan metode fit dan predict.

Kedua jenis estimator ini berbagi API yang sama, memungkinkan Anda menggunakannya secara bergantian dalam pipeline dan alat scikit-learn lainnya.

Membuat Transformer Kustom Sederhana

Mari kita mulai dengan contoh sederhana dari transformer kustom. Transformer ini akan menskalakan setiap fitur dengan faktor konstanta. Transformer ini mirip dengan `StandardScaler`, tetapi lebih sederhana dan memungkinkan untuk menentukan faktor penskalaan kustom.

            
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class FeatureScaler(BaseEstimator, TransformerMixin):
    def __init__(self, factor=1.0):
        self.factor = factor

    def fit(self, X, y=None):
        # No fitting needed for this transformer
        return self

    def transform(self, X):
        return X * self.factor

Berikut adalah rincian kode:

Pewarisan (Inheritance): Kita mewarisi dari BaseEstimator dan TransformerMixin. BaseEstimator menyediakan fungsionalitas dasar seperti get_params dan set_params, sementara TransformerMixin menyediakan implementasi default dari fit_transform (yang memanggil fit lalu transform).
__init__: Ini adalah konstruktor. Ia mengambil faktor penskalaan sebagai argumen dan menyimpannya dalam atribut self.factor. Penting untuk mendefinisikan parameter estimator Anda di dalam konstruktor.
fit: Metode ini dipanggil untuk menyesuaikan transformer dengan data. Dalam kasus ini, kita tidak perlu mempelajari apa pun dari data, jadi kita cukup mengembalikan self. Argumen y sering tidak digunakan untuk transformer, tetapi diperlukan untuk kompatibilitas dengan API scikit-learn.
transform: Metode ini dipanggil untuk mengubah data. Kita cukup mengalikan setiap fitur dengan faktor penskalaan.

Sekarang, mari kita lihat cara menggunakan transformer kustom ini:

            
# Example Usage
from sklearn.pipeline import Pipeline

X = np.array([[1, 2], [3, 4], [5, 6]])

# Create a FeatureScaler with a factor of 2
scaler = FeatureScaler(factor=2.0)

# Transform the data
X_transformed = scaler.transform(X)

print(X_transformed)
# Output:
# [[ 2.  4.]
#  [ 6.  8.]
#  [10. 12.]]

# Using in a pipeline
pipe = Pipeline([('scaler', FeatureScaler(factor=3.0))])
X_transformed_pipeline = pipe.fit_transform(X)
print(X_transformed_pipeline)
# Output:
# [[ 3.  6.]
#  [ 9. 12.]
#  [15. 18.]]

Membuat Model Kustom Sederhana (Prediktor)

Selanjutnya, mari kita buat model kustom sederhana. Model ini akan memprediksi rata-rata data pelatihan untuk semua prediksi di masa mendatang. Meskipun tidak terlalu berguna, ini menunjukkan struktur dasar dari prediktor kustom.

            
from sklearn.base import BaseEstimator, RegressorMixin
import numpy as np

class MeanPredictor(BaseEstimator, RegressorMixin):
    def __init__(self):
        self.mean_ = None

    def fit(self, X, y):
        self.mean_ = np.mean(y)
        return self

    def predict(self, X):
        return np.full(X.shape[0], self.mean_)

Berikut adalah rincian kode:

Pewarisan (Inheritance): Kita mewarisi dari BaseEstimator dan RegressorMixin. RegressorMixin menyediakan implementasi default untuk metode-metode terkait regresi (meskipun kita tidak menggunakannya dalam contoh ini).
__init__: Kita menginisialisasi self.mean_ menjadi None. Atribut ini akan menyimpan rata-rata variabel target setelah penyesuaian (fitting).
fit: Metode ini menghitung rata-rata variabel target y dan menyimpannya di self.mean_.
predict: Metode ini mengembalikan array dengan panjang yang sama dengan input X, dengan setiap elemen sama dengan rata-rata yang disimpan.

Sekarang, mari kita lihat cara menggunakan model kustom ini:

            
# Example Usage
X = np.array([[1], [2], [3]])
y = np.array([10, 20, 30])

# Create a MeanPredictor
predictor = MeanPredictor()

# Fit the model
predictor.fit(X, y)

# Predict on new data
X_new = np.array([[4], [5], [6]])
y_pred = predictor.predict(X_new)

print(y_pred)
# Output:
# [20. 20. 20.]

Mengimplementasikan Validasi Parameter

Sangat penting untuk memvalidasi parameter yang diteruskan ke estimator kustom Anda. Ini membantu mencegah perilaku yang tidak terduga dan memberikan pesan kesalahan yang informatif kepada pengguna. Anda dapat menggunakan fungsi check_estimator dari sklearn.utils.estimator_checks untuk menguji estimator Anda secara otomatis terhadap serangkaian pemeriksaan umum.

Pertama, mari kita modifikasi FeatureScaler untuk menyertakan validasi parameter:

            
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.utils import validation

class FeatureScaler(BaseEstimator, TransformerMixin):
    def __init__(self, factor=1.0):
        self.factor = factor

    def fit(self, X, y=None):
        # Validate the input
        self.factor = validation.check_scalar(
            self.factor,
            'factor',
            target_type=float,
            min_val=0.0,
            include_boundaries=True
        )
        return self

    def transform(self, X):
        validation.check_is_fitted(self)
        X = validation.check_array(X)
        return X * self.factor

Berikut adalah apa yang telah kita tambahkan:

validation.check_scalar: Kita menggunakan fungsi ini dalam metode fit untuk memvalidasi bahwa parameter factor adalah float yang lebih besar dari atau sama dengan 0.
validation.check_is_fitted: Kita menggunakan fungsi ini dalam metode `transform` untuk memastikan bahwa estimator telah disesuaikan (fitted) sebelum mengubah data.
validation.check_array: Kita menggunakan fungsi ini untuk memvalidasi bahwa input `X` adalah array yang valid.

Sekarang, mari kita gunakan check_estimator untuk menguji estimator kita:

            
from sklearn.utils.estimator_checks import check_estimator

# Perform checks
check_estimator(FeatureScaler)

Jika ada masalah dengan estimator Anda (misalnya, jenis parameter yang salah atau metode yang hilang), check_estimator akan memunculkan error. Ini adalah alat yang ampuh untuk memastikan bahwa estimator kustom Anda mematuhi API scikit-learn.

Menangani Hyperparameter dengan GridSearchCV

Salah satu manfaat utama membuat estimator kustom adalah Anda dapat menggunakannya dengan alat penyetelan hyperparameter scikit-learn seperti GridSearchCV dan RandomizedSearchCV. Untuk membuat estimator Anda kompatibel dengan alat-alat ini, Anda perlu memastikan bahwa parameternya dapat diakses dan dimodifikasi. Ini biasanya ditangani secara otomatis berkat kelas `BaseEstimator`.

Mari kita tunjukkan ini dengan FeatureScaler. Kita akan menggunakan GridSearchCV untuk menemukan faktor penskalaan yang optimal:

            
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
import numpy as np

# Create a pipeline with the FeatureScaler
pipe = Pipeline([('scaler', FeatureScaler())])

# Define the parameter grid
param_grid = {'scaler__factor': [0.5, 1.0, 1.5, 2.0]}

# Create a GridSearchCV object
grid_search = GridSearchCV(pipe, param_grid, cv=3, scoring='r2') # Using R^2 as an example scoring metric.

# Generate some sample data
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([2, 4, 6, 8, 10])

# Fit the grid search
grid_search.fit(X, y)

# Print the best parameters and score
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)

Dalam contoh ini, kita mendefinisikan grid parameter yang menentukan nilai-nilai parameter factor untuk dicari. GridSearchCV kemudian akan mengevaluasi pipeline dengan setiap kombinasi parameter dan mengembalikan set yang berkinerja terbaik. Perhatikan konvensi penamaan `scaler__factor` untuk mengakses parameter dalam tahapan pipeline.

Teknik Lanjutan: Menangani Tipe Data Kompleks dan Nilai Hilang

Estimator kustom juga dapat digunakan untuk menangani tipe data kompleks dan nilai hilang. Misalnya, Anda mungkin ingin membuat transformer yang mengimputasi nilai hilang menggunakan strategi spesifik domain atau yang mengubah fitur kategorikal menjadi representasi numerik. Kuncinya adalah mempertimbangkan dengan cermat persyaratan spesifik data Anda dan mengimplementasikan logika yang sesuai dalam metode fit dan transform.

Mari kita pertimbangkan contoh transformer kustom yang mengimputasi nilai hilang menggunakan median:

            
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class MedianImputer(BaseEstimator, TransformerMixin):
    def __init__(self):
        self.median_ = None

    def fit(self, X, y=None):
        # Calculate the median for each column
        self.median_ = np.nanmedian(X, axis=0)
        return self

    def transform(self, X):
        # Impute missing values with the median
        X_imputed = np.where(np.isnan(X), self.median_, X)
        return X_imputed

Dalam contoh ini, metode fit menghitung median untuk setiap kolom dalam data input, mengabaikan nilai hilang (np.nan). Metode transform kemudian mengganti nilai hilang apa pun dalam data input dengan median yang sesuai.

Berikut cara menggunakannya:

            
# Example Usage
X = np.array([[1, 2, np.nan], [3, np.nan, 5], [np.nan, 4, 6]])

# Create a MedianImputer
imputer = MedianImputer()

# Fit the imputer
imputer.fit(X)

# Transform the data
X_imputed = imputer.transform(X)

print(X_imputed)
# Output:
# [[1.  2.  5.5]
#  [3.  4.  5. ]
#  [2.  4.  6. ]]

Contoh Dunia Nyata dan Kasus Penggunaan

Mari kita jelajahi beberapa contoh dunia nyata di mana estimator kustom dapat sangat berguna:

Rekayasa Fitur Time Series: Anda mungkin ingin membuat transformer kustom yang mengekstrak fitur dari data time series, seperti statistik bergulir atau nilai tertunda (lagged values). Misalnya, di pasar keuangan, Anda dapat membuat estimator yang menghitung rata-rata bergerak dan standar deviasi harga saham selama jendela waktu tertentu. Estimator ini kemudian dapat digunakan dalam pipeline untuk memprediksi harga saham di masa depan. Ukuran jendela dapat menjadi hyperparameter yang disetel oleh `GridSearchCV`.
Pemrosesan Bahasa Alami (NLP): Anda dapat membuat transformer kustom yang melakukan pembersihan teks atau ekstraksi fitur menggunakan teknik yang tidak tersedia secara langsung di scikit-learn. Misalnya, Anda mungkin ingin mengimplementasikan stemmer atau lemmatizer kustom yang disesuaikan dengan bahasa atau domain tertentu. Anda juga dapat mengintegrasikan pustaka eksternal seperti NLTK atau spaCy dalam estimator kustom Anda.
Pemrosesan Gambar: Anda mungkin ingin membuat transformer kustom yang menerapkan operasi pemrosesan gambar tertentu, seperti pemfilteran atau deteksi tepi, sebelum memasukkan gambar ke dalam model pembelajaran mesin. Ini dapat melibatkan integrasi dengan pustaka seperti OpenCV atau scikit-image. Misalnya, estimator dapat menormalkan kecerahan dan kontras gambar medis sebelum melatih model untuk mendeteksi tumor.
Sistem Rekomendasi: Anda dapat membangun estimator kustom yang mengimplementasikan algoritma penyaringan kolaboratif, seperti faktorisasi matriks, untuk menghasilkan rekomendasi yang dipersonalisasi. Ini dapat melibatkan integrasi dengan pustaka seperti Surprise atau implicit. Misalnya, sistem rekomendasi film mungkin menggunakan estimator kustom untuk memprediksi peringkat pengguna berdasarkan preferensi masa lalu mereka dan peringkat pengguna lain.
Analisis Data Geospasial: Buat transformer kustom untuk bekerja dengan data lokasi. Ini mungkin melibatkan perhitungan jarak antara titik-titik, melakukan penggabungan spasial (spatial joins), atau mengekstrak fitur dari bentuk geografis. Misalnya, Anda dapat menghitung jarak setiap pelanggan dari lokasi toko terdekat untuk menginformasikan strategi pemasaran.

Praktik Terbaik untuk Membuat Estimator Kustom

Untuk memastikan bahwa estimator kustom Anda tangguh, dapat dipelihara, dan kompatibel dengan scikit-learn, ikuti praktik terbaik berikut:

Mewarisi dari BaseEstimator dan Mixin yang sesuai: Ini menyediakan fungsionalitas dasar dan memastikan kompatibilitas dengan API scikit-learn.
Implementasikan __init__, fit, dan transform (atau predict): Metode-metode ini adalah inti dari estimator Anda.
Validasi Parameter Input: Gunakan sklearn.utils.validation untuk memvalidasi parameter yang diteruskan ke estimator Anda.
Tangani Nilai Hilang dengan Tepat: Putuskan bagaimana estimator Anda harus menangani nilai hilang dan implementasikan logika yang sesuai.
Dokumentasikan Kode Anda: Berikan dokumentasi yang jelas dan ringkas untuk estimator Anda, termasuk tujuan, parameter, dan penggunaannya. Gunakan docstring yang mematuhi konvensi NumPy/SciPy untuk konsistensi.
Uji Kode Anda: Gunakan sklearn.utils.estimator_checks untuk menguji estimator Anda terhadap serangkaian pemeriksaan umum. Juga, tulis uji unit (unit tests) untuk memverifikasi bahwa estimator Anda berfungsi dengan benar.
Ikuti Konvensi Scikit-learn: Patuhi gaya pengkodean dan konvensi API scikit-learn untuk memastikan konsistensi dan pemeliharaan.
Pertimbangkan Menggunakan Decorator: Jika sesuai, gunakan decorator seperti @validate_arguments dari pustaka seperti `typing-extensions` untuk menyederhanakan validasi parameter.

Kesimpulan

Membuat estimator kustom di scikit-learn memungkinkan Anda untuk memperluas fungsionalitasnya dan mengimplementasikan algoritma pembelajaran mesin Anda sendiri. Dengan mengikuti panduan dan praktik terbaik yang diuraikan dalam panduan ini, Anda dapat membuat estimator yang tangguh, dapat dipelihara, dan dapat digunakan kembali yang terintegrasi dengan mulus ke dalam ekosistem scikit-learn. Baik Anda mengimplementasikan algoritma baru, menyesuaikan yang sudah ada, atau mengintegrasikan dengan pustaka eksternal, estimator kustom menyediakan alat yang ampuh untuk menangani masalah pembelajaran mesin yang kompleks.

Ingatlah untuk menguji dan mendokumentasikan estimator kustom Anda secara menyeluruh untuk memastikan kualitas dan kegunaannya. Dengan pemahaman yang kuat tentang API scikit-learn dan sedikit kreativitas, Anda dapat memanfaatkan estimator kustom untuk membangun solusi pembelajaran mesin canggih yang disesuaikan dengan kebutuhan spesifik Anda. Semoga berhasil!