۲۹ شهریور ۱۴۰۴فارسی

یاد بگیرید چگونه تخمین‌گرهای سفارشی را در scikit-learn ایجاد کنید تا عملکرد آن را گسترش دهید و الگوریتم‌های یادگیری ماشین خود را پیاده‌سازی کنید.

تخمین‌گرهای سفارشی Scikit-learn در پایتون: راهنمای جامع پیاده‌سازی الگوریتم

Scikit-learn یک کتابخانه پایتون قدرتمند و پرکاربرد برای یادگیری ماشین است. در حالی که این کتابخانه مجموعه‌ای وسیع از الگوریتم‌های از پیش ساخته شده را ارائه می‌دهد، موقعیت‌هایی وجود دارد که در آن شما نیاز به پیاده‌سازی الگوریتم‌های سفارشی خود دارید. خوشبختانه، scikit-learn یک چارچوب انعطاف‌پذیر برای ایجاد تخمین‌گرهای سفارشی ارائه می‌دهد که به شما امکان می‌دهد الگوریتم‌های خود را به‌طور یکپارچه در اکوسیستم scikit-learn ادغام کنید. این راهنمای جامع شما را در فرآیند ساخت تخمین‌گرهای سفارشی راهنمایی می‌کند، از درک مفاهیم اولیه تا پیاده‌سازی تکنیک‌های پیشرفته. ما همچنین نمونه‌های دنیای واقعی را بررسی خواهیم کرد تا کاربردهای عملی تخمین‌گرهای سفارشی را نشان دهیم.

چرا تخمین‌گرهای سفارشی ایجاد کنیم؟

قبل از ورود به جزئیات پیاده‌سازی، بیایید درک کنیم که چرا ممکن است بخواهید تخمین‌گرهای سفارشی ایجاد کنید:

پیاده‌سازی الگوریتم‌های جدید: Scikit-learn همه الگوریتم‌های یادگیری ماشین ممکن را پوشش نمی‌دهد. اگر شما یک الگوریتم جدید توسعه داده‌اید یا می‌خواهید یک مقاله تحقیقاتی را پیاده‌سازی کنید، ایجاد یک تخمین‌گر سفارشی راهی است که باید بروید.
سفارشی‌سازی الگوریتم‌های موجود: ممکن است بخواهید یک الگوریتم scikit-learn موجود را تغییر دهید تا بهتر با نیازهای خاص شما مطابقت داشته باشد. تخمین‌گرهای سفارشی به شما امکان می‌دهند عملکرد موجود را گسترش دهید یا تطبیق دهید.
ادغام با کتابخانه‌های خارجی: ممکن است بخواهید از الگوریتم‌هایی از سایر کتابخانه‌های پایتون استفاده کنید که مستقیماً با scikit-learn سازگار نیستند. تخمین‌گرهای سفارشی یک پل بین این کتابخانه‌ها و API scikit-learn فراهم می‌کنند.
بهبود قابلیت استفاده مجدد از کد: با کپسوله کردن الگوریتم خود در یک تخمین‌گر سفارشی، می‌توانید به راحتی از آن در پروژه‌های مختلف استفاده مجدد کنید و آن را با دیگران به اشتراک بگذارید.
بهبود ادغام خط لوله: تخمین‌گرهای سفارشی به‌طور یکپارچه با خطوط لوله scikit-learn ادغام می‌شوند و به شما امکان می‌دهند گردش‌های کاری یادگیری ماشین پیچیده را بسازید.

درک اصول اولیه تخمین‌گرهای Scikit-learn

در اصل، یک تخمین‌گر scikit-learn یک کلاس پایتون است که متدهای fit و predict (و گاهی متدهای دیگر مانند transform یا fit_transform) را پیاده‌سازی می‌کند. این متدها رفتار تخمین‌گر را در طول آموزش و پیش‌بینی تعریف می‌کنند. دو نوع اصلی از تخمین‌گرها وجود دارد:

تبدیل‌کننده‌ها: این تخمین‌گرها داده‌ها را از یک قالب به قالب دیگر تبدیل می‌کنند. نمونه‌هایی از این موارد عبارتند از StandardScaler، PCA و OneHotEncoder. آنها معمولاً متدهای fit و transform را پیاده‌سازی می‌کنند.
مدل‌ها (پیش‌بینی‌کننده‌ها): این تخمین‌گرها یک مدل را از داده‌ها یاد می‌گیرند و از آن برای پیش‌بینی استفاده می‌کنند. نمونه‌هایی از این موارد عبارتند از LinearRegression، DecisionTreeClassifier و KMeans. آنها معمولاً متدهای fit و predict را پیاده‌سازی می‌کنند.

هر دو نوع تخمین‌گر یک API مشترک دارند و به شما امکان می‌دهند از آنها به جای یکدیگر در خطوط لوله و سایر ابزارهای scikit-learn استفاده کنید.

ایجاد یک تبدیل‌کننده سفارشی ساده

بیایید با یک مثال ساده از یک تبدیل‌کننده سفارشی شروع کنیم. این تبدیل‌کننده هر ویژگی را با یک فاکتور ثابت مقیاس‌بندی می‌کند. این تبدیل‌کننده شبیه به `StandardScaler` است، اما ساده‌تر است و امکان تعیین یک فاکتور مقیاس‌بندی سفارشی را فراهم می‌کند.

            
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class FeatureScaler(BaseEstimator, TransformerMixin):
    def __init__(self, factor=1.0):
        self.factor = factor

    def fit(self, X, y=None):
        # No fitting needed for this transformer
        return self

    def transform(self, X):
        return X * self.factor

در اینجا یک تفکیک از کد آمده است:

وراثت: ما از BaseEstimator و TransformerMixin ارث می‌بریم. BaseEstimator عملکردهای اساسی مانند get_params و set_params را ارائه می‌دهد، در حالی که TransformerMixin یک پیاده‌سازی پیش‌فرض از fit_transform (که fit را فراخوانی می‌کند و سپس transform) را ارائه می‌دهد.
__init__: این سازنده است. این فاکتور مقیاس‌بندی را به عنوان یک آرگومان می‌گیرد و آن را در ویژگی self.factor ذخیره می‌کند. مهم است که پارامترهای تخمین‌گر خود را در سازنده تعریف کنید.
fit: این متد برای برازش تبدیل‌کننده بر روی داده‌ها فراخوانی می‌شود. در این مورد، ما نیازی به یادگیری چیزی از داده‌ها نداریم، بنابراین به سادگی self را برمی‌گردانیم. آرگومان y اغلب برای تبدیل‌کننده‌ها استفاده نمی‌شود، اما برای سازگاری با API scikit-learn مورد نیاز است.
transform: این متد برای تبدیل داده‌ها فراخوانی می‌شود. ما به سادگی هر ویژگی را در فاکتور مقیاس‌بندی ضرب می‌کنیم.

حالا، بیایید ببینیم چگونه از این تبدیل‌کننده سفارشی استفاده کنیم:

            
# Example Usage
from sklearn.pipeline import Pipeline

X = np.array([[1, 2], [3, 4], [5, 6]])

# Create a FeatureScaler with a factor of 2
scaler = FeatureScaler(factor=2.0)

# Transform the data
X_transformed = scaler.transform(X)

print(X_transformed)
# Output:
# [[ 2.  4.]
#  [ 6.  8.]
#  [10. 12.]]

# Using in a pipeline
pipe = Pipeline([('scaler', FeatureScaler(factor=3.0))])
X_transformed_pipeline = pipe.fit_transform(X)
print(X_transformed_pipeline)
# Output:
# [[ 3.  6.]
#  [ 9. 12.]
#  [15. 18.]]

ایجاد یک مدل سفارشی (پیش‌بینی‌کننده) ساده

در مرحله بعد، بیایید یک مدل سفارشی ساده ایجاد کنیم. این مدل میانگین داده‌های آموزشی را برای همه پیش‌بینی‌های آینده پیش‌بینی می‌کند. در حالی که این مدل به‌طور خاص مفید نیست، ساختار اصلی یک پیش‌بینی‌کننده سفارشی را نشان می‌دهد.

            
from sklearn.base import BaseEstimator, RegressorMixin
import numpy as np

class MeanPredictor(BaseEstimator, RegressorMixin):
    def __init__(self):
        self.mean_ = None

    def fit(self, X, y):
        self.mean_ = np.mean(y)
        return self

    def predict(self, X):
        return np.full(X.shape[0], self.mean_)

در اینجا یک تفکیک از کد آمده است:

وراثت: ما از BaseEstimator و RegressorMixin ارث می‌بریم. RegressorMixin پیاده‌سازی‌های پیش‌فرض را برای متدهای مرتبط با رگرسیون فراهم می‌کند (اگرچه ما در این مثال از آنها استفاده نمی‌کنیم).
__init__: ما self.mean_ را به None مقداردهی اولیه می‌کنیم. این ویژگی میانگین متغیر هدف را پس از برازش ذخیره می‌کند.
fit: این متد میانگین متغیر هدف y را محاسبه می‌کند و آن را در self.mean_ ذخیره می‌کند.
predict: این متد یک آرایه با همان طول ورودی X را برمی‌گرداند، که هر عنصر آن برابر با میانگین ذخیره شده است.

حالا، بیایید ببینیم چگونه از این مدل سفارشی استفاده کنیم:

            
# Example Usage
X = np.array([[1], [2], [3]])
y = np.array([10, 20, 30])

# Create a MeanPredictor
predictor = MeanPredictor()

# Fit the model
predictor.fit(X, y)

# Predict on new data
X_new = np.array([[4], [5], [6]])
y_pred = predictor.predict(X_new)

print(y_pred)
# Output:
# [20. 20. 20.]

پیاده‌سازی اعتبارسنجی پارامتر

اعتبارسنجی پارامترهای منتقل شده به تخمین‌گرهای سفارشی شما بسیار مهم است. این به جلوگیری از رفتار غیرمنتظره کمک می‌کند و پیام‌های خطای آموزنده‌ای را به کاربران ارائه می‌دهد. می‌توانید از تابع check_estimator از sklearn.utils.estimator_checks برای آزمایش خودکار تخمین‌گر خود در برابر مجموعه‌ای از بررسی‌های رایج استفاده کنید.

ابتدا، بیایید FeatureScaler را اصلاح کنیم تا اعتبارسنجی پارامتر را شامل شود:

            
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.utils import validation

class FeatureScaler(BaseEstimator, TransformerMixin):
    def __init__(self, factor=1.0):
        self.factor = factor

    def fit(self, X, y=None):
        # Validate the input
        self.factor = validation.check_scalar(
            self.factor,
            'factor',
            target_type=float,
            min_val=0.0,
            include_boundaries=True
        )
        return self

    def transform(self, X):
        validation.check_is_fitted(self)
        X = validation.check_array(X)
        return X * self.factor

در اینجا آنچه اضافه کرده‌ایم آمده است:

validation.check_scalar: ما از این تابع در متد fit برای اعتبار سنجی اینکه پارامتر factor یک عدد اعشاری بزرگتر یا مساوی 0 است، استفاده می‌کنیم.
validation.check_is_fitted: ما از این تابع در متد `transform` استفاده می‌کنیم تا اطمینان حاصل کنیم که تخمین‌گر قبل از تبدیل داده‌ها برازش شده است.
validation.check_array: ما از این تابع برای اعتبار سنجی اینکه ورودی `X` یک آرایه معتبر است، استفاده می‌کنیم.

حالا، بیایید از check_estimator برای آزمایش تخمین‌گر خود استفاده کنیم:

            
from sklearn.utils.estimator_checks import check_estimator

# Perform checks
check_estimator(FeatureScaler)

اگر مشکلی در تخمین‌گر شما وجود داشته باشد (به عنوان مثال، انواع پارامترهای نادرست یا متدهای از دست رفته)، check_estimator یک خطا ایجاد می‌کند. این یک ابزار قدرتمند برای اطمینان از این است که تخمین‌گرهای سفارشی شما به API scikit-learn پایبند هستند.

مدیریت هایپرپارامترها با GridSearchCV

یکی از مزایای کلیدی ایجاد تخمین‌گرهای سفارشی این است که می‌توانید از آنها با ابزارهای تنظیم هایپرپارامتر scikit-learn مانند GridSearchCV و RandomizedSearchCV استفاده کنید. برای سازگار کردن تخمین‌گر خود با این ابزارها، باید اطمینان حاصل کنید که پارامترهای آن قابل دسترسی و اصلاح هستند. این معمولاً به لطف کلاس `BaseEstimator` به‌طور خودکار انجام می‌شود.

بیایید این را با FeatureScaler نشان دهیم. ما از GridSearchCV برای یافتن فاکتور مقیاس‌بندی بهینه استفاده خواهیم کرد:

            
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
import numpy as np

# Create a pipeline with the FeatureScaler
pipe = Pipeline([('scaler', FeatureScaler())])

# Define the parameter grid
param_grid = {'scaler__factor': [0.5, 1.0, 1.5, 2.0]}

# Create a GridSearchCV object
grid_search = GridSearchCV(pipe, param_grid, cv=3, scoring='r2') # Using R^2 as an example scoring metric.

# Generate some sample data
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([2, 4, 6, 8, 10])

# Fit the grid search
grid_search.fit(X, y)

# Print the best parameters and score
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)

در این مثال، ما یک شبکه پارامتر تعریف می‌کنیم که مقادیر پارامتر factor را برای جستجو مشخص می‌کند. سپس GridSearchCV خط لوله را با هر ترکیبی از پارامترها ارزیابی می‌کند و بهترین مجموعه را برمی‌گرداند. به قرارداد نام‌گذاری `scaler__factor` برای دسترسی به پارامترها در یک مرحله خط لوله توجه کنید.

تکنیک‌های پیشرفته: رسیدگی به انواع داده‌های پیچیده و مقادیر از دست رفته

تخمین‌گرهای سفارشی همچنین می‌توانند برای مدیریت انواع داده‌های پیچیده و مقادیر از دست رفته استفاده شوند. به عنوان مثال، ممکن است بخواهید یک تبدیل‌کننده ایجاد کنید که مقادیر از دست رفته را با استفاده از یک استراتژی خاص دامنه وارد می‌کند یا ویژگی‌های طبقه‌بندی‌شده را به نمایش‌های عددی تبدیل می‌کند. نکته کلیدی این است که الزامات خاص داده‌های خود را با دقت در نظر بگیرید و منطق مناسب را در متدهای fit و transform پیاده‌سازی کنید.

بیایید به عنوان نمونه‌ای از یک تبدیل‌کننده سفارشی که مقادیر از دست رفته را با استفاده از میانه وارد می‌کند، در نظر بگیریم:

            
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class MedianImputer(BaseEstimator, TransformerMixin):
    def __init__(self):
        self.median_ = None

    def fit(self, X, y=None):
        # Calculate the median for each column
        self.median_ = np.nanmedian(X, axis=0)
        return self

    def transform(self, X):
        # Impute missing values with the median
        X_imputed = np.where(np.isnan(X), self.median_, X)
        return X_imputed

در این مثال، متد fit میانه را برای هر ستون در داده‌های ورودی محاسبه می‌کند و مقادیر از دست رفته (np.nan) را نادیده می‌گیرد. سپس متد transform هر مقدار از دست رفته در داده‌های ورودی را با میانه مربوطه جایگزین می‌کند.

در اینجا نحوه استفاده از آن آمده است:

            
# Example Usage
X = np.array([[1, 2, np.nan], [3, np.nan, 5], [np.nan, 4, 6]])

# Create a MedianImputer
imputer = MedianImputer()

# Fit the imputer
imputer.fit(X)

# Transform the data
X_imputed = imputer.transform(X)

print(X_imputed)
# Output:
# [[1.  2.  5.5]
#  [3.  4.  5. ]
#  [2.  4.  6. ]]

نمونه‌ها و موارد استفاده در دنیای واقعی

بیایید برخی از نمونه‌های دنیای واقعی را بررسی کنیم که در آن تخمین‌گرهای سفارشی می‌توانند به‌ویژه مفید باشند:

مهندسی ویژگی سری زمانی: ممکن است بخواهید یک تبدیل‌کننده سفارشی ایجاد کنید که ویژگی‌ها را از داده‌های سری زمانی استخراج می‌کند، مانند آمار در حال حرکت یا مقادیر تاخیری. به عنوان مثال، در بازارهای مالی، می‌توانید یک تخمین‌گر ایجاد کنید که میانگین متحرک و انحراف معیار قیمت سهام را در یک بازه زمانی خاص محاسبه می‌کند. سپس از این تخمین‌گر می‌توان در یک خط لوله برای پیش‌بینی قیمت سهام در آینده استفاده کرد. اندازه پنجره می‌تواند یک هایپرپارامتر باشد که توسط `GridSearchCV` تنظیم شده است.
پردازش زبان طبیعی (NLP): می‌توانید یک تبدیل‌کننده سفارشی ایجاد کنید که پاک‌سازی متن یا استخراج ویژگی را با استفاده از تکنیک‌هایی انجام می‌دهد که مستقیماً در scikit-learn در دسترس نیستند. به عنوان مثال، ممکن است بخواهید یک استم‌ساز یا لیمیت‌ساز سفارشی را متناسب با یک زبان یا دامنه خاص پیاده‌سازی کنید. همچنین می‌توانید کتابخانه‌های خارجی مانند NLTK یا spaCy را در تخمین‌گر سفارشی خود ادغام کنید.
پردازش تصویر: ممکن است بخواهید یک تبدیل‌کننده سفارشی ایجاد کنید که عملیات پردازش تصویر خاصی، مانند فیلتر کردن یا تشخیص لبه، را قبل از تغذیه تصاویر در یک مدل یادگیری ماشین اعمال می‌کند. این می‌تواند شامل ادغام با کتابخانه‌هایی مانند OpenCV یا scikit-image باشد. به عنوان مثال، یک تخمین‌گر ممکن است روشنایی و کنتراست تصاویر پزشکی را قبل از آموزش یک مدل برای تشخیص تومورها، عادی‌سازی کند.
سیستم‌های توصیه‌گر: می‌توانید یک تخمین‌گر سفارشی بسازید که الگوریتم‌های فیلتر همکارانه، مانند تجزیه ماتریس، را برای تولید توصیه‌های شخصی‌سازی شده پیاده‌سازی می‌کند. این می‌تواند شامل ادغام با کتابخانه‌هایی مانند Surprise یا implicit باشد. به عنوان مثال، یک سیستم توصیه‌ فیلم ممکن است از یک تخمین‌گر سفارشی برای پیش‌بینی رتبه‌بندی‌های کاربر بر اساس ترجیحات گذشته آنها و رتبه‌بندی‌های سایر کاربران استفاده کند.
تجزیه و تحلیل داده‌های مکانی: تبدیل‌کننده‌های سفارشی ایجاد کنید تا با داده‌های مکان کار کنید. این ممکن است شامل محاسبه فواصل بین نقاط، انجام پیوستگی‌های مکانی، یا استخراج ویژگی‌ها از اشکال جغرافیایی باشد. به عنوان مثال، می‌توانید فاصله هر مشتری از نزدیک‌ترین مکان فروشگاه را محاسبه کنید تا استراتژی‌های بازاریابی را آگاه کنید.

بهترین روش‌ها برای ایجاد تخمین‌گرهای سفارشی

برای اطمینان از اینکه تخمین‌گرهای سفارشی شما قوی، قابل نگهداری و سازگار با scikit-learn هستند، این بهترین روش‌ها را دنبال کنید:

از BaseEstimator و Mixin مناسب ارث ببرید: این عملکرد اولیه را فراهم می‌کند و سازگاری را با API scikit-learn تضمین می‌کند.
__init__، fit و transform (یا predict) را پیاده‌سازی کنید: این متدها هسته تخمین‌گر شما هستند.
پارامترهای ورودی را اعتبارسنجی کنید: از sklearn.utils.validation برای اعتبار سنجی پارامترهای منتقل شده به تخمین‌گر خود استفاده کنید.
مقادیر از دست رفته را به‌درستی مدیریت کنید: تصمیم بگیرید که تخمین‌گر شما چگونه باید مقادیر از دست رفته را مدیریت کند و منطق مناسب را پیاده‌سازی کنید.
کد خود را مستند کنید: مستندات واضح و مختصر برای تخمین‌گر خود، از جمله هدف، پارامترها و استفاده از آن ارائه دهید. از docstrings مطابق با قرارداد NumPy/SciPy برای سازگاری استفاده کنید.
کد خود را آزمایش کنید: از sklearn.utils.estimator_checks برای آزمایش تخمین‌گر خود در برابر مجموعه‌ای از بررسی‌های رایج استفاده کنید. همچنین، تست‌های واحد را برای تأیید اینکه تخمین‌گر شما به درستی کار می‌کند، بنویسید.
از قراردادهای Scikit-learn پیروی کنید: به سبک کدنویسی و قراردادهای API scikit-learn پایبند باشید تا از سازگاری و قابلیت نگهداری اطمینان حاصل کنید.
در صورت مناسب، از دکوراتورها استفاده کنید: در صورت مناسب، از دکوراتورهایی مانند @validate_arguments از کتابخانه‌هایی مانند `typing-extensions` برای ساده‌سازی اعتبارسنجی پارامتر استفاده کنید.

نتیجه‌گیری

ایجاد تخمین‌گرهای سفارشی در scikit-learn به شما امکان می‌دهد عملکرد آن را گسترش دهید و الگوریتم‌های یادگیری ماشین خود را پیاده‌سازی کنید. با پیروی از دستورالعمل‌ها و بهترین روش‌های ارائه شده در این راهنما، می‌توانید تخمین‌گرهای قوی، قابل نگهداری و قابل استفاده مجدد ایجاد کنید که به‌طور یکپارچه با اکوسیستم scikit-learn ادغام می‌شوند. این که آیا شما در حال پیاده‌سازی الگوریتم‌های جدید هستید، سفارشی‌سازی موارد موجود یا ادغام با کتابخانه‌های خارجی، تخمین‌گرهای سفارشی یک ابزار قدرتمند برای مقابله با مشکلات یادگیری ماشین پیچیده ارائه می‌دهند.

به یاد داشته باشید که تخمین‌گرهای سفارشی خود را به طور کامل آزمایش و مستند کنید تا از کیفیت و قابلیت استفاده آنها اطمینان حاصل کنید. با درک جامعی از API scikit-learn و کمی خلاقیت، می‌توانید از تخمین‌گرهای سفارشی برای ساخت راه‌حل‌های یادگیری ماشینی پیچیده متناسب با نیازهای خاص خود استفاده کنید. موفق باشید!