20. september 2025Eesti

Siit saate teada, kuidas luua scikit-learnis kohandatud hindajaid, et laiendada selle funktsionaalsust ja rakendada oma masinõppe algoritme. See juhend

Pythoni Scikit-learni Kohandatud Hindajad: Põhjalik Juhend Algoritmide Rakendamiseks

Scikit-learn on võimas ja laialt kasutatav Pythoni teek masinõppe jaoks. Kuigi see pakub laia valikut eelnevalt ehitatud algoritme, on olukordi, kus peate rakendama oma kohandatud algoritme. Õnneks pakub scikit-learn paindlikku raamistikku kohandatud hindajate loomiseks, võimaldades teil oma algoritme sujuvalt scikit-learni ökosüsteemi integreerida. See põhjalik juhend juhendab teid kohandatud hindajate loomise protsessi, alates põhitõdede mõistmisest kuni täiustatud tehnikate rakendamiseni. Samuti uurime reaalseid näiteid, et illustreerida kohandatud hindajate praktilisi rakendusi.

Miks Luua Kohandatud Hindajaid?

Enne rakendamise üksikasjadesse süvenemist mõistame, miks võiksite luua kohandatud hindajaid:

Uute Algoritmide Rakendamine: Scikit-learn ei kata kõiki võimalikke masinõppe algoritme. Kui olete välja töötanud uue algoritmi või soovite rakendada teadusartiklit, on kohandatud hindaja loomine õige tee.
Olemasolevate Algoritmide Kohandamine: Võiksite soovida muuta olemasolevat scikit-learni algoritmi, et see paremini teie konkreetsetele vajadustele sobiks. Kohandatud hindajad võimaldavad teil laiendada või kohandada olemasolevat funktsionaalsust.
Integreerimine Väliste Teekidega: Võiksite soovida kasutada teiste Pythoni teekide algoritme, mis ei ühildu otseselt scikit-learniga. Kohandatud hindajad pakuvad silda nende teekide ja scikit-learni API vahel.
Koodi Taaskasutatavuse Suurendamine: Oma algoritmi kohandatud hindajasse kapseldades saate seda hõlpsasti erinevates projektides uuesti kasutada ja teistega jagada.
Torujuhtmete Integreerimise Parandamine: Kohandatud hindajad integreeruvad sujuvalt scikit-learni torujuhtmetega, võimaldades teil luua keerukaid masinõppe töövooge.

Scikit-learni Hindajate Põhitõdede Mõistmine

Põhimõtteliselt on scikit-learni hindaja Pythoni klass, mis rakendab fit ja predict meetodeid (ja mõnikord ka muid meetodeid, nagu transform või fit_transform). Need meetodid määravad hindaja käitumise treeningu ja ennustamise ajal. Hindajaid on kahte peamist tüüpi:

Transformaatorid: Need hindajad teisendavad andmeid ühest vormist teise. Näited hõlmavad StandardScaler, PCA ja OneHotEncoder. Nad rakendavad tavaliselt fit ja transform meetodeid.
Mudelid (Ennustajad): Need hindajad õpivad andmetest mudeli ja kasutavad seda ennustuste tegemiseks. Näited hõlmavad LinearRegression, DecisionTreeClassifier ja KMeans. Nad rakendavad tavaliselt fit ja predict meetodeid.

Mõlemad hindajate tüübid jagavad ühist API-d, mis võimaldab teil neid torujuhtmetes ja muudes scikit-learni tööriistades üksteisest sõltumatult kasutada.

Lihtsa Kohandatud Transformaatori Loomine

Alustame lihtsa kohandatud transformaatori näitega. See transformaator skaleerib iga tunnust konstantse teguriga. See transformaator on sarnane `StandardScaler`-iga, kuid lihtsam ja võimaldab määrata kohandatud skaalateguri.

            
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class FeatureScaler(BaseEstimator, TransformerMixin):
    def __init__(self, factor=1.0):
        self.factor = factor

    def fit(self, X, y=None):
        # Selle transformaatori jaoks pole sobivust vaja
        return self

    def transform(self, X):
        return X * self.factor

Siin on koodi jaotus:

Päritavus: Me pärivame BaseEstimator ja TransformerMixin. BaseEstimator pakub põhilist funktsionaalsust, nagu get_params ja set_params, samas kui TransformerMixin pakub vaikimisi fit_transform implementatsiooni (mis kutsub fit ja seejärel transform).
__init__: See on konstruktor. See võtab skaalateguri argumendina ja salvestab selle self.factor atribuuti. Oluline on määrata oma hindaja parameetrid konstruktoris.
fit: Seda meetodit kutsutakse, et sobida transformaatoriga andmetega. Sel juhul me ei pea andmetest midagi õppima, seega tagastame lihtsalt self. y argumenti transformaatorite puhul sageli ei kasutata, kuid see on nõutav scikit-learni API-ga ühilduvuse tagamiseks.
transform: Seda meetodit kutsutakse andmete teisendamiseks. Lihtsalt korrutame iga tunnust skaalateguriga.

Nüüd vaatame, kuidas seda kohandatud transformaatorit kasutada:

            
# Näitekasutus
from sklearn.pipeline import Pipeline

X = np.array([[1, 2], [3, 4], [5, 6]])

# Looge FeatureScaler teguriga 2.0
scaler = FeatureScaler(factor=2.0)

# Andmete teisendamine
X_transformed = scaler.transform(X)

print(X_transformed)
# Väljund:
# [[ 2.  4.]
#  [ 6.  8.]
#  [10. 12.]]

# Kasutamine torusüsteemis
pipe = Pipeline([('scaler', FeatureScaler(factor=3.0))])
X_transformed_pipeline = pipe.fit_transform(X)
print(X_transformed_pipeline)
# Väljund:
# [[ 3.  6.]
#  [ 9. 12.]
#  [15. 18.]]

Lihtsa Kohandatud Mudeli (Ennustaja) Loomine

Järgmisena loome lihtsa kohandatud mudeli. See mudel ennustab treeningandmete keskmist kõigi tulevaste ennustuste jaoks. Kuigi see pole eriti kasulik, demonstreerib see kohandatud ennustaja põhistruktuuri.

            
from sklearn.base import BaseEstimator, RegressorMixin
import numpy as np

class MeanPredictor(BaseEstimator, RegressorMixin):
    def __init__(self):
        self.mean_ = None

    def fit(self, X, y):
        self.mean_ = np.mean(y)
        return self

    def predict(self, X):
        return np.full(X.shape[0], self.mean_)

Siin on koodi jaotus:

Päritavus: Me pärivame BaseEstimator ja RegressorMixin. RegressorMixin pakub regressiooniga seotud meetodite vaikimisi implementatsioone (kuigi me ei kasuta neid selles näites).
__init__: Algatame self.mean_ väärtuseks None. See atribuut salvestab sihtmuutuja keskmise pärast sobivust.
fit: See meetod arvutab sihtmuutuja y keskmise ja salvestab selle self.mean_.
predict: See meetod tagastab massiivi, mille pikkus on sama mis sisendandmetel X, kus iga element on võrdne salvestatud keskmisega.

Nüüd vaatame, kuidas seda kohandatud mudelit kasutada:

            
# Näitekasutus
X = np.array([[1], [2], [3]])
y = np.array([10, 20, 30])

# Looge MeanPredictor
predictor = MeanPredictor()

# Sobitage mudel
predictor.fit(X, y)

# Ennustage uute andmete kohta
X_new = np.array([[4], [5], [6]])
y_pred = predictor.predict(X_new)

print(y_pred)
# Väljund:
# [20. 20. 20.]

Parameetrite Valideerimise Rakendamine

On ülioluline valideerida oma kohandatud hindajatele edastatud parameetreid. See aitab vältida ootamatut käitumist ja pakub kasutajatele informatiivseid veateateid. Saate kasutada funktsiooni check_estimatorsklearn.utils.estimator_checks automaatselt teie hindajat levinud kontrollide suhtes testima.

Kõigepealt muudame FeatureScaleri, et lisada parameetrite valideerimine:

            
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.utils import validation

class FeatureScaler(BaseEstimator, TransformerMixin):
    def __init__(self, factor=1.0):
        self.factor = factor

    def fit(self, X, y=None):
        # Valideerige sisend
        self.factor = validation.check_scalar(
            self.factor,
            'factor',
            target_type=float,
            min_val=0.0,
            include_boundaries=True
        )
        return self

    def transform(self, X):
        validation.check_is_fitted(self)
        X = validation.check_array(X)
        return X * self.factor

Siin on see, mida oleme lisanud:

validation.check_scalar: Kasutame seda funktsiooni fit meetodis, et valideerida, et factor parameeter on nullist suurem või sellega võrdne float.
validation.check_is_fitted: Kasutame seda funktsiooni `transform` meetodis, et tagada, et hindajat on enne andmete teisendamist sobivaks tehtud.
validation.check_array: Kasutame seda funktsiooni, et valideerida, et sisend `X` on kehtiv massiiv.

Nüüd kasutame meie hindaja testimiseks check_estimator:

            
from sklearn.utils.estimator_checks import check_estimator

# Tehke kontrolle
check_estimator(FeatureScaler)

Kui teie hindajal on probleeme (nt valed parameetritüübid või puuduvad meetodid), tekitab check_estimator vea. See on võimas tööriist, et tagada, et teie kohandatud hindajad järgivad scikit-learni API-d.

Hüperparameetrite Käsitsemine GridSearchCV abil

Üks peamisi eeliseid kohandatud hindajate loomisel on see, et saate neid kasutada scikit-learni hüperparameetrite optimeerimise tööriistadega, nagu GridSearchCV ja RandomizedSearchCV. Et muuta teie hindaja nende tööriistadega ühilduvaks, peate tagama, et selle parameetrid on ligipääsetavad ja muudetavad. Seda tavaliselt tänu `BaseEstimator` klassile automaatselt käsitletakse.

Demonstreerime seda FeatureScaleriga. Kasutame optimaalse skaalateguri leidmiseks GridSearchCVi:

            
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
import numpy as np

# Looge torujuhe koos FeatureScaleriga
pipe = Pipeline([('scaler', FeatureScaler())])

# Määrake parameetrite ruudustik
param_grid = {'scaler__factor': [0.5, 1.0, 1.5, 2.0]}

# Looge GridSearchCV objekt
grid_search = GridSearchCV(pipe, param_grid, cv=3, scoring='r2') # Kasutame näite hindamismeetrikana R^2.

# Looge näiteandmed
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([2, 4, 6, 8, 10])

# Tehke ruudustiku otsing sobivaks
grid_search.fit(X, y)

# Prindige parimad parameetrid ja skoor
print("Parimad parameetrid:", grid_search.best_params_)
print("Parim skoor:", grid_search.best_score_)

Selles näites määrame parameetrite ruudustiku, mis määratleb otsitavad factor parameetri väärtused. GridSearchCV seejärel hindab torujuhtme iga parameetrite kombinatsiooniga ja tagastab parima tulemuse. Pange tähele `scaler__factor` nimekonventsiooni, et pääseda juurde torujuhtme etappide parameetritele.

Täiustatud Tehnikad: Keeruliste Andmetüüpide ja Puuduvate Väärtuste Käsitsemine

Kohandatud hindajaid saab kasutada ka keeruliste andmetüüpide ja puuduvate väärtuste käsitlemiseks. Näiteks võiksite luua transformaatori, mis täidab puuduvad väärtused domeenispetsiifilise strateegia abil või teisendab kategoorilised tunnused numbrilisteks esitusteks. Võti on hoolikalt kaaluda oma andmete konkreetseid nõudeid ja rakendada sobiv loogika fit ja transform meetodites.

Vaatame näidet kohandatud transformaatori kohta, mis täidab puuduvad väärtused mediaani abil:

            
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class MedianImputer(BaseEstimator, TransformerMixin):
    def __init__(self):
        self.median_ = None

    def fit(self, X, y=None):
        # Arvutage iga veeru mediaan
        self.median_ = np.nanmedian(X, axis=0)
        return self

    def transform(self, X):
        # Täitke puuduvad väärtused mediaaniga
        X_imputed = np.where(np.isnan(X), self.median_, X)
        return X_imputed

Selles näites arvutab fit meetod iga sisendandmete veeru mediaani, jättes puuduvad väärtused (np.nan) arvesse võtmata. Seejärel asendab transform meetod kõik sisendandmete puuduvad väärtused vastava mediaaniga.

Siin on, kuidas seda kasutada:

            
# Näitekasutus
X = np.array([[1, 2, np.nan], [3, np.nan, 5], [np.nan, 4, 6]])

# Looge MedianImputer
imputer = MedianImputer()

# Sobitage imputer
imputer.fit(X)

# Andmete teisendamine
X_imputed = imputer.transform(X)

print(X_imputed)
# Väljund:
# [[1.  2.  5.5]
#  [3.  4.  5. ]
#  [2.  4.  6. ]]

Reaalse Maailma Näited ja Kasutusjuhtumid

Uurime mõningaid reaalseid näiteid, kus kohandatud hindajad võivad olla eriti kasulikud:

Ajaseeria Tunnuste Loomine: Võiksite luua kohandatud transformaatori, mis ekstraheerib ajaseeria andmetest tunnuseid, nagu liitstatistika või viivitatud väärtused. Näiteks finantsturgudel saate luua hindaja, mis arvutab aktsiahindade keskmise liikuva keskmise ja standardhälbe kindla akna jooksul. Seda hindajat saab seejärel kasutada torusüsteemis tulevaste aktsiahindade ennustamiseks. Akna suurust võiks `GridSearchCV` abil optimeerida.
Loodusliku Keele Töötlus (NLP): Võiksite luua kohandatud transformaatori, mis teostab tekstipuhastust või tunnuste ekstraheerimist, kasutades tehnikaid, mis pole scikit-learnis otseselt saadaval. Näiteks võiksite soovida rakendada kohandatud tüübijat või lemmakku, mis on kohandatud konkreetsele keelele või domeenile. Samuti võiksite integreerida väliseid teeke, nagu NLTK või spaCy, oma kohandatud hindaja sisse.
Pilditöötlus:Võiksite luua kohandatud transformaatori, mis rakendab konkreetseid pilditöötluse toiminguid, nagu filtreerimine või servade tuvastamine, enne piltide masinõppe mudelisse söötmist. See võib hõlmata integratsiooni teekidega nagu OpenCV või scikit-image. Näiteks hindaja võib meditsiiniliste piltide heleduse ja kontrasti normaliseerida enne kasvajate tuvastamise mudeli treenimist.
Soovitussüsteemid: Saate luua kohandatud hindaja, mis rakendab koostöölise filtreerimise algoritme, nagu maatriksi tegurdamist, et luua isikupäraseid soovitusi. See võib hõlmata integratsiooni teekidega nagu Surprise või implicit. Näiteks võib filmisoovituste süsteem kasutada kohandatud hindajat kasutaja hinnangute ennustamiseks nende varasemate eelistuste ja teiste kasutajate hinnangute põhjal.
Georuumiandmete Analüüs: Looge kohandatud transformaatoreid, et töötada asukohaandmetega. See võib hõlmata punktide vaheliste kauguste arvutamist, ruumiliste ühenduste tegemist või funktsioonide eraldamist geograafilistest kujunditest. Näiteks võite arvutada iga kliendi kauguse lähimast poekohast, et teavitada turundusstrateegiaid.

Parimad Tavad Kohandatud Hindajate Loomiseks

Et tagada oma kohandatud hindajate robustsus, hooldatavus ja scikit-learniga ühilduvus, järgige neid parimaid tavasid:

Päri BaseEstimator ja Sobivast Mixinist: See pakub põhilist funktsionaalsust ja tagab ühilduvuse scikit-learni API-ga.
Rakendage __init__, fit ja transform (või predict): Need meetodid on teie hindaja tuumaks.
Valideerige Sisendparameetrid: Kasutage sklearn.utils.validation, et valideerida oma hindajale edastatud parameetreid.
Käsitsege Puuduvate Väärtusi Sobivalt: Otsustage, kuidas teie hindaja peaks puuduvate väärtusi käsitlema, ja rakendage sobiv loogika.
Dokumenteerige Oma Koodi: Pakkuge oma hindaja jaoks selget ja lühikest dokumentatsiooni, sealhulgas selle eesmärki, parameetreid ja kasutusviisi. Järgige järjepidevuse tagamiseks NumPy/SciPy konventsioonile vastavaid docstringe.
Testige Oma Koodi: Kasutage sklearn.utils.estimator_checks, et testida oma hindajat levinud kontrollide suhtes. Samuti kirjutage ühikutestid, et kontrollida, kas teie hindaja töötab õigesti.
Järgige Scikit-learni Konventsioone: Järgige scikit-learni kodeerimisstiili ja API konventsioone, et tagada järjepidevus ja hooldatavus.
Kaaluge Dekoraatorite Kasutamist: Vajaduse korral kasutage parameetrite valideerimise lihtsustamiseks dekoraatoreid nagu @validate_arguments teekidest nagu `typing-extensions`.

Järeldus

Kohandatud hindajate loomine scikit-learnis võimaldab teil laiendada selle funktsionaalsust ja rakendada oma masinõppe algoritme. Järgides selles juhendis esitatud juhiseid ja parimaid tavasid, saate luua robustseid, hooldatavaid ja taaskasutatavaid hindajaid, mis integreeruvad sujuvalt scikit-learni ökosüsteemiga. Olenemata sellest, kas rakendate uusi algoritme, kohandate olemasolevaid või integreerite väliseid teeke, pakuvad kohandatud hindajad võimsat tööriista keeruliste masinõppe probleemide lahendamiseks.

Pidage meeles oma kohandatud hindajate põhjalikku testimist ja dokumenteerimist, et tagada nende kvaliteet ja kasutatavus. Scikit-learni API kindla arusaama ja väikese loovusega saate kasutada kohandatud hindajaid, et luua keerukaid masinõppe lahendusi, mis on kohandatud teie konkreetsetele vajadustele. Edu!