இயந்திர கற்றல் மாடல் பயிற்சிக்கான ஒரு விரிவான வழிகாட்டி. இது தரவு தயாரிப்பு, அல்காரிதம் தேர்வு, மற்றும் உலகளாவிய வரிசைப்படுத்தல் உத்திகளை உள்ளடக்கியது.
இயந்திர கற்றல் மாடல் பயிற்சியில் தேர்ச்சி பெறுதல்: ஒரு உலகளாவிய வழிகாட்டி
இயந்திர கற்றல் (ML) ஜப்பானில் சுகாதாரம் முதல் அமெரிக்காவில் நிதி மற்றும் பிரேசிலில் விவசாயம் வரை உலகெங்கிலும் உள்ள தொழில்துறைகளை மாற்றி வருகிறது. ஒவ்வொரு வெற்றிகரமான ML பயன்பாட்டின் மையத்திலும் நன்கு பயிற்சி பெற்ற ஒரு மாடல் உள்ளது. இந்த வழிகாட்டி, மாடல் பயிற்சி செயல்முறையின் விரிவான கண்ணோட்டத்தை வழங்குகிறது, இது அனைத்து நிலை பயிற்சியாளர்களுக்கும், அவர்களின் புவியியல் இருப்பிடம் அல்லது தொழில்துறையைப் பொருட்படுத்தாமல் பொருத்தமானது.
1. இயந்திர கற்றல் பைப்லைனைப் புரிந்துகொள்ளுதல்
மாடல் பயிற்சியின் பிரத்தியேகங்களுக்குள் செல்வதற்கு முன், இயந்திர கற்றல் பைப்லைனின் பரந்த சூழலைப் புரிந்துகொள்வது முக்கியம். இந்த பைப்லைன் பொதுவாக பின்வரும் நிலைகளைக் கொண்டுள்ளது:
- தரவு சேகரிப்பு: பல்வேறு மூலங்களிலிருந்து மூலத் தரவைச் சேகரித்தல்.
- தரவு தயாரிப்பு: மாடல் பயிற்சிக்காக தரவை சுத்தம் செய்தல், மாற்றுதல் மற்றும் தயாரித்தல். இது பெரும்பாலும் அதிக நேரம் எடுக்கும் ஆனால் மிக முக்கியமான கட்டமாகும்.
- மாடல் தேர்வு: சிக்கலின் வகை மற்றும் தரவின் பண்புகளின் அடிப்படையில் பொருத்தமான ML அல்காரிதத்தைத் தேர்ந்தெடுப்பது.
- மாடல் பயிற்சி: வடிவங்களையும் உறவுகளையும் கற்றுக்கொள்ள, தயாரிக்கப்பட்ட தரவுகளில் தேர்ந்தெடுக்கப்பட்ட அல்காரிதத்தைப் பயிற்றுவித்தல்.
- மாடல் மதிப்பீடு: பொருத்தமான அளவீடுகளைப் பயன்படுத்தி மாடலின் செயல்திறனை மதிப்பிடுதல்.
- மாடல் வரிசைப்படுத்தல்: பயிற்சி பெற்ற மாடலை ஒரு உற்பத்திச் சூழலில் ஒருங்கிணைத்தல்.
- மாடல் கண்காணிப்பு: மாடலின் செயல்திறனைத் தொடர்ந்து கண்காணித்து, தேவைக்கேற்ப மீண்டும் பயிற்சி அளித்தல்.
2. தரவு தயாரிப்பு: வெற்றிகரமான மாடல் பயிற்சியின் அடித்தளம்
"குப்பையை உள்ளே அனுப்பினால், குப்பைதான் வெளியே வரும்" என்பது இயந்திர கற்றல் உலகில் நன்கு அறியப்பட்ட ஒரு பழமொழி. உங்கள் தரவின் தரம் உங்கள் மாடலின் செயல்திறனை நேரடியாக பாதிக்கிறது. முக்கிய தரவு தயாரிப்பு படிகள் பின்வருமாறு:
2.1 தரவு சுத்தம் செய்தல்
இது உங்கள் தரவில் உள்ள விடுபட்ட மதிப்புகள், வெளிப்படு மதிப்புகள் (outliers) மற்றும் முரண்பாடுகளைக் கையாள்வதை உள்ளடக்கியது. பொதுவான நுட்பங்கள் பின்வருமாறு:
- இடைசெருகல் (Imputation): விடுபட்ட மதிப்புகளை சராசரி, இடைநிலை அல்லது மோடு போன்ற புள்ளிவிவர அளவீடுகளுடன் மாற்றுதல். உதாரணமாக, வாடிக்கையாளர் வயதுகளின் தரவுத்தொகுப்பில், விடுபட்ட மதிப்புகளை அறியப்பட்ட வாடிக்கையாளர்களின் சராசரி வயதுடன் மாற்றலாம். k-அருகாமை அண்டை (k-Nearest Neighbors) அல்லது இயந்திர கற்றல் மாடல்களைப் பயன்படுத்தி விடுபட்ட மதிப்புகளைக் கணிப்பது போன்ற அதிநவீன முறைகளும் உள்ளன.
- வெளிப்படு மதிப்புகளை அகற்றுதல் (Outlier Removal): மாடலின் கற்றலைத் திசைதிருப்பக்கூடிய தீவிர மதிப்புகளை அடையாளம் கண்டு அகற்றுதல் அல்லது மாற்றுதல். Z-மதிப்பெண்கள், IQR (இடைப்பட்ட வரம்பு) அல்லது கள அறிவைப் பயன்படுத்தி வெளிப்படு மதிப்புகளை வரையறுக்கும் நுட்பங்கள் உள்ளன. உதாரணமாக, நீங்கள் பரிவர்த்தனைத் தரவை பகுப்பாய்வு செய்தால், சராசரியை விட கணிசமாக அதிக பரிவர்த்தனைத் தொகை ஒரு வெளிப்படு மதிப்பாக இருக்கலாம்.
- தரவு வகை மாற்றம்: பகுப்பாய்விற்கு தரவு வகைகள் பொருத்தமானவை என்பதை உறுதி செய்தல். உதாரணமாக, தேதிகளை ஸ்டிரிங் வடிவத்திலிருந்து தேதிநேர பொருட்களாக மாற்றுவது அல்லது வகைப்படுத்தப்பட்ட மாறிகளை எண் பிரதிநிதித்துவங்களாக குறியாக்கம் செய்வது.
2.2 தரவு மாற்றம்
இது மாடல் செயல்திறனை மேம்படுத்த உங்கள் தரவை அளவிடுதல், இயல்பாக்குதல் மற்றும் மாற்றுதல் ஆகியவற்றை உள்ளடக்கியது. பொதுவான நுட்பங்கள் பின்வருமாறு:
- அளவிடுதல் (Scaling): எண் அம்சங்களை ஒரு குறிப்பிட்ட வரம்பிற்கு (எ.கா., 0 முதல் 1 வரை) மறுஅளவிடுதல். பொதுவான அளவிடுதல் முறைகளில் MinMaxScaler மற்றும் StandardScaler ஆகியவை அடங்கும். உதாரணமாக, உங்களிடம் மிகவும் மாறுபட்ட அளவீடுகளைக் கொண்ட அம்சங்கள் இருந்தால் (எ.கா., USD இல் வருமானம் மற்றும் அனுபவ ஆண்டுகள்), அளவிடுதல் ஒரு அம்சம் மற்றொன்றை ஆதிக்கம் செலுத்துவதைத் தடுக்கலாம்.
- இயல்பாக்குதல் (Normalization): தரவை ஒரு நிலையான இயல்புப் பரவலைக் (சராசரி 0 மற்றும் திட்ட விலக்கம் 1) கொண்டிருக்குமாறு மாற்றுதல். இது லீனியர் ரெக்ரஷன் போன்ற இயல்புப் பரவலை அனுமானிக்கும் அல்காரிதம்களுக்கு நன்மை பயக்கும்.
- அம்சப் பொறியியல் (Feature Engineering): மாடல் துல்லியத்தை மேம்படுத்த ஏற்கனவே உள்ள அம்சங்களிலிருந்து புதிய அம்சங்களை உருவாக்குதல். இது பல அம்சங்களை இணைத்தல், தொடர்பு விதிமுறைகளை உருவாக்குதல் அல்லது உரை அல்லது தேதிகளிலிருந்து தொடர்புடைய தகவல்களைப் பிரித்தெடுத்தல் ஆகியவற்றை உள்ளடக்கியிருக்கலாம். உதாரணமாக, இரண்டு ஏற்கனவே உள்ள அம்சங்களின் விகிதத்தைக் குறிக்கும் ஒரு புதிய அம்சத்தை நீங்கள் உருவாக்கலாம் அல்லது ஒரு தேதி அம்சத்திலிருந்து வாரத்தின் நாளைப் பிரித்தெடுக்கலாம்.
- வகைப்படுத்தப்பட்ட மாறிகளை குறியாக்கம் செய்தல் (Encoding Categorical Variables): வகைப்படுத்தப்பட்ட அம்சங்களை இயந்திர கற்றல் அல்காரிதம்கள் புரிந்துகொள்ளக்கூடிய எண் பிரதிநிதித்துவங்களாக மாற்றுதல். பொதுவான குறியாக்க முறைகளில் ஒன்-ஹாட் குறியாக்கம், லேபிள் குறியாக்கம் மற்றும் இலக்கு குறியாக்கம் ஆகியவை அடங்கும். தரவின் சூழலைக் கருத்தில் கொள்ளுங்கள். வரிசை தரவுகளுக்கு (எ.கா., மதிப்பீட்டு அளவுகள்), லேபிள் குறியாக்கம் சிறப்பாகச் செயல்படலாம், அதே சமயம் பெயரளவு தரவுகளுக்கு (எ.கா., நாட்டின் பெயர்கள்), ஒன்-ஹாட் குறியாக்கம் பொதுவாக விரும்பப்படுகிறது.
2.3 தரவு பிரித்தல்
உங்கள் தரவை பயிற்சி, சரிபார்ப்பு மற்றும் சோதனைத் தொகுப்புகளாகப் பிரிப்பது மாடல் செயல்திறனை மதிப்பிடுவதற்கும் ஓவர்ஃபிட்டிங்கைத் தடுப்பதற்கும் முக்கியமானது.
- பயிற்சித் தொகுப்பு (Training Set): இயந்திர கற்றல் மாடலைப் பயிற்றுவிக்கப் பயன்படுகிறது.
- சரிபார்ப்புத் தொகுப்பு (Validation Set): ஹைப்பர்பராமீட்டர்களை சரிசெய்யவும், பயிற்சியின் போது மாடல் செயல்திறனை மதிப்பிடவும் பயன்படுகிறது. இது ஓவர்ஃபிட்டிங்கைத் தடுக்க உதவுகிறது.
- சோதனைத் தொகுப்பு (Test Set): பயிற்சி பெற்ற மாடலின் இறுதி செயல்திறனை காணப்படாத தரவுகளில் மதிப்பிடப் பயன்படுகிறது. இது மாடல் ஒரு உற்பத்திச் சூழலில் எவ்வாறு செயல்படும் என்பதற்கான ஒரு சார்பற்ற மதிப்பீட்டை வழங்குகிறது.
3. அல்காரிதம் தேர்வு: வேலைக்கு சரியான கருவியைத் தேர்ந்தெடுப்பது
அல்காரிதத்தின் தேர்வு நீங்கள் தீர்க்க முயற்சிக்கும் சிக்கலின் வகையைப் (எ.கா., வகைப்படுத்தல், பின்னடைவு, கொத்தாக்கம்) மற்றும் உங்கள் தரவின் பண்புகளைப் பொறுத்தது. பொதுவாகப் பயன்படுத்தப்படும் சில அல்காரிதம்கள் இங்கே:
3.1 ரெக்ரஷன் அல்காரிதம்கள்
- லீனியர் ரெக்ரஷன்: ஒன்று அல்லது அதற்கு மேற்பட்ட முன்னறிவிப்பு மாறிகளுடன் ஒரு நேரியல் உறவின் அடிப்படையில் ஒரு தொடர்ச்சியான இலக்கு மாறியைக் கணிக்கப் பயன்படுகிறது.
- பாலினோமியல் ரெக்ரஷன்: ஒன்று அல்லது அதற்கு மேற்பட்ட முன்னறிவிப்பு மாறிகளுடன் ஒரு பல்லுறுப்புக்கோவை உறவின் அடிப்படையில் ஒரு தொடர்ச்சியான இலக்கு மாறியைக் கணிக்கப் பயன்படுகிறது.
- சப்போர்ட் வெக்டர் ரெக்ரஷன் (SVR): சப்போர்ட் வெக்டர் மெஷின்களைப் பயன்படுத்தி ஒரு தொடர்ச்சியான இலக்கு மாறியைக் கணிக்கப் பயன்படுகிறது.
- டெசிஷன் ட்ரீ ரெக்ரஷன்: அம்ச இடத்தை சிறிய பகுதிகளாகப் பிரித்து ஒவ்வொரு பகுதிக்கும் ஒரு நிலையான மதிப்பைக் கொடுப்பதன் மூலம் ஒரு தொடர்ச்சியான இலக்கு மாறியைக் கணிக்கப் பயன்படுகிறது.
- ரேண்டம் ஃபாரஸ்ட் ரெக்ரஷன்: கணிப்புத் துல்லியத்தை மேம்படுத்த பல டெசிஷன் ட்ரீக்களை இணைக்கும் ஒரு குழு கற்றல் முறை.
3.2 கிளாசிஃபிகேஷன் அல்காரிதம்கள்
- லாஜிஸ்டிக் ரெக்ரஷன்: முன்னறிவிப்பு மாறிகளின் நேரியல் கலவையின் அடிப்படையில் ஒரு பைனரி இலக்கு மாறியைக் கணிக்கப் பயன்படுகிறது.
- சப்போர்ட் வெக்டர் மெஷின்கள் (SVM): வெவ்வேறு வகுப்புகளைப் பிரிக்கும் உகந்த ஹைப்பர்பிளேனைக் கண்டுபிடிப்பதன் மூலம் தரவுப் புள்ளிகளை வகைப்படுத்தப் பயன்படுகிறது.
- டெசிஷன் ட்ரீ கிளாசிஃபிகேஷன்: அம்ச இடத்தை சிறிய பகுதிகளாகப் பிரித்து ஒவ்வொரு பகுதிக்கும் ஒரு வகுப்பு லேபிளைக் கொடுப்பதன் மூலம் தரவுப் புள்ளிகளை வகைப்படுத்தப் பயன்படுகிறது.
- ரேண்டம் ஃபாரஸ்ட் கிளாசிஃபிகேஷன்: வகைப்படுத்தல் துல்லியத்தை மேம்படுத்த பல டெசிஷன் ட்ரீக்களை இணைக்கும் ஒரு குழு கற்றல் முறை.
- நேவ் பேய்ஸ்: அம்சங்களுக்கு இடையில் வலுவான சுதந்திர அனுமானங்களுடன் பேய்ஸ் தேற்றத்தைப் பயன்படுத்தும் ஒரு நிகழ்தகவு வகைப்படுத்தி.
- K-அருகாமை அண்டை (KNN): அம்ச இடத்தில் அவற்றின் k-அருகாமை அண்டைகளின் பெரும்பான்மை வகுப்பின் அடிப்படையில் தரவுப் புள்ளிகளை வகைப்படுத்துகிறது.
3.3 கிளஸ்டரிங் அல்காரிதம்கள்
- K-மீன்ஸ் கிளஸ்டரிங்: தரவுப் புள்ளிகளை k கிளஸ்டர்களாகப் பிரிக்கிறது, அங்கு ஒவ்வொரு தரவுப் புள்ளியும் அருகிலுள்ள சராசரி (சென்ட்ராய்டு) கொண்ட கிளஸ்டருக்கு சொந்தமானது.
- படிநிலை கிளஸ்டரிங்: கிளஸ்டர்களின் ஒற்றுமையின் அடிப்படையில் அவற்றை மீண்டும் மீண்டும் இணைப்பதன் மூலம் அல்லது பிரிப்பதன் மூலம் கிளஸ்டர்களின் ஒரு படிநிலையை உருவாக்குகிறது.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise): நெருக்கமாக நிரம்பியிருக்கும் தரவுப் புள்ளிகளை ஒன்றாகக் குழுவாக்குகிறது, குறைந்த அடர்த்திப் பகுதிகளில் தனியாக இருக்கும் புள்ளிகளை வெளிப்படு மதிப்புகளாகக் குறிக்கிறது.
ஒரு அல்காரிதத்தைத் தேர்ந்தெடுக்கும்போது, உங்கள் தரவுத்தொகுப்பின் அளவு, மாறிகளுக்கு இடையிலான உறவுகளின் சிக்கலான தன்மை மற்றும் மாடலின் விளக்கத்திறன் போன்ற காரணிகளைக் கருத்தில் கொள்ளுங்கள். உதாரணமாக, லீனியர் ரெக்ரஷன் விளக்குவதற்கு எளிதானது ஆனால் சிக்கலான நேரியல் அல்லாத உறவுகளுக்குப் பொருத்தமானதாக இருக்காது. ரேண்டம் ஃபாரஸ்ட்கள் மற்றும் கிரேடியன்ட் பூஸ்டிங் மெஷின்கள் (GBM) பெரும்பாலும் அதிக துல்லியத்தை வழங்குகின்றன, ஆனால் அதிக கணக்கீட்டுச் செலவு மற்றும் விளக்குவதற்கு கடினமாக இருக்கலாம்.
4. மாடல் பயிற்சி: தரவிலிருந்து கற்றல் கலை
மாடல் பயிற்சி என்பது தயாரிக்கப்பட்ட தரவை தேர்ந்தெடுக்கப்பட்ட அல்காரிதத்திற்கு அளித்து, அது வடிவங்களையும் உறவுகளையும் கற்றுக்கொள்ள அனுமதிப்பதை உள்ளடக்கியது. பயிற்சி செயல்முறை பொதுவாக பின்வரும் படிகளை உள்ளடக்கியது:
- துவக்கம் (Initialization): மாடலின் அளவுருக்களை (எ.கா., எடைகள் மற்றும் சார்புகள்) துவக்குதல்.
- முன்னோக்கு பரவல் (Forward Propagation): கணிப்புகளை உருவாக்க உள்ளீட்டுத் தரவை மாடல் வழியாக அனுப்புதல்.
- இழப்பு கணக்கீடு (Loss Calculation): ஒரு இழப்புச் சார்பைப் பயன்படுத்தி மாடலின் கணிப்புகளுக்கும் உண்மையான இலக்கு மதிப்புகளுக்கும் இடையிலான வேறுபாட்டைக் கணக்கிடுதல். பொதுவான இழப்புச் சார்புகளில் ரெக்ரஷனுக்கான சராசரி வர்க்கப் பிழை (MSE) மற்றும் வகைப்படுத்தலுக்கான கிராஸ்-என்ட்ரோபி இழப்பு ஆகியவை அடங்கும்.
- பின்னோக்கு பரவல் (Backpropagation): மாடலின் அளவுருக்களைப் பொறுத்து இழப்புச் சார்பின் கிரேடியன்ட்களைக் கணக்கிடுதல்.
- அளவுரு புதுப்பித்தல் (Parameter Update): ஒரு தேர்வுமுறை அல்காரிதத்தைப் (எ.கா., கிரேடியன்ட் டெசண்ட், ஆடம்) பயன்படுத்தி கணக்கிடப்பட்ட கிரேடியன்ட்களின் அடிப்படையில் மாடலின் அளவுருக்களைப் புதுப்பித்தல்.
- மறுசெய்கை (Iteration): மாடல் ஒன்றிணையும் வரை அல்லது ஒரு முன்னரே தீர்மானிக்கப்பட்ட நிறுத்தும் அளவுகோலை அடையும் வரை 2-5 படிகளை பல மறுசெய்கைகளுக்கு (எபோக்ஸ்) மீண்டும் செய்தல்.
மாடல் பயிற்சியின் குறிக்கோள், இழப்புச் சார்பைக் குறைப்பதாகும், இது மாடலின் கணிப்புகளுக்கும் உண்மையான இலக்கு மதிப்புகளுக்கும் இடையிலான பிழையைக் குறிக்கிறது. தேர்வுமுறை அல்காரிதம் இழப்பைக் குறைக்க மாடலின் அளவுருக்களை மீண்டும் மீண்டும் சரிசெய்கிறது.
5. ஹைப்பர்பராமீட்டர் சரிசெய்தல்: மாடல் செயல்திறனை மேம்படுத்துதல்
ஹைப்பர்பராமீட்டர்கள் என்பவை தரவிலிருந்து கற்றுக்கொள்ளப்படாத ஆனால் பயிற்சிக்கு முன் அமைக்கப்படும் அளவுருக்கள் ஆகும். இந்த அளவுருக்கள் கற்றல் செயல்முறையைக் கட்டுப்படுத்துகின்றன மற்றும் மாடல் செயல்திறனில் குறிப்பிடத்தக்க தாக்கத்தை ஏற்படுத்தக்கூடும். ஹைப்பர்பராமீட்டர்களின் எடுத்துக்காட்டுகளில் கிரேடியன்ட் டெசண்ட்டில் கற்றல் விகிதம், ஒரு ரேண்டம் ஃபாரஸ்டில் உள்ள மரங்களின் எண்ணிக்கை மற்றும் லாஜிஸ்டிக் ரெக்ரஷனில் உள்ள ஒழுங்குபடுத்தல் வலிமை ஆகியவை அடங்கும்.
பொதுவான ஹைப்பர்பராமீட்டர் சரிசெய்தல் நுட்பங்கள் பின்வருமாறு:
- கட்டத் தேடல் (Grid Search): ஹைப்பர்பராமீட்டர் மதிப்புகளின் முன்னரே தீர்மானிக்கப்பட்ட கட்டத்தில் முழுமையாகத் தேடி, ஒவ்வொரு கலவைக்கும் மாடலின் செயல்திறனை மதிப்பிடுதல்.
- சீரற்ற தேடல் (Random Search): ஒரு முன்னரே தீர்மானிக்கப்பட்ட பரவலிலிருந்து ஹைப்பர்பராமீட்டர் மதிப்புகளை சீரற்ற முறையில் மாதிரி எடுத்து, ஒவ்வொரு கலவைக்கும் மாடலின் செயல்திறனை மதிப்பிடுதல்.
- பேசியன் தேர்வுமுறை (Bayesian Optimization): ஹைப்பர்பராமீட்டர்களுக்கும் மாடல் செயல்திறனுக்கும் இடையிலான உறவை மாதிரியாக்க பேசியன் புள்ளிவிவரங்களைப் பயன்படுத்துதல், பின்னர் உகந்த ஹைப்பர்பராமீட்டர் மதிப்புகளைத் தேடுவதற்கு இந்த மாதிரியைப் பயன்படுத்துதல்.
- மரபணு அல்காரிதம்கள் (Genetic Algorithms): உகந்த ஹைப்பர்பராமீட்டர் மதிப்புகளைத் தேட பரிணாம அல்காரிதம்களைப் பயன்படுத்துதல்.
ஹைப்பர்பராமீட்டர் சரிசெய்தல் நுட்பத்தின் தேர்வு ஹைப்பர்பராமீட்டர் இடத்தின் சிக்கலான தன்மை மற்றும் கிடைக்கக்கூடிய கணக்கீட்டு வளங்களைப் பொறுத்தது. கட்டத் தேடல் சிறிய ஹைப்பர்பராமீட்டர் இடங்களுக்குப் பொருத்தமானது, அதே சமயம் சீரற்ற தேடல் மற்றும் பேசியன் தேர்வுமுறை பெரிய இடங்களுக்கு மிகவும் திறமையானவை. scikit-learn இல் GridSearchCV மற்றும் RandomizedSearchCV போன்ற கருவிகள் கட்டம் மற்றும் சீரற்ற தேடலை செயல்படுத்துவதை எளிதாக்குகின்றன.
6. மாடல் மதிப்பீடு: செயல்திறன் மற்றும் பொதுமைப்படுத்தலை மதிப்பிடுதல்
உங்கள் பயிற்சி பெற்ற மாடலின் செயல்திறனை மதிப்பிடுவதற்கும், அது காணப்படாத தரவுகளுக்கு நன்றாகப் பொதுமைப்படுத்துகிறது என்பதை உறுதி செய்வதற்கும் மாடல் மதிப்பீடு முக்கியமானது. பொதுவான மதிப்பீட்டு அளவீடுகள் பின்வருமாறு:
6.1 ரெக்ரஷன் அளவீடுகள்
- சராசரி வர்க்கப் பிழை (MSE): கணிக்கப்பட்ட மற்றும் உண்மையான மதிப்புகளுக்கு இடையிலான சராசரி வர்க்க வேறுபாடு.
- வேர் சராசரி வர்க்கப் பிழை (RMSE): MSE இன் வர்க்கமூலம், பிழையின் மிகவும் விளக்கக்கூடிய அளவை வழங்குகிறது.
- சராசரி முழுமையான பிழை (MAE): கணிக்கப்பட்ட மற்றும் உண்மையான மதிப்புகளுக்கு இடையிலான சராசரி முழுமையான வேறுபாடு.
- R-ஸ்கொயர் (நிர்ணயக் குணகம்): இலக்கு மாறியில் உள்ள மாறுபாட்டை மாடல் எவ்வளவு நன்றாக விளக்குகிறது என்பதற்கான ஒரு அளவீடு.
6.2 கிளாசிஃபிகேஷன் அளவீடுகள்
- துல்லியம் (Accuracy): சரியாக வகைப்படுத்தப்பட்ட நிகழ்வுகளின் விகிதம்.
- துல்லியத்தன்மை (Precision): கணிக்கப்பட்ட பாசிட்டிவ்களில் உண்மையான பாசிட்டிவ்களின் விகிதம்.
- மீட்டழைத்தல் (Recall): உண்மையான பாசிட்டிவ்களில் உண்மையான பாசிட்டிவ்களின் விகிதம்.
- F1-ஸ்கோர்: துல்லியத்தன்மை மற்றும் மீட்டழைத்தலின் ஹார்மோனிக் சராசரி.
- ROC வளைவின் கீழ் பகுதி (AUC-ROC): பாசிட்டிவ் மற்றும் நெகட்டிவ் வகுப்புகளுக்கு இடையில் வேறுபடுத்துவதற்கான மாடலின் திறனின் ஒரு அளவீடு.
- குழப்ப அணி (Confusion Matrix): உண்மையான பாசிட்டிவ்கள், உண்மையான நெகட்டிவ்கள், தவறான பாசிட்டிவ்கள் மற்றும் தவறான நெகட்டிவ்களின் எண்ணிக்கையைக் காட்டி ஒரு வகைப்படுத்தல் மாடலின் செயல்திறனை சுருக்கமாகக் கூறும் ஒரு அட்டவணை.
ஒரு ஒற்றை அளவீட்டில் மாடலை மதிப்பீடு செய்வதற்கு கூடுதலாக, சிக்கலின் சூழல் மற்றும் வெவ்வேறு அளவீடுகளுக்கு இடையிலான வர்த்தகங்களைக் கருத்தில் கொள்வது முக்கியம். உதாரணமாக, ஒரு மருத்துவ நோயறிதல் பயன்பாட்டில், சில தவறான பாசிட்டிவ்கள் இருந்தாலும், அனைத்து பாசிட்டிவ் வழக்குகளையும் அடையாளம் காண்பது முக்கியம் என்பதால், மீட்டழைத்தல் துல்லியத்தன்மையை விட முக்கியமானதாக இருக்கலாம்.
6.3 குறுக்கு சரிபார்ப்பு (Cross-Validation)
குறுக்கு சரிபார்ப்பு என்பது தரவை பல மடிப்புகளாகப் பிரித்து, வெவ்வேறு மடிப்புகளின் கலவைகளில் மாடலைப் பயிற்றுவித்து சோதிப்பதன் மூலம் மாடல் செயல்திறனை மதிப்பிடுவதற்கான ஒரு நுட்பமாகும். இது மாடலின் செயல்திறனின் மிகவும் வலுவான மதிப்பீட்டை வழங்க உதவுகிறது மற்றும் ஓவர்ஃபிட்டிங் அபாயத்தைக் குறைக்கிறது.
7. ஓவர்ஃபிட்டிங் மற்றும் அண்டர்ஃபிட்டிங்கை நிவர்த்தி செய்தல்
ஓவர்ஃபிட்டிங் என்பது ஒரு மாடல் பயிற்சித் தரவை மிக நன்றாகக் கற்றுக் கொண்டு, காணப்படாத தரவுகளுக்கு பொதுமைப்படுத்தத் தவறும்போது ஏற்படுகிறது. அண்டர்ஃபிட்டிங் என்பது ஒரு மாடல் மிகவும் எளிமையானதாக இருந்து, தரவில் உள்ள அடிப்படை வடிவங்களைக் கைப்பற்றத் தவறும்போது ஏற்படுகிறது.
7.1 ஓவர்ஃபிட்டிங்
ஓவர்ஃபிட்டிங்கை நிவர்த்தி செய்வதற்கான பொதுவான நுட்பங்கள் பின்வருமாறு:
- ஒழுங்குபடுத்துதல் (Regularization): சிக்கலான மாடல்களை ஊக்கப்படுத்த இழப்புச் சார்புக்கு ஒரு தண்டனைச் சொல்லைச் சேர்ப்பது. பொதுவான ஒழுங்குபடுத்தல் நுட்பங்களில் L1 ஒழுங்குபடுத்தல் (Lasso) மற்றும் L2 ஒழுங்குபடுத்தல் (Ridge) ஆகியவை அடங்கும்.
- டிராப்அவுட் (Dropout): மாடல் குறிப்பிட்ட அம்சங்களை அதிகம் சார்ந்து இருப்பதைத் தடுக்க, பயிற்சியின் போது நியூரான்களை சீரற்ற முறையில் கைவிடுதல்.
- முன்கூட்டியே நிறுத்துதல் (Early Stopping): ஒரு சரிபார்ப்புத் தொகுப்பில் மாடலின் செயல்திறனைக் கண்காணித்து, செயல்திறன் குறையத் தொடங்கும் போது பயிற்சியை நிறுத்துதல்.
- தரவு பெருக்குதல் (Data Augmentation): சுழற்சிகள், மொழிபெயர்ப்புகள் மற்றும் அளவிடுதல் போன்ற மாற்றங்கள் மூலம் செயற்கைத் தரவுப் புள்ளிகளை உருவாக்குவதன் மூலம் பயிற்சித் தரவின் அளவை அதிகரித்தல்.
- மாடலை எளிதாக்குதல்: குறைவான அளவுருக்கள் கொண்ட ஒரு எளிய மாடலைப் பயன்படுத்துதல்.
7.2 அண்டர்ஃபிட்டிங்
அண்டர்ஃபிட்டிங்கை நிவர்த்தி செய்வதற்கான பொதுவான நுட்பங்கள் பின்வருமாறு:
- மாடல் சிக்கலான தன்மையை அதிகரித்தல்: அதிக அளவுருக்கள் கொண்ட ஒரு சிக்கலான மாடலைப் பயன்படுத்துதல்.
- அம்சப் பொறியியல்: தரவில் உள்ள அடிப்படை வடிவங்களைக் கைப்பற்றும் புதிய அம்சங்களை உருவாக்குதல்.
- ஒழுங்குபடுத்தலைக் குறைத்தல்: மாடல் மேலும் சிக்கலான வடிவங்களைக் கற்றுக்கொள்ள அனுமதிக்க ஒழுங்குபடுத்தலின் வலிமையைக் குறைத்தல்.
- நீண்ட நேரம் பயிற்சி அளித்தல்: மாடலை அதிக மறுசெய்கைகளுக்குப் பயிற்சி அளித்தல்.
8. மாடல் வரிசைப்படுத்தல்: உங்கள் மாடலை செயல்பாட்டுக்குக் கொண்டு வருதல்
மாடல் வரிசைப்படுத்தல் என்பது பயிற்சி பெற்ற மாடலை ஒரு உற்பத்திச் சூழலில் ஒருங்கிணைப்பதை உள்ளடக்கியது, அங்கு அது புதிய தரவுகளில் கணிப்புகளைச் செய்யப் பயன்படுத்தப்படலாம். பொதுவான வரிசைப்படுத்தல் உத்திகள் பின்வருமாறு:
- தொகுப்புக் கணிப்பு (Batch Prediction): தரவை தொகுதிகளாகச் செயலாக்கி, ஆஃப்லைனில் கணிப்புகளை உருவாக்குதல்.
- நிகழ்நேரக் கணிப்பு (Real-time Prediction): தரவு வரும்போது நிகழ்நேரத்தில் கணிப்புகளை உருவாக்குதல்.
- API வரிசைப்படுத்தல்: மாடலை மற்ற பயன்பாடுகளால் அணுகக்கூடிய ஒரு API ஆக வரிசைப்படுத்துதல்.
- உட்பொதிக்கப்பட்ட வரிசைப்படுத்தல் (Embedded Deployment): ஸ்மார்ட்போன்கள் மற்றும் IoT சாதனங்கள் போன்ற உட்பொதிக்கப்பட்ட சாதனங்களில் மாடலை வரிசைப்படுத்துதல்.
வரிசைப்படுத்தல் உத்தியின் தேர்வு பயன்பாட்டின் தேவைகள் மற்றும் கிடைக்கக்கூடிய வளங்களைப் பொறுத்தது. உதாரணமாக, மோசடி கண்டறிதல் போன்ற உடனடி பின்னூட்டம் தேவைப்படும் பயன்பாடுகளுக்கு நிகழ்நேரக் கணிப்பு அவசியம், அதே சமயம் சந்தைப்படுத்தல் பிரச்சார மேம்படுத்தல் போன்ற சில தாமதத்தைத் தாங்கக்கூடிய பயன்பாடுகளுக்கு தொகுப்புக் கணிப்பு பொருத்தமானது.
Flask மற்றும் FastAPI போன்ற கருவிகள் இயந்திர கற்றல் மாடல்களை வரிசைப்படுத்த API-களை உருவாக்கப் பயன்படலாம். Amazon Web Services (AWS), Microsoft Azure, மற்றும் Google Cloud Platform (GCP) போன்ற கிளவுட் தளங்கள் பெரிய அளவில் இயந்திர கற்றல் மாடல்களை வரிசைப்படுத்த மற்றும் நிர்வகிக்க சேவைகளை வழங்குகின்றன. TensorFlow Serving மற்றும் TorchServe போன்ற கட்டமைப்புகள் உற்பத்திச் சூழல்களில் இயந்திர கற்றல் மாடல்களை வழங்குவதற்காக வடிவமைக்கப்பட்டுள்ளன.
9. மாடல் கண்காணிப்பு மற்றும் பராமரிப்பு: நீண்ட கால செயல்திறனை உறுதி செய்தல்
மாடல் வரிசைப்படுத்தப்பட்டவுடன், அதன் செயல்திறனைத் தொடர்ந்து கண்காணித்து, தேவைக்கேற்ப மீண்டும் பயிற்சி அளிப்பது முக்கியம். தரவுப் பரவலில் ஏற்படும் மாற்றங்கள் அல்லது புதிய வடிவங்களின் தோற்றம் காரணமாக காலப்போக்கில் மாடல் செயல்திறன் குறையக்கூடும்.
பொதுவான கண்காணிப்புப் பணிகள் பின்வருமாறு:
- மாடல் செயல்திறனைக் கண்காணித்தல்: துல்லியம், துல்லியத்தன்மை மற்றும் மீட்டழைத்தல் போன்ற முக்கிய அளவீடுகளைக் கண்காணித்தல்.
- தரவு நகர்வைக் கண்டறிதல் (Data Drift): உள்ளீட்டுத் தரவின் பரவலில் ஏற்படும் மாற்றங்களைக் கண்காணித்தல்.
- கருத்து நகர்வைக் கண்டறிதல் (Concept Drift): உள்ளீட்டுத் தரவுக்கும் இலக்கு மாறிக்கும் இடையிலான உறவில் ஏற்படும் மாற்றங்களைக் கண்காணித்தல்.
- கணிப்புப் பிழைகளைக் கண்காணித்தல்: மாடல் செய்யும் பிழைகளின் வகைகளை பகுப்பாய்வு செய்தல்.
மாடல் செயல்திறன் குறையும் போது, புதிய தரவைப் பயன்படுத்தி மாடலை மீண்டும் பயிற்றுவிப்பது அல்லது மாடல் கட்டமைப்பைப் புதுப்பிப்பது அவசியமாக இருக்கலாம். இயந்திர கற்றல் மாடல்களின் நீண்ட கால செயல்திறனை உறுதி செய்வதற்கு வழக்கமான கண்காணிப்பு மற்றும் பராமரிப்பு அவசியம்.
10. இயந்திர கற்றல் மாடல் பயிற்சிக்கான உலகளாவிய பரிசீலனைகள்
ஒரு உலகளாவிய பார்வையாளர்களுக்காக இயந்திர கற்றல் மாடல்களை உருவாக்கும்போது, பின்வரும் காரணிகளைக் கருத்தில் கொள்வது முக்கியம்:
- தரவு உள்ளூர்மயமாக்கல்: தரவு உள்ளூர் விதிமுறைகள் மற்றும் தனியுரிமைச் சட்டங்களுக்கு இணங்க சேமிக்கப்பட்டு செயலாக்கப்படுவதை உறுதி செய்தல்.
- மொழி ஆதரவு: தரவு செயலாக்கம் மற்றும் மாடல் பயிற்சியில் பல மொழிகளுக்கான ஆதரவை வழங்குதல்.
- கலாச்சார உணர்திறன்: மாடல் எந்தவொரு குறிப்பிட்ட கலாச்சாரம் அல்லது குழுவிற்கு எதிராகவும் சார்புடையதாக இல்லை என்பதை உறுதி செய்தல். உதாரணமாக, முக அங்கீகார அமைப்புகளில், சில இனங்களுக்கு எதிரான சார்புகளைத் தவிர்க்க பன்முகப்படுத்தப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்துவது முக்கியம்.
- நேர மண்டலங்கள் மற்றும் நாணயங்கள்: தரவு பகுப்பாய்வு மற்றும் மாடல் கணிப்புகளில் நேர மண்டலங்கள் மற்றும் நாணயங்களை முறையாகக் கையாளுதல்.
- நெறிமுறைக் கருத்தாய்வுகள்: இயந்திர கற்றலில் நேர்மை, வெளிப்படைத்தன்மை மற்றும் பொறுப்புக்கூறல் போன்ற நெறிமுறைக் கவலைகளை நிவர்த்தி செய்தல்.
இந்த உலகளாவிய காரணிகளைக் கருத்தில் கொள்வதன் மூலம், ஒரு பன்முகப்படுத்தப்பட்ட பார்வையாளர்களுக்கு மிகவும் பயனுள்ள மற்றும் சமமான இயந்திர கற்றல் மாடல்களை நீங்கள் உருவாக்கலாம்.
11. உலகெங்கிலும் உள்ள எடுத்துக்காட்டுகள்
11.1. பிரேசிலில் துல்லியமான விவசாயம்
மண் நிலைமைகள், வானிலை முறைகள் மற்றும் பயிர் விளைச்சலை பகுப்பாய்வு செய்ய இயந்திர கற்றல் மாடல்கள் பயன்படுத்தப்படுகின்றன, இது நீர்ப்பாசனம், உரமிடுதல் மற்றும் பூச்சிக் கட்டுப்பாட்டை மேம்படுத்தி, விவசாய உற்பத்தியை மேம்படுத்துகிறது மற்றும் சுற்றுச்சூழல் தாக்கத்தைக் குறைக்கிறது.
11.2. உலகெங்கிலும் உள்ள நிதி நிறுவனங்களில் மோசடி கண்டறிதல்
நிதி நிறுவனங்கள் நிகழ்நேரத்தில் மோசடியான பரிவர்த்தனைகளைக் கண்டறிய இயந்திர கற்றல் மாடல்களைப் பயன்படுத்துகின்றன, இது வாடிக்கையாளர்களைப் பாதுகாக்கிறது மற்றும் நிதி இழப்புகளைக் குறைக்கிறது. இந்த மாடல்கள் சந்தேகத்திற்கிடமான செயல்பாடுகளை அடையாளம் காண பரிவர்த்தனை முறைகள், பயனர் நடத்தை மற்றும் பிற காரணிகளை பகுப்பாய்வு செய்கின்றன.
11.3. இந்தியாவில் சுகாதார நோயறிதல்
மருத்துவப் படங்கள் மற்றும் நோயாளித் தரவை பகுப்பாய்வு செய்ய இயந்திர கற்றல் மாடல்கள் பயன்படுத்தப்படுகின்றன, இது பல்வேறு நோய்களுக்கான நோயறிதலின் துல்லியத்தையும் வேகத்தையும் மேம்படுத்துகிறது, குறிப்பாக சிறப்பு மருத்துவ நிபுணத்துவம் குறைவாக உள்ள பகுதிகளில்.
11.4. சீனாவில் விநியோகச் சங்கிலி மேம்படுத்தல்
சீனாவில் உள்ள இ-காமர்ஸ் நிறுவனங்கள் தேவையைக் கணிக்க, தளவாடங்களை மேம்படுத்த மற்றும் சரக்குகளை நிர்வகிக்க இயந்திர கற்றலைப் பயன்படுத்துகின்றன, இது சரியான நேரத்தில் விநியோகத்தை உறுதி செய்கிறது மற்றும் செலவுகளைக் குறைக்கிறது.
11.5. ஐரோப்பாவில் தனிப்பயனாக்கப்பட்ட கல்வி
கல்வி நிறுவனங்கள் மாணவர்களுக்கான கற்றல் அனுபவங்களைத் தனிப்பயனாக்க இயந்திர கற்றல் மாடல்களைப் பயன்படுத்துகின்றன, உள்ளடக்கத்தையும் வேகத்தையும் தனிப்பட்ட தேவைகள் மற்றும் கற்றல் பாணிகளுக்கு ஏற்ப வடிவமைக்கின்றன.
முடிவுரை
தரவு மற்றும் செயற்கை நுண்ணறிவுடன் பணிபுரியும் எவருக்கும் இயந்திர கற்றல் மாடல் பயிற்சியில் தேர்ச்சி பெறுவது ஒரு முக்கியமான திறமையாகும். பயிற்சி செயல்முறையின் முக்கிய படிகளான தரவு தயாரிப்பு, அல்காரிதம் தேர்வு, ஹைப்பர்பராமீட்டர் சரிசெய்தல் மற்றும் மாடல் மதிப்பீடு ஆகியவற்றைப் புரிந்துகொள்வதன் மூலம், நிஜ உலகப் பிரச்சனைகளைத் தீர்க்கும் உயர் செயல்திறன் கொண்ட மாடல்களை நீங்கள் உருவாக்கலாம். ஒரு பன்முகப்படுத்தப்பட்ட பார்வையாளர்களுக்காக இயந்திர கற்றல் மாடல்களை உருவாக்கும்போது உலகளாவிய காரணிகள் மற்றும் நெறிமுறை தாக்கங்களைக் கருத்தில் கொள்ள நினைவில் கொள்ளுங்கள். இயந்திர கற்றல் துறை தொடர்ந்து உருவாகி வருகிறது, எனவே புதுமைகளின் முன்னணியில் இருக்க தொடர்ச்சியான கற்றல் மற்றும் பரிசோதனை அவசியம்.