துல்லியமான மற்றும் வெளிப்படையான கடன் மதிப்பீட்டிற்காக பைதான் மற்றும் இயந்திர கற்றலைப் பயன்படுத்துதல். உலகளாவிய தரவுத்தொகுப்புகளை பகுப்பாய்வு செய்து, முன்கணிப்பு மாதிரிகளை உருவாக்கி, நிதி அபாயத்தை திறம்படக் குறைக்கவும்.
பைதான் கடன் மதிப்பீடு: உலகளாவிய நிதி நிறுவனங்களுக்கான இயந்திர கற்றல் வகைப்பாடு
கடன் மதிப்பீடு என்பது நிதித் துறையில் ஒரு முக்கியமான செயல்முறையாகும், இது கடன் வழங்குநர்கள் கடன் வாங்குபவர்களின் கடன் தகுதியை மதிப்பிட அனுமதிக்கிறது. துல்லியமான மற்றும் நம்பகமான கடன் மதிப்பீடு, அபாயத்தைக் குறைப்பதற்கும், தகவலறிந்த கடன் முடிவுகளை எடுப்பதற்கும், நிதி நிலைத்தன்மையை வளர்ப்பதற்கும் இன்றியமையாதது. இந்தப் வலைப்பதிவு இடுகை, பல்வேறு உலகளாவிய நிதி நிறுவனங்களுக்குப் பொருந்தக்கூடிய வலிமையான கடன் மதிப்பீட்டு மாதிரிகளை உருவாக்க பைதான் மற்றும் இயந்திர கற்றல் வகைப்பாடு நுட்பங்களின் பயன்பாட்டை ஆராய்கிறது. தரவு முன்செயலாக்கம், மாதிரித் தேர்வு, பயிற்சி, மதிப்பீடு மற்றும் வரிசைப்படுத்தல் ஆகியவற்றை நாம் ஆராய்வோம், நடைமுறை நுண்ணறிவுகளையும் எடுத்துக்காட்டுகளையும் வழங்குவோம்.
உலகளாவிய சூழலில் கடன் மதிப்பீட்டின் முக்கியத்துவம்
கடன் மதிப்பீடு என்பது உலகளாவிய நிதி நடவடிக்கைகளின் அடிப்படை அங்கமாகும். வட அமெரிக்கா, ஐரோப்பா, ஆசியா, ஆப்பிரிக்கா அல்லது தென் அமெரிக்கா என எங்கு இருந்தாலும், கடன் விண்ணப்பதாரரின் கடன் தகுதியின் அடிப்படையில் கடன் முடிவுகள் பெரிதும் பாதிக்கப்படுகின்றன. ஒரு நிதி நிறுவனத்தின் இலாபத்தன்மை மற்றும் ஒட்டுமொத்த ஆரோக்கியத்திற்கு, கடன் வாங்குபவர் கடனைத் திருப்பிச் செலுத்துவதற்கான வாய்ப்பை துல்லியமாக கணிக்கும் திறன் மிக முக்கியமானது. உலகமயமாக்கப்பட்ட நிதி நிலப்பரப்பில், சவால்களும் வாய்ப்புகளும் குறிப்பிடத்தக்கவை. கலாச்சார வேறுபாடுகள், பல்வேறு பொருளாதார நிலைமைகள் மற்றும் பலதரப்பட்ட ஒழுங்குமுறை சூழல்கள் போன்ற காரணிகள், பயனுள்ள மற்றும் இணக்கமான கடன் மதிப்பீட்டு மாதிரியை உருவாக்கும்போது கருத்தில் கொள்ளப்பட வேண்டும்.
பைதான் மற்றும் இயந்திர கற்றல்: கடன் மதிப்பீட்டிற்கான சிறந்த கூட்டணி
பைதான், அதன் வளமான நூலகங்களின் தொகுப்புடன், தரவு அறிவியல் மற்றும் இயந்திர கற்றலுக்கான ஒரு நிலையான மொழியாக மாறியுள்ளது. அதன் பல்திறன், படிக்க எளிதான தன்மை மற்றும் விரிவான சமூக ஆதரவு ஆகியவை கடன் மதிப்பீட்டு மாதிரிகளை உருவாக்குவதற்கான ஒரு சிறந்த தளமாக அமைகின்றன. இயந்திர கற்றல் அல்காரிதம்கள், குறிப்பாக வகைப்பாடு அல்காரிதம்கள், ஒரு வகைப் பலனைக் கணிக்க வடிவமைக்கப்பட்டுள்ளன, உதாரணமாக, ஒரு கடன் வாங்குபவர் கடனைத் திருப்பிச் செலுத்துவாரா இல்லையா என்பது போன்றது. இந்த அல்காரிதம்கள் வரலாற்றுத் தரவுகளிலிருந்து கற்றுக்கொண்டு, புதிய தரவுகளில் கணிப்புகளைச் செய்யப் பயன்படுத்தக்கூடிய வடிவங்கள் மற்றும் உறவுகளை அடையாளம் காண்கின்றன.
தரவுத் தயாரிப்பு மற்றும் முன்செயலாக்கம்: ஒரு நல்ல மாதிரியின் அடித்தளம்
எந்தவொரு இயந்திர கற்றல் மாதிரியையும் பயிற்சி செய்வதற்கு முன், தரவு கவனமாகத் தயாரிக்கப்பட்டு முன்செயலாக்கம் செய்யப்பட வேண்டும். இந்த முக்கியமான படி, தரவைத் சுத்தம் செய்தல், விடுபட்ட மதிப்புகளைக் கையாளுதல் மற்றும் அல்காரிதம்களுக்கு ஏற்ற வடிவத்தில் தரவை மாற்றுதல் ஆகியவற்றை உள்ளடக்கியது. தரவின் தரம் மாதிரியின் துல்லியம் மற்றும் நம்பகத்தன்மையை கணிசமாக பாதிக்கிறது.
1. தரவு சேகரிப்பு மற்றும் ஆதாரம்
கடன் மதிப்பீட்டு மாதிரிகள் பொதுவாக பரந்த அளவிலான தரவு ஆதாரங்களைப் பயன்படுத்துகின்றன, அவற்றுள்:
- விண்ணப்பத் தரவு: கடன் விண்ணப்பத்தில் கடன் வாங்குபவரால் வழங்கப்பட்ட தகவல், அதாவது வருமானம், வேலைவாய்ப்பு வரலாறு மற்றும் குடியிருப்பு நிலை.
- கடன் பணியகத் தரவு: கடன் அறிக்கை நிறுவனங்களிடமிருந்து பெறப்பட்ட கடன் வரலாறு தகவல், இதில் கட்டண வரலாறு, நிலுவையில் உள்ள கடன்கள் மற்றும் கடன் பயன்பாடு ஆகியவை அடங்கும். எடுத்துக்காட்டு: Experian, TransUnion, Equifax (அமெரிக்கா மற்றும் கனடா போன்ற நாடுகளில்) மற்றும் பல ஐரோப்பிய மற்றும் ஆப்பிரிக்க நாடுகளில் Creditinfo.
- நடத்தை தரவு: கடன் வாங்குபவரின் நடத்தை பற்றிய தரவு, அதாவது கட்டண வரலாறு, செலவு முறைகள் மற்றும் பிற நிதி பரிவர்த்தனைகள்.
- மாற்றுத் தரவு: சமூக ஊடக செயல்பாடு (அனுமதிக்கப்பட்ட இடங்களில்), பயன்பாட்டு பில்கள் மற்றும் வாடகை கொடுப்பனவுகள் போன்ற பாரம்பரியமற்ற தரவு ஆதாரங்கள் (குறிப்பாக வரையறுக்கப்பட்ட அல்லது கடன் வரலாறு இல்லாதவர்களுக்கு கடன் வரலாற்றை அதிகரிக்க).
GDPR (ஐரோப்பா), CCPA (கலிபோர்னியா) மற்றும் உள்ளூர் தரவுப் பாதுகாப்புச் சட்டங்கள் போன்ற உலகளாவிய தரவு தனியுரிமை விதிமுறைகளுக்கு தரவு சேகரிப்பு நடைமுறைகள் இணங்க வேண்டும், இது நெறிமுறை தரவு கையாளுதல் மற்றும் பயனர் ஒப்புதலை உறுதி செய்கிறது.
2. தரவு சுத்தம் செய்தல்
தரவு சுத்தம் செய்தல் என்பது தரவில் உள்ள பிழைகள், முரண்பாடுகள் மற்றும் வெளிப்புற மதிப்புகளை அடையாளம் கண்டு சரிசெய்வதாகும். பொதுவான பணிகள் அடங்கும்:
- விடுபட்ட மதிப்புகளைக் கையாளுதல்: சராசரி நிரப்புதல், நடுப்பகுதி நிரப்புதல் அல்லது k-அருகாமையில் உள்ள அண்டைவீரர்கள் (KNN) நிரப்புதல் போன்ற அதிநவீன முறைகளைப் பயன்படுத்தி விடுபட்ட மதிப்புகளை நிரப்புதல்.
- வெளிப்புற மதிப்பைக் கண்டறிதல்: மாதிரியை சிதைக்கக்கூடிய தீவிர மதிப்புகளை அடையாளம் கண்டு கையாளுதல். நுட்பங்களில் z-ஸ்கோர் பகுப்பாய்வு, இன்டர்குவார்டைல் வரம்பு (IQR) பகுப்பாய்வு மற்றும் வின்சோரைசேஷன் ஆகியவை அடங்கும்.
- பிழை திருத்தம்: தரவில் உள்ள தட்டச்சுப் பிழைகள், வடிவமைப்புப் பிழைகள் மற்றும் முரண்பாடுகளைச் சரிசெய்தல்.
3. அம்சப் பொறியியல்
அம்சப் பொறியியல் என்பது மாதிரியின் செயல்திறனை மேம்படுத்துவதற்காக ஏற்கனவே உள்ள அம்சங்களிலிருந்து புதிய அம்சங்களை உருவாக்குவதை உள்ளடக்கியது. இது பின்வருவனவற்றை உள்ளடக்கும்:
- விகிதங்களை உருவாக்குதல்: உதாரணமாக, கடன்-வருமான விகிதம் (DTI), கடன் பயன்பாட்டு விகிதம்.
- ஊடாடும் சொற்களை உருவாக்குதல்: நேரியல் அல்லாத உறவுகளைப் பிடிக்க ஏற்கனவே உள்ள அம்சங்களைப் பெருக்குதல் அல்லது இணைத்தல்.
- அம்சங்களை மாற்றுதல்: சரிந்த தரவுப் பரவல்களைக் கையாள லாக் மாற்றங்கள் போன்ற மாற்றங்களைப் பயன்படுத்துதல்.
- வகைப்படுத்தல் மாறிகளை குறியீடாக்குதல்: வகைப்படுத்தல் அம்சங்களை எண் பிரதிநிதித்துவங்களாக மாற்றுதல் (எ.கா., ஒன்-ஹாட் குறியீடாக்கம், லேபிள் குறியீடாக்கம்).
அம்சப் பொறியியல் பெரும்பாலும் கள-சார்ந்தது மற்றும் கடன் வணிகத்தைப் பற்றிய ஆழமான புரிதல் தேவைப்படுகிறது.
4. அம்ச அளவிடுதல்
இயந்திர கற்றல் அல்காரிதம்கள் உள்ளீட்டு அம்சங்களின் அளவீட்டிற்கு பெரும்பாலும் உணர்திறன் கொண்டவை. அம்ச அளவிடுதல் அனைத்து அம்சங்களுக்கும் ஒத்த மதிப்புக் வரம்பைக் கொண்டிருப்பதை உறுதிசெய்கிறது, பெரிய அளவீட்டைக் கொண்ட அம்சங்கள் மாதிரியை ஆதிக்கம் செலுத்துவதைத் தடுக்கிறது. பொதுவான அளவிடுதல் நுட்பங்கள் அடங்கும்:
- StandardScaler: சராசரியை நீக்கி, அலகு மாறுபாட்டிற்கு அளவிடுவதன் மூலம் அம்சங்களை தரப்படுத்துகிறது.
- MinMaxScaler: அம்சங்களை 0 முதல் 1 வரையிலான வரம்பிற்கு அளவிடுகிறது.
- RobustScaler: இன்டர்குவார்டைல் வரம்பைப் பயன்படுத்தி அம்சங்களை அளவிடுகிறது, இது வெளிப்புற மதிப்புகளுக்கு குறைந்த உணர்திறன் கொண்டதாக அமைகிறது.
கடன் மதிப்பீட்டிற்கான இயந்திர கற்றல் வகைப்பாடு அல்காரிதம்கள்
பல இயந்திர கற்றல் வகைப்பாடு அல்காரிதம்கள் பொதுவாக கடன் மதிப்பீட்டிற்குப் பயன்படுத்தப்படுகின்றன. அல்காரிதம் தேர்வு குறிப்பிட்ட தரவுத்தொகுப்பு, விரும்பிய துல்லியம் மற்றும் விளக்கக்கூடிய தேவைகளைப் பொறுத்தது.
1. லாஜிஸ்டிக் பின்னடைவு
லாஜிஸ்டிக் பின்னடைவு என்பது ஒரு நேரியல் மாதிரி ஆகும், இது அதன் எளிமை, விளக்கக்கூடிய தன்மை மற்றும் கணக்கீட்டுத் திறன் காரணமாக கடன் மதிப்பீட்டிற்கு பரவலாகப் பயன்படுத்தப்படுகிறது. இது ஒரு லாஜிஸ்டிக் செயல்பாட்டைப் பயன்படுத்தி இயல்புநிலைக்கான நிகழ்தகவை மாதிரியாக்குகிறது. மாதிரியின் குணகங்களை நேரடியாகக் கடன் மதிப்பில் ஒவ்வொரு அம்சத்தின் தாக்கத்தையும் புரிந்துகொள்ள விளக்க முடியும்.
2. முடிவெடுக்கும் மரங்கள்
முடிவெடுக்கும் மரங்கள் என்பவை நேரியல் அல்லாத மாதிரிகள் ஆகும், அவை அம்ச மதிப்புகளின் அடிப்படையில் தரவை துணைக்குழுக்களாகப் பிரிக்கின்றன. அவை காண்பதற்கு எளிதானவை மற்றும் விளக்குவதற்கும் எளிதானவை. இருப்பினும், குறிப்பாக சிக்கலான தரவுத்தொகுப்புகளுடன், அவை மிகைப் பொருத்தம் (overfitting) ஆக வாய்ப்புள்ளது. அவற்றின் செயல்திறனை மேம்படுத்த, கிளைகளை நீக்குதல் (pruning) மற்றும் குழு முறைகள் (ensemble methods) போன்ற நுட்பங்கள் பெரும்பாலும் பயன்படுத்தப்படுகின்றன.
3. ரேண்டம் ஃபாரஸ்ட்
ரேண்டம் ஃபாரஸ்ட்கள் என்பது பல முடிவெடுக்கும் மரங்களை இணைக்கும் குழு முறைகளாகும். அவை மிகைப் பொருத்தத்திற்கு (overfitting) வலிமையானவை மற்றும் நல்ல முன்கணிப்பு துல்லியத்தை வழங்குகின்றன. ரேண்டம் ஃபாரஸ்ட் அல்காரிதம், ஒவ்வொரு முடிவெடுக்கும் மரத்தையும் உருவாக்க, தரவுகளிலிருந்து அம்சங்களையும் மாதிரிகளையும் தோராயமாகத் தேர்ந்தெடுக்கிறது, இது மாறுபாட்டைக் குறைக்கவும் மற்றும் பொதுமைப்படுத்தலை மேம்படுத்தவும் உதவுகிறது. அவை அம்ச முக்கியத்துவ மதிப்பெண்களை வழங்குகின்றன, இது அம்சத் தேர்வு மற்றும் மாதிரி புரிதலுக்கு பயனுள்ளதாக இருக்கும்.
4. கிரேடியன்ட் பூஸ்டிங் இயந்திரங்கள் (GBM)
கிரேடியன்ட் பூஸ்டிங் இயந்திரங்கள் (எ.கா., XGBoost, LightGBM) என்பது மரங்களை வரிசையாக உருவாக்கும் மற்றொரு வகையான குழு முறையாகும். தவறாக வகைப்படுத்தப்பட்ட நிகழ்வுகளில் கவனம் செலுத்துவதன் மூலம் அவை மாதிரியை மீண்டும் மீண்டும் மேம்படுத்துகின்றன. GBMகள் பெரும்பாலும் அதிக முன்கணிப்பு துல்லியத்தை அடைகின்றன, ஆனால் அவை கணக்கீட்டில் அதிக உழைப்பு தேவைப்படுபவையாக இருக்கலாம் மற்றும் ஹைப்பர்பாராமீட்டர்களை கவனமாக சரிசெய்ய வேண்டும்.
5. ஆதரவு வெக்டர் இயந்திரங்கள் (SVM)
SVMகள் சக்திவாய்ந்த அல்காரிதம்கள் ஆகும், அவை நேரியல் மற்றும் நேரியல் அல்லாத வகைப்பாடு பணிகளை கையாள முடியும். அவை தரவை அதிக பரிமாண இடத்திற்கு மேப் செய்து, வகுப்புகளைப் பிரிக்க உகந்த ஹைப்பர்பிளேனைக் கண்டறிவதன் மூலம் செயல்படுகின்றன. அவற்றின் கணக்கீட்டு சிக்கல்தன்மை மற்றும் நேரடி விளக்கக்கூடிய தன்மை இல்லாததால், SVMகள் கடன் மதிப்பீட்டிற்கு குறைவாகவே பயன்படுத்தப்படுகின்றன.
மாதிரி பயிற்சி மற்றும் மதிப்பீடு
தரவு முன்செயலாக்கம் செய்யப்பட்டு அல்காரிதம் தேர்ந்தெடுக்கப்பட்டதும், அடுத்த படி மாதிரியைப் பயிற்றுவிப்பதாகும். இதில் தரவை அல்காரிதமிற்கு அளித்து, அம்சங்களுக்கும் இலக்கு மாறிக்கும் (எ.கா., இயல்புநிலை அல்லது இயல்புநிலை இல்லை) இடையிலான வடிவங்களையும் உறவுகளையும் கற்றுக்கொள்ள அனுமதிக்கிறது. காணப்படாத தரவுகளில் மாதிரி சிறப்பாக செயல்படுவதையும், திறம்பட பொதுமைப்படுத்துவதையும் உறுதி செய்ய சரியான மாதிரி மதிப்பீடு மிக முக்கியம்.
1. தரவு பிரித்தல்
தரவுத்தொகுப்பு பொதுவாக மூன்று பகுதிகளாகப் பிரிக்கப்படுகிறது:
- பயிற்சித் தொகுப்பு: மாதிரியைப் பயிற்றுவிக்கப் பயன்படுகிறது.
- சரிபார்ப்புத் தொகுப்பு: மாதிரியின் ஹைப்பர்பாராமீட்டர்களை சரிசெய்யவும், பயிற்சி நேரத்தில் அதன் செயல்திறனை மதிப்பிடவும் பயன்படுகிறது.
- சோதனைத் தொகுப்பு: இறுதி மாதிரியின் செயல்திறனை காணப்படாத தரவுகளில் மதிப்பிடப் பயன்படுகிறது. மாதிரி இந்தத் தரவை பயிற்சி அல்லது ஹைப்பர்பாராமீட்டர் சரிசெய்தல் நிலைகளில் பார்க்கக்கூடாது.
பொதுவாக, 70% பயிற்சிக்காகவும், 15% சரிபார்ப்பிற்காகவும், 15% சோதனைக்காகவும் பிரிக்கப்படுகிறது.
2. மாதிரி பயிற்சி
தேர்ந்தெடுக்கப்பட்ட வகைப்பாடு அல்காரிதம் பயிற்சித் தரவைப் பயன்படுத்திப் பயிற்றுவிக்கப்படுகிறது. ஹைப்பர்பாராமீட்டர்கள் (தரவுகளிலிருந்து கற்றுக்கொள்ளப்படாத, ஆனால் மாதிரி உருவாக்குபவரால் அமைக்கப்பட்ட அளவுருக்கள், எ.கா., கிரேடியன்ட் பூஸ்டிங் இயந்திரத்தின் கற்றல் வீதம்) சரிபார்ப்புத் தொகுப்பைப் பயன்படுத்தி மாதிரியின் செயல்திறனை மேம்படுத்த சரிசெய்யப்படுகின்றன.
3. மாதிரி மதிப்பீட்டு அளவீடுகள்
மாதிரியின் செயல்திறனை மதிப்பிட பல அளவீடுகள் பயன்படுத்தப்படுகின்றன:
- துல்லியம் (Accuracy): சரியாக வகைப்படுத்தப்பட்ட நிகழ்வுகளின் சதவீதம். இருப்பினும், வகுப்புகள் சமநிலையற்றதாக இருந்தால், துல்லியம் தவறாக வழிநடத்தக்கூடும்.
- துல்லியத்தன்மை (Precision): கணிக்கப்பட்ட நேர்மறை நிகழ்வுகளில் உண்மையாகவே நேர்மறையானவற்றின் சதவீதம் (உண்மையான நேர்மறைகள் / (உண்மையான நேர்மறைகள் + தவறான நேர்மறைகள்)).
- மீளழைப்பு (Recall) (உணர்திறன்): உண்மையான நேர்மறை நிகழ்வுகளில் சரியாக கணிக்கப்பட்டவற்றின் சதவீதம் (உண்மையான நேர்மறைகள் / (உண்மையான நேர்மறைகள் + தவறான எதிர்மறைகள்)).
- F1-ஸ்கோர்: துல்லியத்தன்மை மற்றும் மீளழைப்பின் ஹார்மோனிக் சராசரி. இது மாதிரியின் செயல்திறனை, குறிப்பாக வகுப்பு சமநிலையற்ற நிலைகளில், சமச்சீர் அளவீட்டை வழங்குகிறது.
- AUC-ROC: ரிசீவர் ஆப்பரேட்டிங் கேரக்டரிஸ்டிக் வளைவின் கீழ் உள்ள பகுதி. இது நேர்மறை மற்றும் எதிர்மறை வகுப்புகளுக்கு இடையே வேறுபடுத்தும் மாதிரியின் திறனை அளவிடுகிறது.
- குழப்ப அணி (Confusion Matrix): மாதிரியின் செயல்திறனை சுருக்கமாகக் காட்டும் அட்டவணை, இது உண்மையான நேர்மறைகள், உண்மையான எதிர்மறைகள், தவறான நேர்மறைகள் மற்றும் தவறான எதிர்மறைகளின் எண்ணிக்கையைக் காட்டுகிறது.
மிகவும் பொருத்தமான அளவீட்டைத் தேர்ந்தெடுப்பது குறிப்பிட்ட வணிக இலக்குகள் மற்றும் தவறான நேர்மறைகள் மற்றும் தவறான எதிர்மறைகளின் சாத்தியமான செலவுகளைப் பொறுத்தது. உதாரணமாக, கடன் மதிப்பீட்டில், தவறான எதிர்மறைகளைக் குறைப்பது (கடன் செலுத்தாதவரைக் கண்டறியத் தவறுவது) கடன் வழங்குநரை இழப்புகளிலிருந்து பாதுகாக்க மிக முக்கியமானது.
4. குறுக்கு சரிபார்ப்பு
குறுக்கு சரிபார்ப்பு என்பது மாதிரியின் பொதுமைப்படுத்தலை மதிப்பிடப் பயன்படுத்தப்படும் ஒரு நுட்பமாகும். இது தரவை பல மடிப்புகளாகப் பிரித்து, மடிப்புகளின் வெவ்வேறு சேர்க்கைகளில் மாதிரியைப் பயிற்றுவிப்பதை உள்ளடக்குகிறது. இது தரவு மாறுபாட்டின் தாக்கத்தைக் குறைக்கவும், மாதிரியின் செயல்திறனைப் பற்றிய மிகவும் வலிமையான மதிப்பீட்டை வழங்கவும் உதவுகிறது.
பைதான் மூலம் செயல்படுத்துதல்: ஒரு நடைமுறை எடுத்துக்காட்டு
பைதான் மற்றும் ஸ்கிகிட்-கற்றல் (scikit-learn) நூலகத்தைப் பயன்படுத்தி இந்த செயல்முறையை விளக்குவோம். பின்வருவது ஒரு எளிமையான எடுத்துக்காட்டு. நிஜ உலக சூழ்நிலைகளுக்கு, உங்களுக்கு மிகவும் பெரிய மற்றும் விரிவான தரவுத்தொகுப்பு தேவைப்படும்.
1. நூலகங்களை இறக்குமதி செய்தல்
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix
2. தரவை ஏற்றுதல் மற்றும் தயாரித்தல் (உருவகப்படுத்தப்பட்ட எடுத்துக்காட்டு)
# Assume a dataset named 'credit_data.csv'
df = pd.read_csv('credit_data.csv')
# Assuming the target variable is 'default' (1=default, 0=no default)
X = df.drop('default', axis=1) # Features
y = df['default'] # Target
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Scale the features
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
3. ஒரு லாஜிஸ்டிக் பின்னடைவு மாதிரியைப் பயிற்றுவித்தல்
# Create a Logistic Regression model
model = LogisticRegression(random_state=42)
# Train the model on the training data
model.fit(X_train, y_train)
4. கணிப்புகள் செய்து மதிப்பீடு செய்தல்
# Make predictions on the test set
y_pred = model.predict(X_test)
# Calculate evaluation metrics
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc_roc = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])
confusion_mat = confusion_matrix(y_test, y_pred)
# Print results
print(f'Accuracy: {accuracy:.4f}')
print(f'Precision: {precision:.4f}')
print(f'Recall: {recall:.4f}')
print(f'F1-score: {f1:.4f}')
print(f'AUC-ROC: {auc_roc:.4f}')
print(f'Confusion Matrix:
{confusion_mat}')
இந்த எடுத்துக்காட்டு ஒரு அடிப்படை கட்டமைப்பை வழங்குகிறது. நிஜ உலக சூழ்நிலைகளுக்கு, ஒருவர் விரிவான தரவு முன்செயலாக்கம், அம்சப் பொறியியல், ஹைப்பர்பாராமீட்டர் சரிசெய்தல் (எ.கா., GridSearchCV அல்லது RandomizedSearchCV ஐப் பயன்படுத்தி) மற்றும் மாதிரி ஒப்பீடு ஆகியவற்றைச் செய்வார். வகுப்பு சமநிலையற்ற தன்மை மற்றும் தவறான வகைப்பாடுகளின் சாத்தியமான வணிக தாக்கங்கள் போன்ற காரணிகளைக் கருத்தில் கொண்டு மாதிரி மதிப்பீடு மிகவும் முழுமையானதாக இருக்கும்.
மாதிரி வரிசைப்படுத்தல் மற்றும் கண்காணிப்பு
மாதிரி பயிற்சி செய்யப்பட்டு, மதிப்பிடப்பட்டு, சரிபார்க்கப்பட்டதும், அடுத்த படி அதை உற்பத்தி பயன்பாட்டிற்காக வரிசைப்படுத்துவதாகும். மாதிரி வரிசைப்படுத்தல் என்பது மாதிரியை ஒரு கடன் தளத்திலோ அல்லது கடன் முடிவெடுக்கும் அமைப்பிலோ ஒருங்கிணைப்பதை உள்ளடக்கியது. மாதிரி காலப்போக்கில் தொடர்ந்து திறம்பட செயல்படுவதை உறுதி செய்ய சரியான கண்காணிப்பு மற்றும் பராமரிப்பு மிக முக்கியம்.
1. வரிசைப்படுத்தல் முறைகள்
ஒரு இயந்திர கற்றல் மாதிரியை வரிசைப்படுத்த பல வழிகள் உள்ளன:
- தொகுப்பு செயலாக்கம் (Batch Processing): மாதிரி தரவுகளை வழக்கமான அட்டவணையில் (எ.கா., தினசரி அல்லது வாராந்திர) தொகுப்புகளாகச் செயல்படுத்துகிறது. இது ஆஃப்லைன் கடன் மதிப்பீட்டு பயன்பாடுகளுக்கு ஏற்றது.
- நிகழ்நேரக் கணிப்பு (Real-time Prediction): புதிய தரவு கிடைக்கும்போது மாதிரி நிகழ்நேரக் கணிப்புகளை வழங்குகிறது. ஆன்லைன் கடன் விண்ணப்பங்கள் மற்றும் கடன் ஒப்புதல்களுக்கு இது அவசியம்.
- API வரிசைப்படுத்தல் (API Deployment): மாதிரி ஒரு API ஆக (பயன்பாட்டு நிரலாக்க இடைமுகம்) வெளிப்படுத்தப்படுகிறது, இது மற்ற அமைப்புகளை அதன் கணிப்புகளை அணுக அனுமதிக்கிறது.
- உள்ளமைக்கப்பட்ட வரிசைப்படுத்தல் (Embedded Deployment): மாதிரி நேரடியாக ஒரு பயன்பாடு அல்லது அமைப்பில் ஒருங்கிணைக்கப்படுகிறது.
வரிசைப்படுத்தல் உத்தி நிதி நிறுவனத்தின் குறிப்பிட்ட தேவைகள் மற்றும் கடன் மதிப்பீட்டு செயல்முறையின் தேவைகளைப் பொறுத்தது.
2. கண்காணிப்பு மற்றும் பராமரிப்பு
செயல்திறன் குறைபாட்டிற்காக மாதிரிகள் தொடர்ந்து கண்காணிக்கப்பட வேண்டும். கண்காணிக்க வேண்டிய முக்கிய பகுதிகள் அடங்கும்:
- மாதிரி செயல்திறன் அளவீடுகள்: துல்லியம் (accuracy), துல்லியத்தன்மை (precision), மீளழைப்பு (recall) மற்றும் AUC-ROC போன்ற அளவீடுகளை கண்காணித்து, மாதிரி இன்னும் துல்லியமான கணிப்புகளைச் செய்கிறதா என்பதை உறுதிப்படுத்தவும்.
- தரவு சறுக்கல் (Data Drift): காலப்போக்கில் உள்ளீட்டு அம்சங்களின் பரவலை கண்காணிக்கவும். உள்ளீட்டுத் தரவின் புள்ளியியல் பண்புகள் மாறும்போது தரவு சறுக்கல் ஏற்படுகிறது, இது மாதிரி செயல்திறனில் வீழ்ச்சிக்கு வழிவகுக்கும். புதுப்பிக்கப்பட்ட தரவுகளுடன் மாதிரியை மீண்டும் பயிற்றுவிக்க வேண்டியிருக்கலாம்.
- கருத்து சறுக்கல் (Concept Drift): உள்ளீட்டு அம்சங்களுக்கும் இலக்கு மாறிக்கும் இடையிலான உறவில் ஏற்படும் மாற்றங்களை கண்காணிக்கவும். கருத்து சறுக்கல் என்பது தரவில் உள்ள அடிப்படைக் வடிவங்கள் மாறிக்கொண்டிருப்பதை குறிக்கிறது.
- வணிகச் செயல்திறன்: இயல்புநிலை விகிதம் மற்றும் கடன் ஒப்புதல் விகிதம் போன்ற முக்கிய வணிக அளவீடுகளைக் கண்காணித்து, வணிக முடிவுகளில் மாதிரியின் தாக்கத்தை மதிப்பிடவும்.
- பின்னூட்ட சுழல்கள் (Feedback Loops): மாதிரி கணிப்புகள் மற்றும் உண்மையான கடன் முடிவுகள் குறித்த தரவுகளைச் சேகரிக்க பின்னூட்ட சுழல்களைச் செயல்படுத்தவும். இந்தத் தகவலை மாதிரியை மீண்டும் பயிற்றுவிக்கவும், காலப்போக்கில் அதன் துல்லியத்தை மேம்படுத்தவும் பயன்படுத்தலாம்.
மாதிரியை வழக்கமாக, பொதுவாக மாதாந்திர அல்லது காலாண்டு அடிப்படையில் மீண்டும் பயிற்றுவிப்பது, உகந்த செயல்திறனைப் பராமரிக்க அடிக்கடி அவசியம்.
உலகளாவிய பரிசீலனைகள் மற்றும் நெறிமுறை தாக்கங்கள்
கடன் மதிப்பீட்டு மாதிரிகளை உலகளவில் பயன்படுத்தும்போது, பல காரணிகளைக் கருத்தில் கொள்வது அவசியம்:
- ஒழுங்குமுறை இணக்கம்: GDPR, CCPA மற்றும் பாகுபாடு எதிர்ப்புச் சட்டங்கள் (எ.கா., அமெரிக்காவில் சம கடன் வாய்ப்பு சட்டம்) போன்ற உள்ளூர் மற்றும் சர்வதேச விதிமுறைகளுக்கு இணங்க வேண்டும். மாதிரி நியாயமானது என்பதையும், பாதுகாக்கப்பட்ட குழுக்களுக்கு எதிராகப் பாகுபாடு காட்டவில்லை என்பதையும் உறுதிப்படுத்தவும்.
- கலாச்சார வேறுபாடுகள்: கடன் மற்றும் நிதி தொடர்பான கலாச்சார நெறிமுறைகள் மற்றும் நடைமுறைகள் வெவ்வேறு பிராந்தியங்களில் மாறுபடலாம் என்பதை அங்கீகரிக்கவும். உள்ளூர் சூழலுக்கு ஏற்றவாறு மாதிரி மற்றும் தரவு சேகரிப்பு உத்திகளை மாற்றியமைக்கவும்.
- தரவு தனியுரிமை மற்றும் பாதுகாப்பு: முக்கியமான கடன் வாங்குபவர் தகவலைப் பாதுகாக்க வலிமையான தரவு தனியுரிமை மற்றும் பாதுகாப்பு நடவடிக்கைகளைச் செயல்படுத்தவும். தரவை என்க்ரிப்ட் செய்யவும், தரவு அணுகலைக் கட்டுப்படுத்தவும் மற்றும் தரவு மீறல் அறிவிப்புத் தேவைகளுக்கு இணங்கவும்.
- மாதிரி விளக்கக்கூடிய தன்மை: மாதிரி விளக்கக்கூடிய தன்மைக்கு பாடுபடவும், இதனால் பங்குதாரர்கள் (எ.கா., கடன் அதிகாரிகள், ஒழுங்குமுறை அமைப்புகள்) மாதிரி எவ்வாறு முடிவுகளை எடுக்கிறது என்பதைப் புரிந்துகொள்ள முடியும். மாதிரி கணிப்புகள் குறித்த நுண்ணறிவுகளை வழங்க விளக்கக்கூடிய AI (XAI) நுட்பங்களைப் பயன்படுத்தலாம்.
- சார்பு தணிப்பு: சார்புக்காக மாதிரியைத் தொடர்ந்து கண்காணித்து, சார்பு தணிக்கும் நுட்பங்களைச் செயல்படுத்தவும், அதாவது சார்பு நீக்கும் அல்காரிதம்களைப் பயன்படுத்துதல் மற்றும் மாதிரி அளவுருக்களை சரிசெய்தல்.
- வெளிப்படைத்தன்மை: மாதிரியின் வரம்புகள் மற்றும் முடிவுகளை எடுக்க அது எவ்வாறு பயன்படுத்தப்படுகிறது என்பது பற்றி வெளிப்படையாக இருங்கள். கடன் வாங்குபவர்களுக்கு தெளிவான விளக்கங்களை கடன் மதிப்பீட்டு முடிவுகள் குறித்த வழங்கவும்.
முடிவுரை: பைதான் மற்றும் இயந்திர கற்றல் மூலம் உலகளாவிய நிதி நிறுவனங்களுக்கு அதிகாரமளித்தல்
பைதான், இயந்திர கற்றல் நுட்பங்களுடன் இணைந்து, வலிமையான மற்றும் துல்லியமான கடன் மதிப்பீட்டு மாதிரிகளை உருவாக்குவதற்கான சக்திவாய்ந்த மற்றும் நெகிழ்வான தளத்தை வழங்குகிறது. தரவை கவனமாகத் தயாரிப்பதன் மூலம், பொருத்தமான அல்காரிதம்களைத் தேர்ந்தெடுப்பதன் மூலம், மாதிரியின் செயல்திறனை மதிப்பிடுவதன் மூலம் மற்றும் நெறிமுறை பரிசீலனைகளுக்கு இணங்குவதன் மூலம், நிதி நிறுவனங்கள் இந்தத் தொழில்நுட்பத்தின் நன்மைகளைப் பயன்படுத்தி தங்கள் கடன் முடிவுகளை மேம்படுத்தலாம், அபாயத்தைக் குறைக்கலாம் மற்றும் நிதி உள்ளடக்கத்தை வளர்க்கலாம். இந்த முறைகளை ஏற்றுக்கொள்வது செயல்பாட்டுத் திறனை கணிசமாக மேம்படுத்தலாம், செலவுகளைக் குறைக்கலாம் மற்றும் வாடிக்கையாளர் அனுபவத்தை மேம்படுத்தலாம், உலகளாவிய நிதி நிலப்பரப்பில் நிலையான வளர்ச்சியைத் தூண்டும். நிதித் துறை தொடர்ந்து வளர்ச்சியடைந்து வருவதால், பைதான் மற்றும் இயந்திர கற்றலின் மூலோபாயச் செயலாக்கம் போட்டித்தன்மையுடன் இருப்பதற்கும் உலகளவில் நிதி நிலைத்தன்மையை மேம்படுத்துவதற்கும் மிக முக்கியமானது. இது ஒவ்வொரு புவியியல் சந்தையின் குறிப்பிட்ட நுணுக்கங்களையும் கருத்தில் கொண்டு, அதற்கேற்ப உத்திகளை மாற்றியமைப்பது, அனைவருக்கும் மிகவும் சமமான மற்றும் அணுகக்கூடிய நிதிச் சூழலை வளர்ப்பது ஆகியவற்றை உள்ளடக்கியது.
பொறுப்புத் துறப்பு: இந்த வலைப்பதிவு இடுகை பொதுவான தகவல்களை வழங்குகிறது மற்றும் நிதி அல்லது சட்ட ஆலோசனையாக கருதப்படக்கூடாது. குறிப்பிட்ட வழிகாட்டுதலுக்கு எப்போதும் தகுதிவாய்ந்த நிபுணர்களுடன் கலந்தாலோசிக்கவும்.