மாதிரி அங்கீகார நுட்பங்களைப் பயன்படுத்தி தரவு சுரங்கம் பற்றிய ஒரு விரிவான வழிகாட்டி. இது உலகளாவிய பார்வையாளர்களுக்கான வழிமுறைகள், பயன்பாடுகள் மற்றும் எதிர்காலப் போக்குகளை ஆராய்கிறது.
தரவு சுரங்கம்: மாதிரி அங்கீகார நுட்பங்களுடன் மறைக்கப்பட்ட மாதிரிகளை வெளிப்படுத்துதல்
இன்றைய தரவு சார்ந்த உலகில், பல்வேறு துறைகளில் உள்ள நிறுவனங்கள் தினமும் பெருமளவிலான தரவுகளை உருவாக்குகின்றன. இந்தத் தரவு, பெரும்பாலும் கட்டமைக்கப்படாத மற்றும் சிக்கலானதாக இருந்தாலும், போட்டித்தன்மையை அதிகரிக்கவும், முடிவெடுப்பதை மேம்படுத்தவும், மற்றும் செயல்பாட்டுத் திறனை அதிகரிக்கவும் பயன்படுத்தக்கூடிய மதிப்புமிக்க நுண்ணறிவுகளைக் கொண்டுள்ளது. தரவுத்தளங்களில் அறிவு கண்டுபிடிப்பு (KDD) என்றும் அழைக்கப்படும் தரவு சுரங்கம், பெரிய தரவுத்தொகுப்புகளிலிருந்து இந்த மறைக்கப்பட்ட மாதிரிகளையும் அறிவையும் பிரித்தெடுப்பதற்கான ஒரு முக்கியமான செயல்முறையாக வெளிப்படுகிறது. தரவு சுரங்கத்தின் முக்கிய அங்கமான மாதிரி அங்கீகாரம், தரவுகளுக்குள் மீண்டும் மீண்டும் வரும் கட்டமைப்புகளையும் ஒழுங்குகளையும் அடையாளம் காண்பதில் முக்கிய பங்கு வகிக்கிறது.
தரவு சுரங்கம் என்றால் என்ன?
தரவு சுரங்கம் என்பது இயந்திர கற்றல், புள்ளிவிவரம் மற்றும் தரவுத்தள அமைப்புகள் உள்ளிட்ட பல்வேறு நுட்பங்களைப் பயன்படுத்தி பெரிய தரவுத்தொகுப்புகளிலிருந்து மாதிரிகள், தொடர்புகள் மற்றும் நுண்ணறிவுகளைக் கண்டுபிடிக்கும் செயல்முறையாகும். இது பல முக்கிய படிகளை உள்ளடக்கியது:
- தரவு சேகரிப்பு: தரவுத்தளங்கள், வலைப் பதிவுகள், சமூக ஊடகங்கள் மற்றும் சென்சார்கள் போன்ற பல்வேறு மூலங்களிலிருந்து தரவுகளைச் சேகரித்தல்.
- தரவு முன்செயலாக்கம்: பகுப்பாய்விற்காக தரவை சுத்தம் செய்தல், மாற்றுதல் மற்றும் தயார் செய்தல். இதில் விடுபட்ட மதிப்புகளைக் கையாளுதல், இரைச்சலை அகற்றுதல் மற்றும் தரவு வடிவங்களை தரப்படுத்துதல் ஆகியவை அடங்கும்.
- தரவு மாற்றம்: பகுப்பாய்விற்காக தரவை பொருத்தமான வடிவத்திற்கு மாற்றுதல், அதாவது தரவை ஒருங்கிணைத்தல், புதிய அம்சங்களை உருவாக்குதல் அல்லது பரிமாணங்களைக் குறைத்தல்.
- மாதிரி கண்டுபிடிப்பு: தரவில் உள்ள மாதிரிகள், தொடர்புகள் மற்றும் முரண்பாடுகளை அடையாளம் காண தரவு சுரங்க வழிமுறைகளைப் பயன்படுத்துதல்.
- மாதிரி மதிப்பீடு: கண்டுபிடிக்கப்பட்ட மாதிரிகளின் முக்கியத்துவத்தையும் பொருத்தத்தையும் மதிப்பிடுதல்.
- அறிவு பிரதிநிதித்துவம்: கண்டுபிடிக்கப்பட்ட அறிவை அறிக்கைகள், காட்சிப்படுத்தல்கள் அல்லது மாதிரிகள் போன்ற தெளிவான மற்றும் புரிந்துகொள்ளக்கூடிய வடிவத்தில் வழங்குதல்.
தரவு சுரங்கத்தில் மாதிரி அங்கீகாரத்தின் பங்கு
மாதிரி அங்கீகாரம் என்பது இயந்திர கற்றலின் ஒரு கிளை ஆகும், இது தரவுகளில் உள்ள மாதிரிகளை அடையாளம் கண்டு வகைப்படுத்துவதில் கவனம் செலுத்துகிறது. இது தரவுகளிலிருந்து தானாகவே கற்றுக்கொள்ளவும், அடையாளம் காணப்பட்ட மாதிரிகளின் அடிப்படையில் கணிப்புகள் அல்லது முடிவுகளை எடுக்கவும் வழிமுறைகள் மற்றும் நுட்பங்களைப் பயன்படுத்துவதை உள்ளடக்கியது. தரவு சுரங்கத்தின் பின்னணியில், மாதிரி அங்கீகார நுட்பங்கள் இதற்காகப் பயன்படுத்தப்படுகின்றன:
- தரவுகளில் மீண்டும் மீண்டும் வரும் மாதிரிகள் மற்றும் உறவுகளை அடையாளம் காண.
- தரவுகளை அவற்றின் பண்புகளின் அடிப்படையில் முன்வரையறுக்கப்பட்ட வகைகளாக வகைப்படுத்த.
- ஒரே மாதிரியான தரவுப் புள்ளிகளை ஒன்றாகக் கொத்தாக்க.
- தரவுகளில் உள்ள முரண்பாடுகள் அல்லது வெளிப்பகுதிகளைக் கண்டறிய.
- வரலாற்றுத் தரவுகளின் அடிப்படையில் எதிர்கால விளைவுகளைக் கணிக்க.
தரவு சுரங்கத்தில் பயன்படுத்தப்படும் பொதுவான மாதிரி அங்கீகார நுட்பங்கள்
பல மாதிரி அங்கீகார நுட்பங்கள் தரவு சுரங்கத்தில் பரவலாகப் பயன்படுத்தப்படுகின்றன, ஒவ்வொன்றும் அதன் பலம் மற்றும் பலவீனங்களைக் கொண்டுள்ளன. நுட்பத்தின் தேர்வு குறிப்பிட்ட தரவு சுரங்கப் பணி மற்றும் தரவின் பண்புகளைப் பொறுத்தது.
வகைப்படுத்துதல்
வகைப்படுத்துதல் என்பது ஒரு மேற்பார்வையிடப்பட்ட கற்றல் நுட்பமாகும், இது தரவுகளை முன்வரையறுக்கப்பட்ட வகுப்புகள் அல்லது வகைகளாக வகைப்படுத்தப் பயன்படுகிறது. இந்த வழிமுறை ஒரு பெயரிடப்பட்ட தரவுத்தொகுப்பிலிருந்து கற்றுக்கொள்கிறது, அங்கு ஒவ்வொரு தரவுப் புள்ளிக்கும் ஒரு வகுப்பு லேபிள் ஒதுக்கப்பட்டுள்ளது, பின்னர் இந்த அறிவைப் பயன்படுத்தி புதிய, காணப்படாத தரவுப் புள்ளிகளை வகைப்படுத்துகிறது. வகைப்படுத்தல் வழிமுறைகளின் எடுத்துக்காட்டுகள் பின்வருமாறு:
- முடிவு மரங்கள் (Decision Trees): தரவுகளை வகைப்படுத்துவதற்கான விதிகள் தொகுப்பை பிரதிநிதித்துவப்படுத்தும் ஒரு மரம் போன்ற அமைப்பு. முடிவு மரங்கள் புரிந்துகொள்ள எளிதானவை மற்றும் வகைப்பட்ட மற்றும் எண் தரவுகளை கையாளக்கூடியவை. உதாரணமாக, வங்கித் துறையில், கடன் மதிப்பெண், வருமானம் மற்றும் வேலை வரலாறு போன்ற பல்வேறு காரணிகளின் அடிப்படையில் கடன் விண்ணப்பங்களை அதிக ஆபத்து அல்லது குறைந்த ஆபத்து என வகைப்படுத்த முடிவு மரங்கள் பயன்படுத்தப்படலாம்.
- ஆதரவு திசையன் இயந்திரங்கள் (SVMs): தரவுப் புள்ளிகளை வெவ்வேறு வகுப்புகளாகப் பிரிக்க உகந்த அதிபரப்பை (hyperplane) கண்டுபிடிக்கும் ஒரு சக்திவாய்ந்த வழிமுறை. SVMகள் உயர்-பரிமாண இடைவெளிகளில் பயனுள்ளவை மற்றும் நேரியல் அல்லாத தரவுகளைக் கையாளக்கூடியவை. உதாரணமாக, மோசடி கண்டறிதலில், பரிவர்த்தனை தரவுகளில் உள்ள மாதிரிகளின் அடிப்படையில் பரிவர்த்தனைகளை மோசடியானதா அல்லது முறையானதா என வகைப்படுத்த SVMகள் பயன்படுத்தப்படலாம்.
- நேவ் பேய்ஸ் (Naive Bayes): பேய்ஸ் தேற்றத்தின் அடிப்படையிலான ஒரு நிகழ்தகவு வகைப்படுத்தி. நேவ் பேய்ஸ் எளிமையானது மற்றும் திறமையானது, இது பெரிய தரவுத்தொகுப்புகளுக்கு ஏற்றது. உதாரணமாக, மின்னஞ்சல் ஸ்பேம் வடிகட்டுதலில், சில முக்கிய வார்த்தைகளின் இருப்பின் அடிப்படையில் மின்னஞ்சல்களை ஸ்பேம் அல்லது ஸ்பேம் இல்லை என வகைப்படுத்த நேவ் பேய்ஸ் பயன்படுத்தப்படலாம்.
- K-அருகாமை அண்டைவீட்டார் (KNN): ஒரு தரவுப் புள்ளியை அதன் அம்சம் இடைவெளியில் உள்ள k-அருகாமை அண்டைவீட்டாரின் பெரும்பான்மை வகுப்பின் அடிப்படையில் வகைப்படுத்தும் ஒரு அளபுரு அல்லாத வழிமுறை. இது புரிந்துகொள்ளவும் செயல்படுத்தவும் எளிதானது, ஆனால் பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக செலவாகும். ஒரு பரிந்துரை அமைப்பை கற்பனை செய்து பாருங்கள், அங்கு KNN ஒத்த பயனர்களின் கொள்முதல் வரலாற்றின் அடிப்படையில் பயனர்களுக்கு தயாரிப்புகளை பரிந்துரைக்கிறது.
- நரம்பியல் வலையமைப்புகள் (Neural Networks): மனித மூளையின் கட்டமைப்பால் ஈர்க்கப்பட்ட சிக்கலான மாதிரிகள். அவை சிக்கலான மாதிரிகளைக் கற்றுக்கொள்ள முடியும் மற்றும் பட அங்கீகாரம், இயற்கை மொழி செயலாக்கம் மற்றும் பிற சிக்கலான பணிகளுக்கு பரவலாகப் பயன்படுத்தப்படுகின்றன. ஒரு நடைமுறை உதாரணம் மருத்துவ நோயறிதலில் உள்ளது, அங்கு நரம்பியல் வலையமைப்புகள் நோய்களைக் கண்டறிய மருத்துவப் படங்களை (எக்ஸ்-கதிர்கள், எம்ஆர்ஐ) பகுப்பாய்வு செய்கின்றன.
கொத்தாக்கம்
கொத்தாக்கம் என்பது ஒரு மேற்பார்வையிடப்படாத கற்றல் நுட்பமாகும், இது ஒரே மாதிரியான தரவுப் புள்ளிகளை ஒன்றாகக் கொத்துக்களாகக் குழுவாக்கப் பயன்படுகிறது. இந்த வழிமுறை வகுப்பு லேபிள்கள் பற்றிய எந்த முன் அறிவும் இல்லாமல் தரவுகளில் உள்ளார்ந்த கட்டமைப்புகளை அடையாளம் காண்கிறது. கொத்தாக்க வழிமுறைகளின் எடுத்துக்காட்டுகள் பின்வருமாறு:
- கே-மீன்ஸ் (K-Means): தரவை k கொத்துக்களாகப் பிரிக்கும் ஒரு மீண்டும் மீண்டும் செய்யும் வழிமுறை, இங்கு ஒவ்வொரு தரவுப் புள்ளியும் அருகிலுள்ள சராசரி (மையப்புள்ளி) கொண்ட கொத்தைச் சேர்ந்தது. கே-மீன்ஸ் எளிமையானது மற்றும் திறமையானது, ஆனால் முன்கூட்டியே கொத்துக்களின் எண்ணிக்கையைக் குறிப்பிட வேண்டும். உதாரணமாக, சந்தைப் பிரிவில், வாடிக்கையாளர்களை அவர்களின் கொள்முதல் நடத்தை மற்றும் மக்கள்தொகை அடிப்படையில் வெவ்வேறு பிரிவுகளாகக் குழுவாக்க கே-மீன்ஸ் பயன்படுத்தப்படலாம்.
- படிநிலைக் கொத்தாக்கம் (Hierarchical Clustering): கொத்துக்களை மீண்டும் மீண்டும் இணைப்பதன் மூலம் அல்லது பிரிப்பதன் மூலம் கொத்துக்களின் படிநிலையை உருவாக்கும் ஒரு முறை. படிநிலைக் கொத்தாக்கத்திற்கு முன்கூட்டியே கொத்துக்களின் எண்ணிக்கையைக் குறிப்பிடத் தேவையில்லை. உதாரணமாக, ஆவணக் கொத்தாக்கத்தில், ஆவணங்களை அவற்றின் உள்ளடக்கத்தின் அடிப்படையில் வெவ்வேறு தலைப்புகளாகக் குழுவாக்க படிநிலைக் கொத்தாக்கம் பயன்படுத்தப்படலாம்.
- DBSCAN (சத்தத்துடன் கூடிய பயன்பாடுகளின் அடர்த்தி அடிப்படையிலான இடஞ்சார்ந்த கொத்தாக்கம்): அடர்த்தி அடிப்படையிலான ஒரு கொத்தாக்க வழிமுறை, இது நெருக்கமாக நிரம்பிய தரவுப் புள்ளிகளை ஒன்றாகக் குழுவாக்குகிறது, மேலும் குறைந்த அடர்த்திப் பகுதிகளில் தனியாக இருக்கும் புள்ளிகளை வெளிப்பகுதிகளாகக் குறிக்கிறது. இது தானாகவே கொத்துக்களின் எண்ணிக்கையைக் கண்டறிகிறது மற்றும் வெளிப்பகுதிகளுக்கு வலுவானது. ஒரு உன்னதமான பயன்பாடு, இருப்பிடத் தரவுகளின் அடிப்படையில் குற்றச் சம்பவங்களின் புவியியல் கொத்துக்களை அடையாளம் காண்பதில் உள்ளது.
பின்னடைவு
பின்னடைவு என்பது ஒரு மேற்பார்வையிடப்பட்ட கற்றல் நுட்பமாகும், இது ஒன்று அல்லது அதற்கு மேற்பட்ட உள்ளீட்டு மாறிகளின் அடிப்படையில் ஒரு தொடர்ச்சியான வெளியீட்டு மாறியைக் கணிக்கப் பயன்படுகிறது. இந்த வழிமுறை உள்ளீடு மற்றும் வெளியீட்டு மாறிகளுக்கு இடையிலான உறவைக் கற்றுக்கொள்கிறது, பின்னர் இந்த உறவைப் பயன்படுத்தி புதிய, காணப்படாத தரவுப் புள்ளிகளுக்கான வெளியீட்டைக் கணிக்கிறது. பின்னடைவு வழிமுறைகளின் எடுத்துக்காட்டுகள் பின்வருமாறு:
- நேரியல் பின்னடைவு (Linear Regression): உள்ளீடு மற்றும் வெளியீட்டு மாறிகளுக்கு இடையிலான உறவை ஒரு நேரியல் சமன்பாடாக மாதிரியாக்கும் ஒரு எளிய மற்றும் பரவலாகப் பயன்படுத்தப்படும் வழிமுறை. நேரியல் பின்னடைவு புரிந்துகொள்ள எளிதானது, ஆனால் நேரியல் அல்லாத உறவுகளுக்குப் பொருத்தமற்றதாக இருக்கலாம். உதாரணமாக, விற்பனை முன்கணிப்பில், வரலாற்று விற்பனைத் தரவு மற்றும் சந்தைப்படுத்தல் செலவினங்களின் அடிப்படையில் எதிர்கால விற்பனையைக் கணிக்க நேரியல் பின்னடைவு பயன்படுத்தப்படலாம்.
- பல்லுறுப்புக்கோவை பின்னடைவு (Polynomial Regression): உள்ளீடு மற்றும் வெளியீட்டு மாறிகளுக்கு இடையில் நேரியல் அல்லாத உறவுகளை அனுமதிக்கும் நேரியல் பின்னடைவின் நீட்டிப்பு.
- ஆதரவு திசையன் பின்னடைவு (SVR): தொடர்ச்சியான வெளியீட்டு மாறிகளைக் கணிக்க ஆதரவு திசையன் இயந்திரங்களைப் பயன்படுத்தும் ஒரு சக்திவாய்ந்த வழிமுறை. SVR உயர்-பரிமாண இடைவெளிகளில் பயனுள்ளது மற்றும் நேரியல் அல்லாத தரவுகளைக் கையாளக்கூடியது.
- முடிவு மரம் பின்னடைவு (Decision Tree Regression): தொடர்ச்சியான மதிப்புகளைக் கணிக்க முடிவு மரம் மாதிரிகளைப் பயன்படுத்துகிறது. ஒரு உதாரணம், அளவு, இடம் மற்றும் அறைகளின் எண்ணிக்கை போன்ற அம்சங்களின் அடிப்படையில் வீட்டு விலைகளைக் கணிப்பதாகும்.
தொடர்பு விதி சுரங்கம்
தொடர்பு விதி சுரங்கம் என்பது ஒரு தரவுத்தொகுப்பில் உள்ள உருப்படிகளுக்கு இடையிலான உறவுகளைக் கண்டறியப் பயன்படுத்தப்படும் ஒரு நுட்பமாகும். இந்த வழிமுறை அடிக்கடி நிகழும் உருப்படித் தொகுப்புகளை அடையாளம் காண்கிறது, அவை அடிக்கடி ஒன்றாக நிகழும் உருப்படிகளின் தொகுப்புகளாகும், பின்னர் இந்த உருப்படிகளுக்கு இடையிலான உறவுகளை விவரிக்கும் தொடர்பு விதிகளை உருவாக்குகிறது. தொடர்பு விதி சுரங்க வழிமுறைகளின் எடுத்துக்காட்டுகள் பின்வருமாறு:
- அப்ரியோரி (Apriori): அரிதாக நிகழும் உருப்படித் தொகுப்புகளை நீக்குவதன் மூலம் அடிக்கடி நிகழும் உருப்படித் தொகுப்புகளை மீண்டும் மீண்டும் உருவாக்கும் ஒரு பரவலாகப் பயன்படுத்தப்படும் வழிமுறை. அப்ரியோரி எளிமையானது மற்றும் திறமையானது, ஆனால் பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக செலவாகும். உதாரணமாக, சந்தைக் கூடைப் பகுப்பாய்வில், "ரொட்டி மற்றும் வெண்ணெய்" அல்லது "பீர் மற்றும் டயப்பர்கள்" போன்ற அடிக்கடி ஒன்றாக வாங்கப்படும் தயாரிப்புகளை அடையாளம் காண அப்ரியோரி பயன்படுத்தப்படலாம்.
- FP-வளர்ச்சி (FP-Growth): அப்ரியோரியை விட திறமையான ஒரு வழிமுறை, இது வேட்பாளர் உருப்படித் தொகுப்புகளை உருவாக்கும் தேவையைத் தவிர்க்கிறது. FP-வளர்ச்சி தரவுத்தொகுப்பை பிரதிநிதித்துவப்படுத்த ஒரு மரம் போன்ற தரவு கட்டமைப்பைப் பயன்படுத்துகிறது மற்றும் திறமையாக அடிக்கடி நிகழும் உருப்படித் தொகுப்புகளைக் கண்டறிகிறது.
முரண்பாடு கண்டறிதல்
முரண்பாடு கண்டறிதல் என்பது இயல்பிலிருந்து கணிசமாக விலகும் தரவுப் புள்ளிகளை அடையாளம் காணப் பயன்படுத்தப்படும் ஒரு நுட்பமாகும். இந்த முரண்பாடுகள் பிழைகள், மோசடி அல்லது பிற அசாதாரண நிகழ்வுகளைக் குறிக்கலாம். முரண்பாடு கண்டறிதல் வழிமுறைகளின் எடுத்துக்காட்டுகள் பின்வருமாறு:
- புள்ளிவிவர முறைகள்: இந்த முறைகள் தரவு ஒரு குறிப்பிட்ட புள்ளிவிவர விநியோகத்தைப் பின்பற்றுகிறது என்று கருதுகின்றன மற்றும் எதிர்பார்க்கப்படும் வரம்பிற்கு வெளியே விழும் தரவுப் புள்ளிகளை அடையாளம் காண்கின்றன. உதாரணமாக, கிரெடிட் கார்டு மோசடி கண்டறிதலில், பயனரின் சாதாரண செலவு முறைகளிலிருந்து கணிசமாக விலகும் பரிவர்த்தனைகளை அடையாளம் காண புள்ளிவிவர முறைகள் பயன்படுத்தப்படலாம்.
- இயந்திர கற்றல் முறைகள்: இந்த முறைகள் தரவுகளிலிருந்து கற்றுக்கொள்கின்றன மற்றும் கற்றுக்கொண்ட மாதிரிகளுக்கு இணங்காத தரவுப் புள்ளிகளை அடையாளம் காண்கின்றன. எடுத்துக்காட்டுகளில் ஒரு-வகுப்பு SVMகள், தனிமைப்படுத்தல் காடுகள் மற்றும் ஆட்டோஎன்கோடர்கள் ஆகியவை அடங்கும். தனிமைப்படுத்தல் காடுகள், உதாரணமாக, தரவு வெளியை தோராயமாகப் பிரிப்பதன் மூலமும், தனிமைப்படுத்த குறைந்த பகிர்வுகள் தேவைப்படும் புள்ளிகளை அடையாளம் காண்பதன் மூலமும் முரண்பாடுகளைத் தனிமைப்படுத்துகின்றன. இது பெரும்பாலும் அசாதாரண நெட்வொர்க் செயல்பாட்டைக் கண்டறிய நெட்வொர்க் ஊடுருவல் கண்டறிதலில் பயன்படுத்தப்படுகிறது.
தரவு முன்செயலாக்கம்: ஒரு முக்கியமான படி
தரவு சுரங்கத்திற்காகப் பயன்படுத்தப்படும் தரவின் தரம் முடிவுகளின் துல்லியம் மற்றும் நம்பகத்தன்மையை கணிசமாக பாதிக்கிறது. தரவு முன்செயலாக்கம் என்பது பகுப்பாய்விற்காக தரவை சுத்தம் செய்தல், மாற்றுதல் மற்றும் தயார் செய்வதை உள்ளடக்கிய ஒரு முக்கியமான படியாகும். பொதுவான தரவு முன்செயலாக்க நுட்பங்கள் பின்வருமாறு:
- தரவு சுத்தம் செய்தல்: தரவுகளில் விடுபட்ட மதிப்புகளைக் கையாளுதல், இரைச்சலை அகற்றுதல் மற்றும் முரண்பாடுகளை சரிசெய்தல். நுட்பங்களில் இம்பியூட்டேஷன் (விடுபட்ட மதிப்புகளை மதிப்பீடுகளுடன் மாற்றுதல்) மற்றும் வெளிப்பகுதிகளை அகற்றுதல் ஆகியவை அடங்கும்.
- தரவு மாற்றம்: பகுப்பாய்விற்காக தரவை பொருத்தமான வடிவத்திற்கு மாற்றுதல், அதாவது எண் தரவை ஒரு குறிப்பிட்ட வரம்பிற்கு அளவிடுதல் அல்லது வகைப்பட்ட தரவை எண் மதிப்புகளாக குறியாக்கம் செய்தல். உதாரணமாக, தரவை 0-1 வரம்பிற்கு இயல்பாக்குவது, பெரிய அளவிலான அம்சங்கள் பகுப்பாய்வில் ஆதிக்கம் செலுத்தாமல் இருப்பதை உறுதி செய்கிறது.
- தரவு குறைப்பு: பொருத்தமான அம்சங்களைத் தேர்ந்தெடுப்பதன் மூலமோ அல்லது அத்தியாவசிய தகவல்களைப் பிடிக்கும் புதிய அம்சங்களை உருவாக்குவதன் மூலமோ தரவின் பரிமாணத்தைக் குறைத்தல். இது தரவு சுரங்க வழிமுறைகளின் செயல்திறனையும் துல்லியத்தையும் மேம்படுத்தும். முதன்மை கூறு பகுப்பாய்வு (PCA) என்பது தரவில் உள்ள பெரும்பாலான மாறுபாடுகளைத் தக்க வைத்துக் கொண்டு பரிமாணத்தைக் குறைப்பதற்கான ஒரு பிரபலமான முறையாகும்.
- அம்சம் பிரித்தெடுத்தல்: படங்கள் அல்லது உரை போன்ற மூலத் தரவிலிருந்து அர்த்தமுள்ள அம்சங்களைத் தானாகப் பிரித்தெடுப்பதை இது உள்ளடக்கியது. உதாரணமாக, பட அங்கீகாரத்தில், அம்சம் பிரித்தெடுக்கும் நுட்பங்கள் படங்களில் விளிம்புகள், மூலைகள் மற்றும் அமைப்புகளை அடையாளம் காண முடியும்.
- அம்சம் தேர்வு: ஒரு பெரிய அம்சங்களின் தொகுப்பிலிருந்து மிகவும் பொருத்தமான அம்சங்களைத் தேர்ந்தெடுப்பது. இது தரவு சுரங்க வழிமுறைகளின் செயல்திறனை மேம்படுத்தலாம் மற்றும் மிகைப் பொருத்தம் (overfitting) அபாயத்தைக் குறைக்கலாம்.
மாதிரி அங்கீகாரத்துடன் கூடிய தரவு சுரங்கத்தின் பயன்பாடுகள்
மாதிரி அங்கீகார நுட்பங்களுடன் கூடிய தரவு சுரங்கம் பல்வேறு தொழில்களில் பரந்த அளவிலான பயன்பாடுகளைக் கொண்டுள்ளது:
- சில்லறை வணிகம்: சந்தைக் கூடைப் பகுப்பாய்வு, வாடிக்கையாளர் பிரிவு, பரிந்துரை அமைப்புகள் மற்றும் மோசடி கண்டறிதல். உதாரணமாக, வாடிக்கையாளர்கள் வாங்க வாய்ப்புள்ள தயாரிப்புகளைப் பரிந்துரைக்க கொள்முதல் முறைகளை பகுப்பாய்வு செய்தல்.
- நிதி: கடன் இடர் மதிப்பீடு, மோசடி கண்டறிதல், வழிமுறை வர்த்தகம் மற்றும் வாடிக்கையாளர் உறவு மேலாண்மை. வரலாற்றுத் தரவு மற்றும் சந்தைப் போக்குகளின் அடிப்படையில் பங்கு விலைகளைக் கணித்தல்.
- சுகாதாரம்: நோய் கண்டறிதல், மருந்து கண்டுபிடிப்பு, நோயாளி கண்காணிப்பு மற்றும் சுகாதார மேலாண்மை. குறிப்பிட்ட நோய்களுக்கான ஆபத்து காரணிகளை அடையாளம் காண நோயாளி தரவை பகுப்பாய்வு செய்தல்.
- உற்பத்தி: முன்கணிப்பு பராமரிப்பு, தரக் கட்டுப்பாடு, செயல்முறை மேம்படுத்தல் மற்றும் விநியோகச் சங்கிலி மேலாண்மை. வேலையில்லா நேரத்தைத் தடுக்க சென்சார் தரவுகளின் அடிப்படையில் உபகரணங்கள் செயலிழப்புகளைக் கணித்தல்.
- தொலைத்தொடர்பு: வாடிக்கையாளர் வெளியேற்ற முன்கணிப்பு, நெட்வொர்க் செயல்திறன் கண்காணிப்பு மற்றும் மோசடி கண்டறிதல். ஒரு போட்டி நிறுவனத்திற்கு மாற வாய்ப்புள்ள வாடிக்கையாளர்களை அடையாளம் காணுதல்.
- சமூக ஊடகங்கள்: உணர்வு பகுப்பாய்வு, போக்கு பகுப்பாய்வு மற்றும் சமூக வலைப்பின்னல் பகுப்பாய்வு. ஒரு பிராண்ட் அல்லது தயாரிப்பு பற்றிய பொதுக் கருத்தைப் புரிந்துகொள்ளுதல்.
- அரசு: குற்றப் பகுப்பாய்வு, மோசடி கண்டறிதல் மற்றும் தேசிய பாதுகாப்பு. சட்ட அமலாக்கத்தை மேம்படுத்த குற்றச் செயல்களில் உள்ள மாதிரிகளை அடையாளம் காணுதல்.
மாதிரி அங்கீகாரத்துடன் கூடிய தரவு சுரங்கத்தில் உள்ள சவால்கள்
அதன் ஆற்றல் இருந்தபோதிலும், மாதிரி அங்கீகாரத்துடன் கூடிய தரவு சுரங்கம் பல சவால்களை எதிர்கொள்கிறது:
- தரவின் தரம்: முழுமையற்ற, துல்லியமற்ற அல்லது இரைச்சல் மிகுந்த தரவு முடிவுகளின் துல்லியத்தை கணிசமாக பாதிக்கலாம்.
- அளவிடுதிறன்: பெரிய தரவுத்தொகுப்புகளைக் கையாள்வது கணக்கீட்டு ரீதியாக செலவாகும் மற்றும் சிறப்பு வன்பொருள் மற்றும் மென்பொருள் தேவைப்படலாம்.
- விளக்கமளிக்கும் தன்மை: நரம்பியல் வலையமைப்புகள் போன்ற சில தரவு சுரங்க வழிமுறைகளைப் புரிந்துகொள்வது கடினமாக இருக்கலாம், இது அவற்றின் கணிப்புகளுக்கான அடிப்படைக் காரணங்களைப் புரிந்துகொள்வதை சவாலாக்குகிறது. இந்த மாதிரிகளின் "கருப்புப் பெட்டி" தன்மைக்கு கவனமான சரிபார்ப்பு மற்றும் விளக்க நுட்பங்கள் தேவை.
- மிகைப் பொருத்தம் (Overfitting): தரவை மிகையாகப் பொருத்தும் ஆபத்து, இங்கு வழிமுறை பயிற்சித் தரவை மிக நன்றாகக் கற்றுக்கொள்கிறது மற்றும் புதிய, காணப்படாத தரவுகளில் மோசமாக செயல்படுகிறது. மிகைப் பொருத்தத்தைக் குறைக்க ஒழுங்குபடுத்தல் நுட்பங்கள் மற்றும் குறுக்கு சரிபார்ப்பு பயன்படுத்தப்படுகின்றன.
- தனியுரிமைக் கவலைகள்: தரவு சுரங்கம் தனியுரிமைக் கவலைகளை எழுப்பலாம், குறிப்பாக தனிப்பட்ட தகவல் அல்லது மருத்துவப் பதிவுகள் போன்ற முக்கியமான தரவுகளைக் கையாளும் போது. தரவு அநாமதேயமாக்கலை உறுதி செய்வதும் தனியுரிமை விதிமுறைகளுக்கு இணங்குவதும் முக்கியம்.
- தரவில் உள்ள சார்பு: தரவுத்தொகுப்புகள் பெரும்பாலும் சமூக சார்புகளைப் பிரதிபலிக்கின்றன. கவனிக்கப்படாவிட்டால், இந்த சார்புகள் தரவு சுரங்க வழிமுறைகளால் நிலைநிறுத்தப்பட்டுப் பெருக்கப்படலாம், இது நியாயமற்ற அல்லது பாரபட்சமான விளைவுகளுக்கு வழிவகுக்கும்.
மாதிரி அங்கீகாரத்துடன் கூடிய தரவு சுரங்கத்தில் எதிர்காலப் போக்குகள்
மாதிரி அங்கீகாரத்துடன் கூடிய தரவு சுரங்கத் துறை தொடர்ந்து உருவாகி வருகிறது, புதிய நுட்பங்கள் மற்றும் பயன்பாடுகள் தொடர்ந்து வெளிவருகின்றன. சில முக்கிய எதிர்காலப் போக்குகள் பின்வருமாறு:
- ஆழ் கற்றல் (Deep Learning): பட அங்கீகாரம், இயற்கை மொழி செயலாக்கம் மற்றும் பேச்சு அங்கீகாரம் போன்ற சிக்கலான மாதிரி அங்கீகாரப் பணிகளுக்கு ஆழ் கற்றல் வழிமுறைகளின் அதிகரித்து வரும் பயன்பாடு.
- விளக்கக்கூடிய AI (XAI): மிகவும் வெளிப்படையான மற்றும் விளக்கமளிக்கக்கூடிய AI மாதிரிகளை உருவாக்குவதில் கவனம் செலுத்துதல், பயனர்கள் தங்கள் கணிப்புகளுக்குப் பின்னால் உள்ள காரணங்களைப் புரிந்துகொள்ள அனுமதிக்கிறது.
- கூட்டமைக் கற்றல் (Federated Learning): தரவைப் பகிராமல் பரவலாக்கப்பட்ட தரவுகளில் இயந்திர கற்றல் மாதிரிகளைப் பயிற்றுவித்தல், தனியுரிமை மற்றும் பாதுகாப்பைப் பாதுகாத்தல்.
- தானியங்கு இயந்திர கற்றல் (AutoML): இயந்திர கற்றல் மாதிரிகளை உருவாக்குதல் மற்றும் வரிசைப்படுத்தும் செயல்முறையை தானியக்கமாக்குதல், தரவு சுரங்கத்தை நிபுணர் அல்லாதவர்களுக்கு அணுகக்கூடியதாக மாற்றுதல்.
- நிகழ்நேர தரவு சுரங்கம்: சரியான நேரத்தில் முடிவெடுப்பதை செயல்படுத்த நிகழ்நேரத்தில் தரவைச் செயலாக்குதல் மற்றும் பகுப்பாய்வு செய்தல்.
- வரைபட தரவு சுரங்கம் (Graph Data Mining): நிறுவனங்களுக்கு இடையிலான உறவுகள் மற்றும் மாதிரிகளைக் கண்டறிய வரைபடங்களாகப் பிரதிநிதித்துவப்படுத்தப்பட்ட தரவைப் பகுப்பாய்வு செய்தல். இது சமூக வலைப்பின்னல் பகுப்பாய்வு மற்றும் அறிவு வரைபடக் கட்டுமானத்தில் குறிப்பாக பயனுள்ளதாக இருக்கும்.
முடிவுரை
மாதிரி அங்கீகார நுட்பங்களுடன் கூடிய தரவு சுரங்கம் பெரிய தரவுத்தொகுப்புகளிலிருந்து மதிப்புமிக்க நுண்ணறிவுகளையும் அறிவையும் பிரித்தெடுப்பதற்கான ஒரு சக்திவாய்ந்த கருவியாகும். சம்பந்தப்பட்ட வெவ்வேறு நுட்பங்கள், பயன்பாடுகள் மற்றும் சவால்களைப் புரிந்துகொள்வதன் மூலம், நிறுவனங்கள் போட்டித்தன்மையை அதிகரிக்கவும், முடிவெடுப்பதை மேம்படுத்தவும், மற்றும் செயல்பாட்டுத் திறனை அதிகரிக்கவும் தரவு சுரங்கத்தைப் பயன்படுத்தலாம். இந்தத் துறை தொடர்ந்து உருவாகி வருவதால், தரவு சுரங்கத்தின் முழுத் திறனையும் பயன்படுத்த சமீபத்திய போக்குகள் மற்றும் முன்னேற்றங்கள் குறித்து அறிந்திருப்பது அவசியம்.
மேலும், எந்தவொரு தரவு சுரங்கத் திட்டத்திலும் நெறிமுறைக் கருத்தாய்வுகள் முன்னணியில் இருக்க வேண்டும். சார்புகளை நிவர்த்தி செய்தல், தனியுரிமையை உறுதி செய்தல் மற்றும் வெளிப்படைத்தன்மையை ஊக்குவித்தல் ஆகியவை நம்பிக்கையை வளர்ப்பதற்கும் தரவு சுரங்கம் பொறுப்புடன் பயன்படுத்தப்படுவதை உறுதி செய்வதற்கும் முக்கியமானவை.