தரவு முற்செயலாக்க உத்திகளுக்கான ஒரு முழுமையான வழிகாட்டி. இது தரவு சுத்தம், மாற்றம், மற்றும் உலகளாவிய தரவுத்தொகுப்புகளை பகுப்பாய்வு மற்றும் இயந்திர கற்றலுக்குத் தயாரிக்கும் சிறந்த நடைமுறைகளை உள்ளடக்கியது.
தரவு முற்செயலாக்கம்: உலகளாவிய தரவுத்தொகுப்புகளுக்கான சுத்தம் மற்றும் மாற்றம்
இன்றைய தரவு சார்ந்த உலகில், உலகெங்கிலும் உள்ள நிறுவனங்கள் நுண்ணறிவுகளைப் பெறவும், தகவலறிந்த முடிவுகளை எடுக்கவும், அறிவார்ந்த அமைப்புகளை உருவாக்கவும் பரந்த அளவிலான தரவுகளைப் பயன்படுத்துகின்றன. இருப்பினும், மூலத் தரவு அரிதாகவே சரியானதாக இருக்கும். இது பெரும்பாலும் முரண்பாடுகள், பிழைகள், விடுபட்ட மதிப்புகள் மற்றும் தேவையற்ற தகவல்களால் பாதிக்கப்படுகிறது. இங்குதான் தரவு முற்செயலாக்கம் முக்கியப் பங்கு வகிக்கிறது. தரவு முற்செயலாக்கம் என்பது தரவுச் சுரங்கம் மற்றும் இயந்திர கற்றல் செயல்முறையில் ஒரு முக்கியமான படியாகும். இது மூலத் தரவை சுத்தம் செய்தல், மாற்றுதல் மற்றும் பயன்படுத்தக்கூடிய வடிவத்தில் தயாரிப்பதை உள்ளடக்கியது. இந்த செயல்முறை தரவு துல்லியமானது, சீரானது மற்றும் பகுப்பாய்விற்கு ஏற்றது என்பதை உறுதிசெய்கிறது, இது மேலும் நம்பகமான மற்றும் அர்த்தமுள்ள முடிவுகளுக்கு வழிவகுக்கிறது.
தரவு முற்செயலாக்கம் ஏன் முக்கியமானது?
தரவின் தரம் எந்தவொரு தரவு பகுப்பாய்வு அல்லது இயந்திர கற்றல் மாதிரியின் செயல்திறனையும் நேரடியாக பாதிக்கிறது. தூய்மையற்ற அல்லது மோசமாகத் தயாரிக்கப்பட்ட தரவு தவறான முடிவுகள், ஒருதலைப்பட்சமான மாதிரிகள் மற்றும் குறைபாடுள்ள நுண்ணறிவுகளுக்கு வழிவகுக்கும். தரவு முற்செயலாக்கம் ஏன் அவசியம் என்பதற்கான இந்த முக்கிய காரணங்களைக் கவனியுங்கள்:
- மேம்படுத்தப்பட்ட துல்லியம்: சுத்தமான மற்றும் சீரான தரவு மேலும் துல்லியமான முடிவுகளுக்கும் நம்பகமான கணிப்புகளுக்கும் வழிவகுக்கிறது.
- மேம்படுத்தப்பட்ட மாதிரி செயல்திறன்: நன்கு முற்செயலாக்கப்பட்ட தரவு இயந்திர கற்றல் மாதிரிகள் திறம்பட கற்றுக்கொள்ளவும், பார்க்காத தரவுகளுக்கு சிறப்பாகப் பொதுமைப்படுத்தவும் உதவுகிறது.
- குறைக்கப்பட்ட ஒருதலைப்பட்சம்: விடுபட்ட தரவு மற்றும் வெளிப்படை போன்ற சிக்கல்களைக் கையாள்வது தரவில் உள்ள ஒருதலைப்பட்சத்தைக் குறைக்கலாம், இது மேலும் நியாயமான மற்றும் சமமான விளைவுகளுக்கு வழிவகுக்கிறது.
- வேகமான செயலாக்கம்: தரவின் அளவையும் சிக்கலையும் குறைப்பதன் மூலம், முற்செயலாக்கம் பகுப்பாய்வு மற்றும் மாதிரிப் பயிற்சியை கணிசமாக வேகப்படுத்தலாம்.
- சிறந்த புரிதல்: சுத்தமான மற்றும் மாற்றப்பட்ட தரவைப் புரிந்துகொள்வதும் விளக்குவதும் எளிதானது, இது கண்டறிதல்களையும் நுண்ணறிவுகளையும் தொடர்புகொள்வதை எளிதாக்குகிறது.
தரவு முற்செயலாக்கத்தின் முக்கிய நிலைகள்
தரவு முற்செயலாக்கம் பொதுவாக பல நிலைகளை உள்ளடக்கியது, ஒவ்வொன்றும் குறிப்பிட்ட தரவுத் தரச் சிக்கல்களைக் கையாண்டு, பகுப்பாய்விற்காகத் தரவைத் தயாரிக்கின்றன. இந்த நிலைகள் பெரும்பாலும் ஒன்றோடொன்று இணைந்திருக்கலாம் மற்றும் மீண்டும் மீண்டும் செய்யப்பட வேண்டியிருக்கும்.
1. தரவு சுத்தம் செய்தல்
தரவு சுத்தம் செய்தல் என்பது தரவில் உள்ள பிழைகள், முரண்பாடுகள் மற்றும் தவறுகளைக் கண்டறிந்து சரிசெய்யும் செயல்முறையாகும். இது பல்வேறு நுட்பங்களை உள்ளடக்கியிருக்கலாம்:
- விடுபட்ட மதிப்புகளைக் கையாளுதல்: நிஜ உலக தரவுத்தொகுப்புகளில் விடுபட்ட மதிப்புகள் ஒரு பொதுவான பிரச்சனையாகும். விடுபட்ட மதிப்புகளைக் கையாள்வதற்கான உத்திகள் பின்வருமாறு:
- நீக்குதல்: விடுபட்ட மதிப்புகளைக் கொண்ட வரிசைகள் அல்லது நெடுவரிசைகளை நீக்குதல். இது ஒரு எளிய அணுகுமுறை, ஆனால் விடுபட்ட மதிப்புகள் அதிகமாக இருந்தால் குறிப்பிடத்தக்க தரவு இழப்பிற்கு வழிவகுக்கும்.
- நிரப்புதல் (Imputation): விடுபட்ட மதிப்புகளை மதிப்பிடப்பட்ட மதிப்புகளுடன் மாற்றுவது. பொதுவான நிரப்புதல் நுட்பங்கள் பின்வருமாறு:
- சராசரி/இடைநிலை நிரப்புதல்: விடுபட்ட மதிப்புகளை அந்த நெடுவரிசையின் சராசரி அல்லது இடைநிலையுடன் மாற்றுவது. இது ஒரு எளிய மற்றும் பரவலாகப் பயன்படுத்தப்படும் நுட்பமாகும். உதாரணமாக, ஒரு தரவுத்தொகுப்பில் விடுபட்ட வருமான மதிப்புகளை அந்த மக்கள்தொகையின் இடைநிலை வருமானத்துடன் நிரப்புதல்.
- மோடு நிரப்புதல்: விடுபட்ட மதிப்புகளை அந்த நெடுவரிசையின் அடிக்கடி வரும் மதிப்புடன் (மோடு) மாற்றுவது. இது வகைப்படுத்தப்பட்ட தரவுகளுக்கு ஏற்றது.
- K-அருகாமை அயலவர் (KNN) நிரப்புதல்: விடுபட்ட மதிப்புகளை k-அருகாமை அயலவர்களின் மதிப்புகளின் சராசரியுடன் மாற்றுவது. இது மாறிகளுக்கு இடையேயான உறவுகளைப் பிடிக்கக்கூடிய ஒரு மேம்பட்ட நுட்பமாகும்.
- மாதிரி அடிப்படையிலான நிரப்புதல்: பிற மாறிகளின் அடிப்படையில் விடுபட்ட மதிப்புகளைக் கணிக்க ஒரு இயந்திர கற்றல் மாதிரியைப் பயன்படுத்துதல்.
- வெளிப்படை கண்டறிதல் மற்றும் நீக்குதல் (Outlier Detection): வெளிப்படைகள் என்பது மற்ற தரவுகளிலிருந்து கணிசமாக வேறுபடும் தரவுப் புள்ளிகள் ஆகும். அவை பகுப்பாய்வை சிதைத்து, மாதிரி செயல்திறனை எதிர்மறையாக பாதிக்கலாம். வெளிப்படைகளைக் கண்டறிவதற்கான நுட்பங்கள் பின்வருமாறு:
- Z-மதிப்பெண்: சராசரியிலிருந்து ஒரு குறிப்பிட்ட எண்ணிக்கையிலான திட்ட விலகல்களுக்கு வெளியே விழும் தரவுப் புள்ளிகளைக் கண்டறிதல். ஒரு பொதுவான வரம்பு 3 திட்ட விலகல்கள் ஆகும்.
- காற்பகுதி வீச்சு (IQR): Q1 - 1.5 * IQR க்கு கீழே அல்லது Q3 + 1.5 * IQR க்கு மேலே விழும் தரவுப் புள்ளிகளைக் கண்டறிதல், இங்கு Q1 மற்றும் Q3 முறையே முதல் மற்றும் மூன்றாவது காற்பகுதிகள் ஆகும்.
- பெட்டி வரைபடங்கள் (Box Plots): தரவின் பரவலைக் காட்சிப்படுத்தி, பெட்டி வரைபடத்தின் விளிம்புகளுக்கு வெளியே விழும் புள்ளிகளை வெளிப்படைகளாகக் கண்டறிதல்.
- கொத்தாக்குதல் நெறிமுறைகள் (Clustering Algorithms): K-Means அல்லது DBSCAN போன்ற கொத்தாக்குதல் நெறிமுறைகளைப் பயன்படுத்தி, எந்தவொரு கொத்துக்கும் சொந்தமில்லாத மற்றும் வெளிப்படைகளாகக் கருதப்படும் தரவுப் புள்ளிகளைக் கண்டறிதல்.
- தரவு வகை மாற்றம்: தரவு வகைகள் சீரானதாகவும், பகுப்பாய்விற்குப் பொருத்தமானதாகவும் இருப்பதை உறுதி செய்தல். உதாரணமாக, எண் மதிப்புகளைக் குறிக்கும் சரங்களை முழு எண்களாக அல்லது மிதவைகளாக மாற்றுதல்.
- நகல் தரவை நீக்குதல்: ஒருதலைப்பட்சம் மற்றும் தேவையற்ற தகவல்களைத் தவிர்க்க, நகல் பதிவுகளைக் கண்டறிந்து நீக்குதல். இது சரியான பொருத்தங்களின் அடிப்படையில் அல்லது அருகாமை நகல்களைக் கண்டறிய மங்கலான பொருத்துதல் நுட்பங்களைப் பயன்படுத்திச் செய்யப்படலாம்.
- சீரற்ற தரவைக் கையாளுதல்: வெவ்வேறு அளவீட்டு அலகுகள் அல்லது முரண்பட்ட மதிப்புகள் போன்ற தரவில் உள்ள முரண்பாடுகளைக் கையாளுதல். உதாரணமாக, அனைத்து நாணய மதிப்புகளும் பரிமாற்ற விகிதங்களைப் பயன்படுத்தி ஒரு பொதுவான நாணயத்திற்கு மாற்றப்படுவதை உறுதி செய்தல். வெவ்வேறு நாடுகளில் உள்ள முகவரி வடிவங்களில் உள்ள முரண்பாடுகளை ஒரு பொதுவான வடிவத்திற்கு தரப்படுத்துவதன் மூலம் நிவர்த்தி செய்தல்.
உதாரணம்: உலகளாவிய வாடிக்கையாளர் தரவுத்தளத்தில் (+1-555-123-4567, 555-123-4567, 0015551234567) போன்ற சீரற்ற தொலைபேசி எண் வடிவங்கள் இருப்பதாக கற்பனை செய்து பாருங்கள். சுத்தம் செய்தல் என்பது இந்த வடிவங்களை E.164 போன்ற ஒரு நிலையான வடிவத்திற்கு தரப்படுத்துவதை உள்ளடக்கியது, இது தொலைபேசி எண்களுக்கான சர்வதேச தரமாகும்.
2. தரவு மாற்றம்
தரவு மாற்றம் என்பது தரவை ஒரு வடிவத்திலிருந்து அல்லது கட்டமைப்பிலிருந்து மற்றொன்றிற்கு மாற்றுவதை உள்ளடக்கியது, இது பகுப்பாய்விற்கு மேலும் பொருத்தமானதாக அமையும். பொதுவான தரவு மாற்ற நுட்பங்கள் பின்வருமாறு:
- தரவு இயல்பாக்கம் (Normalization): எண் தரவை ஒரு குறிப்பிட்ட வரம்பிற்குள், பொதுவாக 0 மற்றும் 1 க்கு இடையில் அளவிடுதல். மாறிகள் வெவ்வேறு அளவீடுகளைக் கொண்டிருக்கும்போது இது பயனுள்ளதாக இருக்கும் மற்றும் பெரிய மதிப்புகளைக் கொண்ட மாறிகள் பகுப்பாய்வில் ஆதிக்கம் செலுத்துவதைத் தடுக்கலாம். பொதுவான இயல்பாக்க நுட்பங்கள் பின்வருமாறு:
- குறைந்தபட்ச-அதிகபட்ச அளவிடுதல் (Min-Max Scaling): (x - min) / (max - min) என்ற சூத்திரத்தைப் பயன்படுத்தி தரவை [0, 1] வரம்பிற்கு அளவிடுதல்.
- Z-மதிப்பெண் தரப்படுத்தல் (Z-Score Standardization): (x - mean) / std என்ற சூத்திரத்தைப் பயன்படுத்தி தரவை சராசரி 0 மற்றும் திட்ட விலகல் 1 ஆக இருக்கும்படி அளவிடுதல்.
- தரவு தரப்படுத்தல் (Standardization): எண் தரவை சராசரி 0 மற்றும் திட்ட விலகல் 1 ஆக இருக்கும்படி அளவிடுதல். மாறிகள் வெவ்வேறு பரவல்களைக் கொண்டிருக்கும்போது இது பயனுள்ளதாக இருக்கும் மற்றும் சில இயந்திர கற்றல் நெறிமுறைகளின் செயல்திறனை மேம்படுத்த உதவும்.
- மடக்கை மாற்றம் (Log Transformation): தரவிற்கு ஒரு மடக்கை செயல்பாட்டைப் பயன்படுத்துதல். இது தரவின் சரிவைக் குறைப்பதற்கும் அதை மேலும் இயல்பாகப் பரவச் செய்வதற்கும் பயனுள்ளதாக இருக்கும்.
- தொகுப்பாக்கம் (Binning): தொடர்ச்சியான மதிப்புகளை தனித்தனி தொகுப்புகளாக குழுவாக்குதல். இது தரவை எளிமைப்படுத்தவும், தனித்துவமான மதிப்புகளின் எண்ணிக்கையைக் குறைக்கவும் பயனுள்ளதாக இருக்கும். உதாரணமாக, வயது மதிப்புகளை வயதுக் குழுக்களாக (எ.கா., 18-25, 26-35, 36-45) தொகுப்பது.
- ஒன்-ஹாட் குறியாக்கம் (One-Hot Encoding): வகைப்படுத்தப்பட்ட மாறிகளை ஒவ்வொரு வகைக்கும் ஒரு இரும நெடுவரிசையை உருவாக்குவதன் மூலம் எண் மாறிகளாக மாற்றுதல். உதாரணமாக, "சிவப்பு", "பச்சை", மற்றும் "நீலம்" மதிப்புகளைக் கொண்ட "நிறம்" என்ற மாறியை "நிறம்_சிவப்பு", "நிறம்_பச்சை", மற்றும் "நிறம்_நீலம்" என மூன்று இரும நெடுவரிசைகளாக மாற்றுதல்.
- சிறப்பியல்பு அளவிடுதல் (Feature Scaling): பெரிய மதிப்புகளைக் கொண்ட சிறப்பியல்புகள் பகுப்பாய்வில் ஆதிக்கம் செலுத்துவதைத் தடுக்க, எண் சிறப்பியல்புகளை ஒத்த வரம்பிற்கு அளவிடுதல். K-அருகாமை அயலவர்கள் மற்றும் ஆதரவு திசையன் இயந்திரங்கள் போன்ற சிறப்பியல்பு அளவிடுதலுக்கு முக்கியத்துவம் கொடுக்கும் நெறிமுறைகளுக்கு இது மிகவும் முக்கியமானது.
- திரட்டல் (Aggregation): பல மூலங்களிலிருந்து அல்லது நுண்ணிய நிலைகளிலிருந்து வரும் தரவை ஒரே அட்டவணை அல்லது பார்வையில் இணைத்தல். இது தரவைச் சுருக்குதல், திரட்டல்களைக் கணக்கிடுதல் மற்றும் அட்டவணைகளை இணைத்தல் ஆகியவற்றை உள்ளடக்கியிருக்கலாம்.
- பிரித்தல் (Decomposition): சிக்கலான தரவை எளிய கூறுகளாகப் பிரித்தல். உதாரணமாக, ஒரு தேதி மாறியை ஆண்டு, மாதம் மற்றும் நாள் கூறுகளாகப் பிரித்தல்.
உதாரணம்: ஒரு உலகளாவிய இ-காமர்ஸ் தரவுத்தொகுப்பில், பரிவர்த்தனைத் தொகைகள் வெவ்வேறு நாணயங்களில் இருக்கலாம். மாற்றம் என்பது அனைத்து பரிவர்த்தனைத் தொகைகளையும் தற்போதைய பரிமாற்ற விகிதங்களைப் பயன்படுத்தி ஒரு பொதுவான நாணயத்திற்கு (எ.கா., USD) மாற்றுவதை உள்ளடக்கும். மற்றொரு உதாரணம், இருப்பிடத்தைப் பொறுத்து பரவலாக மாறுபடும் தேதி வடிவங்களை (MM/DD/YYYY, DD/MM/YYYY, YYYY-MM-DD) ஒரு ஒருங்கிணைந்த ISO 8601 வடிவத்திற்கு (YYYY-MM-DD) தரப்படுத்துவது ஆகும்.
3. தரவு குறைப்பு
தரவு குறைப்பு என்பது முக்கியமான தகவல்களை இழக்காமல் தரவின் அளவையும் சிக்கலையும் குறைப்பதை உள்ளடக்கியது. இது பகுப்பாய்வு மற்றும் மாதிரிப் பயிற்சியின் செயல்திறனை மேம்படுத்தலாம். பொதுவான தரவு குறைப்பு நுட்பங்கள் பின்வருமாறு:
- சிறப்பியல்பு தேர்வு (Feature Selection): மிகவும் பொருத்தமான சிறப்பியல்புகளின் ஒரு துணைக்குழுவைத் தேர்ந்தெடுத்தல். இது புள்ளிவிவர முறைகள், இயந்திர கற்றல் நெறிமுறைகள் அல்லது துறைசார் நிபுணத்துவத்தைப் பயன்படுத்திச் செய்யப்படலாம். உதாரணமாக, வாடிக்கையாளர் வெளியேற்றத்தைக் கணிக்க மிகவும் முக்கியமான மக்கள்தொகை மாறிகளைத் தேர்ந்தெடுத்தல்.
- பரிமாணக் குறைப்பு (Dimensionality Reduction): முதன்மை கூறு பகுப்பாய்வு (PCA) அல்லது t-பரவலாக்கப்பட்ட வாய்ப்பியல்பு அண்டை உட்பொதித்தல் (t-SNE) போன்ற நுட்பங்களைப் பயன்படுத்தி சிறப்பியல்புகளின் எண்ணிக்கையைக் குறைத்தல். இது உயர்-பரிமாணத் தரவைக் காட்சிப்படுத்தவும், மாதிரிப் பயிற்சியின் கணக்கீட்டுச் செலவைக் குறைக்கவும் பயனுள்ளதாக இருக்கும்.
- தரவு மாதிரியெடுத்தல் (Data Sampling): தரவுத்தொகுப்பின் அளவைக் குறைக்க தரவின் ஒரு துணைக்குழுவைத் தேர்ந்தெடுத்தல். இது சீரற்ற மாதிரியெடுத்தல், அடுக்கு மாதிரியெடுத்தல் அல்லது பிற மாதிரியெடுத்தல் நுட்பங்களைப் பயன்படுத்திச் செய்யப்படலாம்.
- சிறப்பியல்பு திரட்டல் (Feature Aggregation): பல சிறப்பியல்புகளை ஒரே சிறப்பியல்பாக இணைத்தல். உதாரணமாக, பல வாடிக்கையாளர் தொடர்பு அளவீடுகளை ஒரே வாடிக்கையாளர் ஈடுபாட்டு மதிப்பெண்ணாக இணைத்தல்.
உதாரணம்: ஒரு உலகளாவிய சந்தைப்படுத்தல் பிரச்சாரம் நூற்றுக்கணக்கான வாடிக்கையாளர் பண்புகள் குறித்த தரவைச் சேகரிக்கலாம். சிறப்பியல்பு தேர்வு என்பது பிரச்சாரப் பதிலைக் கணிக்க மிகவும் பொருத்தமான பண்புகளைக் கண்டறிவதை உள்ளடக்கியது, அதாவது மக்கள்தொகை, கொள்முதல் வரலாறு மற்றும் வலைத்தள செயல்பாடு போன்றவை.
4. தரவு ஒருங்கிணைப்பு
தரவு ஒருங்கிணைப்பு என்பது பல மூலங்களிலிருந்து வரும் தரவை ஒரு ஒருங்கிணைந்த தரவுத்தொகுப்பில் இணைப்பதை உள்ளடக்கியது. தரவு வெவ்வேறு வடிவங்கள், தரவுத்தளங்கள் அல்லது அமைப்புகளில் சேமிக்கப்படும்போது இது பெரும்பாலும் அவசியமாகிறது. பொதுவான தரவு ஒருங்கிணைப்பு நுட்பங்கள் பின்வருமாறு:
- திட்டப் பொருத்தம் (Schema Matching): வெவ்வேறு தரவுத்தொகுப்புகளில் தொடர்புடைய பண்புகளைக் கண்டறிதல். இது பண்புப் பெயர்கள், தரவு வகைகள் மற்றும் சொற்பொருள்களைப் பொருத்துவதை உள்ளடக்கியிருக்கலாம்.
- தரவு ஒருங்கிணைத்தல் (Data Consolidation): பல மூலங்களிலிருந்து வரும் தரவை ஒரே அட்டவணை அல்லது பார்வையில் இணைத்தல். இது அட்டவணைகளை ஒன்றிணைத்தல், அட்டவணைகளை இணைத்தல் மற்றும் முரண்பாடுகளைத் தீர்ப்பது ஆகியவற்றை உள்ளடக்கியிருக்கலாம்.
- தரவு சுத்திகரிப்பு (Data Cleansing): ஒருங்கிணைக்கப்பட்ட தரவு சுத்தமாகவும் சீராகவும் இருப்பதை உறுதி செய்தல். இது முரண்பாடுகளைக் கையாளுதல், நகல்களை நீக்குதல் மற்றும் விடுபட்ட மதிப்புகளைக் கையாளுதல் ஆகியவற்றை உள்ளடக்கியிருக்கலாம்.
- நிறுவனத் தீர்வு (Entity Resolution): ஒரே நிறுவனத்தைக் குறிக்கும் பதிவுகளைக் கண்டறிந்து ஒன்றிணைத்தல். இது நகல் நீக்கம் அல்லது பதிவு இணைப்பு என்றும் அழைக்கப்படுகிறது.
உதாரணம்: ஒரு பன்னாட்டு நிறுவனம் ஒவ்வொரு பிராந்தியத்திற்கும் வெவ்வேறு தரவுத்தளங்களில் வாடிக்கையாளர் தரவைச் சேமித்து வைத்திருக்கலாம். தரவு ஒருங்கிணைப்பு என்பது இந்தத் தரவுத்தளங்களை ஒரே வாடிக்கையாளர் பார்வையில் இணைத்து, வாடிக்கையாளர் அடையாளம் மற்றும் தரவு வடிவங்களில் நிலைத்தன்மையை உறுதி செய்வதை உள்ளடக்கியது.
நடைமுறை உதாரணங்கள் மற்றும் குறியீடு துணுக்குகள் (பைத்தான்)
பைத்தான் மற்றும் பாண்டாஸ் நூலகத்தைப் பயன்படுத்தி தரவு முற்செயலாக்க நுட்பங்களின் சில நடைமுறை உதாரணங்கள் இங்கே:
விடுபட்ட மதிப்புகளைக் கையாளுதல்
import pandas as pd
import numpy as np
# விடுபட்ட மதிப்புகளுடன் ஒரு மாதிரி டேட்டாஃபிரேமை உருவாக்கவும்
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'Age': [25, 30, None, 35, 28],
'Salary': [50000, None, 60000, 70000, 55000],
'Country': ['USA', 'Canada', 'UK', None, 'Australia']
}
df = pd.DataFrame(data)
# விடுபட்ட வயது மதிப்புகளை சராசரியுடன் நிரப்பவும்
df['Age'].fillna(df['Age'].mean(), inplace=True)
# விடுபட்ட சம்பள மதிப்புகளை இடைநிலையுடன் நிரப்பவும்
df['Salary'].fillna(df['Salary'].median(), inplace=True)
# விடுபட்ட நாடு மதிப்புகளை மோடுடன் நிரப்பவும்
df['Country'].fillna(df['Country'].mode()[0], inplace=True)
print(df)
வெளிப்படை கண்டறிதல் மற்றும் நீக்குதல்
import pandas as pd
import numpy as np
# வெளிப்படைகளுடன் ஒரு மாதிரி டேட்டாஃபிரேமை உருவாக்கவும்
data = {
'Value': [10, 12, 15, 18, 20, 22, 25, 28, 30, 100]
}
df = pd.DataFrame(data)
# ஒவ்வொரு மதிப்பிற்கும் Z-மதிப்பெண்ணைக் கணக்கிடவும்
df['Z-Score'] = np.abs((df['Value'] - df['Value'].mean()) / df['Value'].std())
# Z-மதிப்பெண் வரம்பின் அடிப்படையில் வெளிப்படைகளைக் கண்டறியவும் (எ.கா., 3)
outliers = df[df['Z-Score'] > 3]
# டேட்டாஃபிரேமிலிருந்து வெளிப்படைகளை நீக்கவும்
df_cleaned = df[df['Z-Score'] <= 3]
print("Original DataFrame:\n", df)
print("Outliers:\n", outliers)
print("Cleaned DataFrame:\n", df_cleaned)
தரவு இயல்பாக்கம்
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
# ஒரு மாதிரி டேட்டாஃபிரேமை உருவாக்கவும்
data = {
'Feature1': [10, 20, 30, 40, 50],
'Feature2': [100, 200, 300, 400, 500]
}
df = pd.DataFrame(data)
# MinMaxScaler-ஐ துவக்கவும்
scaler = MinMaxScaler()
# தரவைப் பொருத்தி மாற்றவும்
df[['Feature1', 'Feature2']] = scaler.fit_transform(df[['Feature1', 'Feature2']])
print(df)
தரவு தரப்படுத்தல்
import pandas as pd
from sklearn.preprocessing import StandardScaler
# ஒரு மாதிரி டேட்டாஃபிரேமை உருவாக்கவும்
data = {
'Feature1': [10, 20, 30, 40, 50],
'Feature2': [100, 200, 300, 400, 500]
}
df = pd.DataFrame(data)
# StandardScaler-ஐ துவக்கவும்
scaler = StandardScaler()
# தரவைப் பொருத்தி மாற்றவும்
df[['Feature1', 'Feature2']] = scaler.fit_transform(df[['Feature1', 'Feature2']])
print(df)
ஒன்-ஹாட் குறியாக்கம்
import pandas as pd
# ஒரு வகைப்படுத்தப்பட்ட மாறியுடன் ஒரு மாதிரி டேட்டாஃபிரேமை உருவாக்கவும்
data = {
'Color': ['Red', 'Green', 'Blue', 'Red', 'Green']
}
df = pd.DataFrame(data)
# ஒன்-ஹாட் குறியாக்கத்தைச் செய்யவும்
df = pd.get_dummies(df, columns=['Color'])
print(df)
தரவு முற்செயலாக்கத்திற்கான சிறந்த நடைமுறைகள்
திறமையான தரவு முற்செயலாக்கத்தை உறுதி செய்ய, இந்த சிறந்த நடைமுறைகளைக் கருத்தில் கொள்ளுங்கள்:
- தரவைப் புரிந்துகொள்ளுதல்: எந்தவொரு முற்செயலாக்கத்தையும் தொடங்குவதற்கு முன், தரவு, அதன் மூலங்கள் மற்றும் அதன் வரம்புகளை முழுமையாகப் புரிந்து கொள்ளுங்கள்.
- தெளிவான நோக்கங்களை வரையறுத்தல்: முற்செயலாக்கப் படிகளை வழிநடத்த, தரவு பகுப்பாய்வு அல்லது இயந்திர கற்றல் திட்டத்தின் இலக்குகளைத் தெளிவாக வரையறுக்கவும்.
- அனைத்தையும் ஆவணப்படுத்துதல்: மீண்டும் உருவாக்குதல் மற்றும் வெளிப்படைத்தன்மையை உறுதி செய்ய அனைத்து முற்செயலாக்கப் படிகள், மாற்றங்கள் மற்றும் முடிவுகளை ஆவணப்படுத்துங்கள்.
- தரவு சரிபார்ப்பைப் பயன்படுத்துதல்: தரவுத் தரத்தை உறுதி செய்யவும் பிழைகளைத் தடுக்கவும் தரவு சரிபார்ப்புச் சோதனைகளைச் செயல்படுத்தவும்.
- செயல்முறையைத் தானியக்கமாக்குதல்: நிலைத்தன்மை மற்றும் செயல்திறனை உறுதி செய்ய தரவு முற்செயலாக்கப் பாதைகளைத் தானியக்கமாக்குங்கள்.
- திரும்பத் திரும்பச் செம்மைப்படுத்துதல்: தரவு முற்செயலாக்கம் என்பது ஒரு திரும்பத் திரும்பச் செய்யப்படும் செயல்முறையாகும். தரவுத் தரம் மற்றும் மாதிரி செயல்திறனை மேம்படுத்த, முற்செயலாக்கப் படிகளைத் தொடர்ந்து மதிப்பீடு செய்து செம்மைப்படுத்துங்கள்.
- உலகளாவிய சூழலைக் கருத்தில் கொள்ளுதல்: உலகளாவிய தரவுத்தொகுப்புகளுடன் பணிபுரியும்போது, கலாச்சார வேறுபாடுகள், மொழி வேறுபாடுகள் மற்றும் தரவு தனியுரிமை விதிமுறைகள் குறித்து கவனமாக இருங்கள்.
தரவு முற்செயலாக்கத்திற்கான கருவிகள் மற்றும் தொழில்நுட்பங்கள்
தரவு முற்செயலாக்கத்திற்குக் கிடைக்கும் பல கருவிகள் மற்றும் தொழில்நுட்பங்கள் பின்வருமாறு:
- பைத்தான்: பாண்டாஸ், NumPy, மற்றும் Scikit-learn போன்ற நூலகங்களுடன் கூடிய ஒரு பல்துறை நிரலாக்க மொழி, இது சக்திவாய்ந்த தரவு கையாளுதல் மற்றும் பகுப்பாய்வு திறன்களை வழங்குகிறது.
- R: தரவு முற்செயலாக்கம் மற்றும் பகுப்பாய்விற்கான பரந்த அளவிலான தொகுப்புகளைக் கொண்ட ஒரு புள்ளிவிவர நிரலாக்க மொழி.
- SQL: தரவு பிரித்தெடுத்தல், மாற்றுதல் மற்றும் ஏற்றுதல் (ETL) செயல்பாடுகளுக்குப் பயன்படுத்தப்படும் ஒரு தரவுத்தள வினவல் மொழி.
- அப்பாச்சி ஸ்பார்க்: பெரிய தரவுத்தொகுப்புகளைச் செயலாக்குவதற்கான ஒரு பரவலாக்கப்பட்ட கணினி கட்டமைப்பு.
- கிளவுட் அடிப்படையிலான தரவு முற்செயலாக்க சேவைகள்: அமேசான் வலை சேவைகள் (AWS), கூகிள் கிளவுட் பிளாட்ஃபார்ம் (GCP), மற்றும் மைக்ரோசாப்ட் அஸூர் போன்ற வழங்குநர்களால் வழங்கப்படும் சேவைகள், அளவிடக்கூடிய மற்றும் நிர்வகிக்கப்பட்ட தரவு முற்செயலாக்கத் தீர்வுகளை வழங்குகின்றன.
- தரவுத் தரக் கருவிகள்: தரவு சுயவிவரம், தரவு சுத்தம் செய்தல் மற்றும் தரவு சரிபார்ப்புக்கான சிறப்பு கருவிகள். எடுத்துக்காட்டுகள் Trifacta, OpenRefine, மற்றும் Talend Data Quality.
உலகளாவிய தரவுத்தொகுப்புகளுக்கான தரவு முற்செயலாக்கத்தில் உள்ள சவால்கள்
பல்வேறு உலகளாவிய மூலங்களிலிருந்து வரும் தரவை முற்செயலாக்கம் செய்வது தனித்துவமான சவால்களை முன்வைக்கிறது:
- தரவு பன்முகத்தன்மை: வெவ்வேறு நாடுகள் மற்றும் பிராந்தியங்கள் வெவ்வேறு தரவு வடிவங்கள், தரநிலைகள் மற்றும் மொழிகளைப் பயன்படுத்தலாம்.
- தரவுத் தரம்: வெவ்வேறு மூலங்கள் மற்றும் பிராந்தியங்களில் தரவுத் தரம் கணிசமாக வேறுபடலாம்.
- தரவு தனியுரிமை: GDPR, CCPA மற்றும் பிற தரவு தனியுரிமை விதிமுறைகள் நாடுகள் மற்றும் பிராந்தியங்களில் வேறுபடுகின்றன, தனிப்பட்ட தரவைக் கையாளும்போது கவனமான பரிசீலனை தேவை.
- தரவு ஒருதலைப்பட்சம்: கலாச்சார வேறுபாடுகள், வரலாற்று நிகழ்வுகள் மற்றும் சமூக நெறிகளால் தரவு ஒருதலைப்பட்சம் அறிமுகப்படுத்தப்படலாம்.
- அளவிடுதல்: பெரிய உலகளாவிய தரவுத்தொகுப்புகளைச் செயலாக்க, அளவிடக்கூடிய உள்கட்டமைப்பு மற்றும் திறமையான நெறிமுறைகள் தேவை.
உலகளாவிய தரவு சவால்களை எதிர்கொள்ளுதல்
இந்த சவால்களைச் சமாளிக்க, பின்வரும் அணுகுமுறைகளைக் கருத்தில் கொள்ளுங்கள்:
- தரவு வடிவங்களைத் தரப்படுத்துதல்: அனைத்து தரவு மூலங்களுக்கும் பொதுவான தரவு வடிவங்களையும் தரங்களையும் நிறுவுதல்.
- தரவுத் தரச் சோதனைகளைச் செயல்படுத்துதல்: தரவு முரண்பாடுகள் மற்றும் பிழைகளைக் கண்டறிந்து சரிசெய்ய வலுவான தரவுத் தரச் சோதனைகளைச் செயல்படுத்துதல்.
- தரவு தனியுரிமை விதிமுறைகளுக்கு இணங்குதல்: பொருந்தக்கூடிய அனைத்து தரவு தனியுரிமை விதிமுறைகளுக்கும் இணங்குதல் மற்றும் பொருத்தமான தரவுப் பாதுகாப்பு நடவடிக்கைகளைச் செயல்படுத்துதல்.
- தரவு ஒருதலைப்பட்சத்தைக் குறைத்தல்: தரவை மீண்டும் எடைபோடுதல் அல்லது நேர்மை-அறிந்த நெறிமுறைகளைப் பயன்படுத்துதல் போன்ற தரவு ஒருதலைப்பட்சத்தைக் கண்டறிந்து குறைப்பதற்கான நுட்பங்களைப் பயன்படுத்துதல்.
- கிளவுட் அடிப்படையிலான தீர்வுகளைப் பயன்படுத்துதல்: செயலாக்கத் திறனை அளவிடுவதற்கும் பெரிய தரவுத்தொகுப்புகளை நிர்வகிப்பதற்கும் கிளவுட் அடிப்படையிலான தரவு முற்செயலாக்க சேவைகளைப் பயன்படுத்துதல்.
முடிவுரை
தரவு முற்செயலாக்கம் என்பது தரவு பகுப்பாய்வு மற்றும் இயந்திர கற்றல் செயல்முறையில் ஒரு அடிப்படைக் படியாகும். தரவை திறம்பட சுத்தம் செய்தல், மாற்றுதல் மற்றும் தயாரிப்பதன் மூலம், நிறுவனங்கள் மதிப்புமிக்க நுண்ணறிவுகளைத் திறக்கலாம், மேலும் துல்லியமான மாதிரிகளை உருவாக்கலாம் மற்றும் சிறந்த முடிவுகளை எடுக்கலாம். உலகளாவிய தரவுத்தொகுப்புகளுடன் பணிபுரியும்போது, பல்வேறு தரவு மூலங்கள் மற்றும் தனியுரிமை விதிமுறைகளுடன் தொடர்புடைய தனித்துவமான சவால்கள் மற்றும் சிறந்த நடைமுறைகளைக் கருத்தில் கொள்வது முக்கியம். இந்தக் கொள்கைகளை ஏற்றுக்கொள்வதன் மூலம், நிறுவனங்கள் புதுமைகளை இயக்கவும் உலக அளவில் வெற்றியை அடையவும் தரவின் சக்தியைப் பயன்படுத்தலாம்.
மேலும் கற்க
- ஆன்லைன் படிப்புகள்: Coursera, edX, மற்றும் Udemy தரவு முற்செயலாக்கம் மற்றும் தரவுச் சுரங்கம் குறித்த பல்வேறு படிப்புகளை வழங்குகின்றன.
- புத்தகங்கள்: "Data Mining: Concepts and Techniques" by Jiawei Han, Micheline Kamber, and Jian Pei; "Python for Data Analysis" by Wes McKinney.
- வலைப்பதிவுகள் மற்றும் கட்டுரைகள்: KDnuggets, Towards Data Science, மற்றும் Medium ஆகியவை தரவு முற்செயலாக்க நுட்பங்கள் குறித்த மதிப்புமிக்க நுண்ணறிவுகளையும் பயிற்சிகளையும் வழங்குகின்றன.
- ஆவணப்படுத்தல்: பாண்டாஸ் ஆவணப்படுத்தல், Scikit-learn ஆவணப்படுத்தல்.