தமிழ்

Hadoop பரவலாக்கப்பட்ட கோப்பு முறைமையின் (HDFS) கட்டமைப்பு, அதன் கூறுகள், செயல்பாடு, நன்மைகள் மற்றும் பெரிய தரவு சேமிப்பு மற்றும் செயலாக்கத்திற்கான சிறந்த நடைமுறைகள் குறித்த விரிவான வழிகாட்டி.

HDFS கட்டமைப்பு புரிதல்: பரவலாக்கப்பட்ட கோப்பு முறைமைகளில் ஒரு ஆழமான பார்வை

இன்றைய தரவு-சார்ந்த உலகில், பரந்த அளவிலான தகவல்களைச் சேமிக்கவும் செயலாக்கவும் உள்ள திறன் அனைத்து அளவிலான நிறுவனங்களுக்கும் முக்கியமானது. Hadoop பரவலாக்கப்பட்ட கோப்பு முறைமை (HDFS) பெரிய தரவை நிர்வகிப்பதற்கும் பகுப்பாய்வு செய்வதற்கும் ஒரு முக்கிய தொழில்நுட்பமாக உருவெடுத்துள்ளது. இந்த வலைப்பதிவு HDFS கட்டமைப்பின் விரிவான கண்ணோட்டம், அதன் முக்கிய கூறுகள், செயல்பாடு மற்றும் நன்மைகள் ஆகியவற்றை வழங்குகிறது, இது ஆரம்பநிலையாளர்கள் மற்றும் அனுபவம் வாய்ந்த நிபுணர்களுக்கு நுண்ணறிவுகளை வழங்குகிறது.

பரவலாக்கப்பட்ட கோப்பு முறைமை என்றால் என்ன?

HDFS-க்குள் நுழைவதற்கு முன், ஒரு பரவலாக்கப்பட்ட கோப்பு முறைமை என்றால் என்ன என்பதை வரையறுப்போம். பரவலாக்கப்பட்ட கோப்பு முறைமை என்பது ஒரு வலையமைப்பில் உள்ள பல ஹோஸ்ட்களில் இருந்து கோப்புகளை அணுக அனுமதிக்கும் ஒரு கோப்பு முறைமையாகும். இது ஒரு பகிரப்பட்ட சேமிப்பு உள்கட்டமைப்பை வழங்குகிறது, அங்கு தரவு பல கணினிகளில் சேமிக்கப்படுகிறது மற்றும் ஒற்றை உள்ளூர் வட்டில் இருப்பது போல் அணுகப்படுகிறது. இந்த அணுகுமுறை பல நன்மைகளை வழங்குகிறது, அவற்றுள்:

Hadoop மற்றும் HDFS அறிமுகம்

Hadoop என்பது கணினிகளின் தொகுப்பில் பெரிய தரவுத்தொகுப்புகளின் பரவலாக்கப்பட்ட செயலாக்கத்தை செயல்படுத்தும் ஒரு திறந்த மூல கட்டமைப்பு ஆகும். HDFS என்பது Hadoop பயன்பாடுகளால் பயன்படுத்தப்படும் முதன்மை சேமிப்பு அமைப்பு ஆகும். இது மிக பெரிய கோப்புகளை (பொதுவாக டெராபைட் முதல் பெட்டாபைட் வரம்பு வரை) நம்பகத்தன்மையுடனும் திறமையாகவும் பொதுவான வன்பொருள் தொகுப்பில் சேமிப்பதற்காக வடிவமைக்கப்பட்டுள்ளது.

HDFS கட்டமைப்பு: முக்கிய கூறுகள்

HDFS ஒரு மாஸ்டர்-ஸ்லேவ் கட்டமைப்பைப் பின்பற்றுகிறது, இது பின்வரும் முக்கிய கூறுகளை உள்ளடக்கியது:

1. NameNode

NameNode என்பது HDFS தொகுப்பில் உள்ள மாஸ்டர் முனை ஆகும். இது இதற்குக் பொறுப்பாகும்:

NameNode கோப்பு முறைமை மெட்டாடேட்டாவை இரண்டு முக்கிய கோப்புகளில் சேமிக்கிறது:

துவக்கத்தின் போது, NameNode FsImage-ஐ நினைவகத்தில் ஏற்றுகிறது மற்றும் கோப்பு முறைமை மெட்டாடேட்டாவை புதுப்பித்த நிலையில் வைத்திருக்க EditLog-ஐ இயக்குகிறது. NameNode என்பது HDFS தொகுப்பில் ஒரு ஒற்றை தோல்விப் புள்ளியாகும். NameNode தோல்வியுற்றால், முழு கோப்பு முறைமையும் கிடைக்காமல் போகும். இந்த ஆபத்தை குறைக்க, HDFS NameNode உயர் கிடைக்கும் தன்மைக்கான விருப்பங்களை வழங்குகிறது, அவற்றுள்:

2. DataNodes

DataNodes என்பவை HDFS தொகுப்பில் உள்ள ஸ்லேவ் முனைகள். அவை இதற்குக் பொறுப்பாகும்:

DataNodes பொதுவான வன்பொருளாக வடிவமைக்கப்பட்டுள்ளன, அதாவது அவை ஒப்பீட்டளவில் மலிவானவை மற்றும் தோல்வியுற்றால் எளிதாக மாற்றப்படலாம். HDFS தரவு தொகுதிகளை பல DataNodes-களில் நகலெடுப்பதன் மூலம் தவறு சகிப்புத்தன்மையை அடைகிறது.

3. Blocks

ஒரு Block என்பது HDFS சேமிக்கக்கூடிய தரவின் மிகச்சிறிய அலகு ஆகும். ஒரு கோப்பு HDFS-ல் சேமிக்கப்படும்போது, அது தொகுதிகளாகப் பிரிக்கப்படுகிறது, மேலும் ஒவ்வொரு தொகுதியும் ஒன்று அல்லது அதற்கு மேற்பட்ட DataNodes-ல் சேமிக்கப்படுகிறது. HDFS-ல் இயல்புநிலை தொகுதி அளவு பொதுவாக 128MB ஆகும், ஆனால் இது பயன்பாட்டின் தேவைகளின் அடிப்படையில் கட்டமைக்கப்படலாம்.

பெரிய தொகுதி அளவைப் பயன்படுத்துவது பல நன்மைகளை வழங்குகிறது:

4. Replication

Replication என்பது HDFS-ன் ஒரு முக்கிய அம்சமாகும், இது தவறு சகிப்புத்தன்மையை வழங்குகிறது. ஒவ்வொரு தரவுத் தொகுதியும் பல DataNodes-களில் நகலெடுக்கப்படுகிறது. இயல்புநிலை பிரதிபலிப்பு காரணி பொதுவாக 3 ஆகும், அதாவது ஒவ்வொரு தொகுதியும் மூன்று வெவ்வேறு DataNodes-ல் சேமிக்கப்படுகிறது.

ஒரு DataNode தோல்வியுற்றால், NameNode தோல்வியைக் கண்டறிந்து, விடுபட்ட தொகுதிகளின் புதிய பிரதிகளை உருவாக்க மற்ற DataNodes-க்கு அறிவுறுத்துகிறது. சில DataNodes தோல்வியுற்றாலும் தரவு கிடைப்பதை இது உறுதி செய்கிறது.

பயன்பாட்டின் நம்பகத்தன்மை தேவைகளின் அடிப்படையில் பிரதிபலிப்பு காரணியைக் கட்டமைக்கலாம். அதிக பிரதிபலிப்பு காரணி சிறந்த தவறு சகிப்புத்தன்மையை வழங்குகிறது, ஆனால் சேமிப்பு செலவுகளையும் அதிகரிக்கிறது.

HDFS தரவு ஓட்டம்

தரவு எவ்வாறு கோப்பு முறைமையில் எழுதப்பட்டு படிக்கப்படுகிறது என்பதைப் புரிந்துகொள்ள HDFS-ல் தரவு ஓட்டத்தைப் புரிந்துகொள்வது அவசியம்.

1. HDFS-ல் தரவை எழுதுதல்

  1. புதிய கோப்பை உருவாக்க NameNode-க்கு கிளையண்ட் ஒரு கோரிக்கையை அனுப்புகிறது.
  2. கோப்பை உருவாக்க கிளையண்டிற்கு அனுமதி உள்ளதா மற்றும் அதே பெயரில் ஒரு கோப்பு ஏற்கனவே உள்ளதா என்பதை NameNode சரிபார்க்கிறது.
  3. சோதனைகள் நிறைவேற்றப்பட்டால், NameNode கோப்பு முறைமை பெயர்வெளியில் கோப்பிற்கான புதிய உள்ளீட்டை உருவாக்குகிறது மற்றும் கோப்பின் முதல் தொகுதி சேமிக்கப்பட வேண்டிய DataNodes-ன் முகவரிகளை வழங்குகிறது.
  4. கிளையண்ட் தரவின் முதல் தொகுதியை பட்டியலில் உள்ள முதல் DataNode-க்கு எழுதுகிறது. முதல் DataNode பின்னர் தொகுதியை பிரதிபலிப்பு குழாயில் உள்ள மற்ற DataNodes-க்கு நகலெடுக்கிறது.
  5. தொகுதி அனைத்து DataNodes-லும் எழுதப்பட்டவுடன், கிளையண்ட் ஒப்புதலைப் பெறுகிறது.
  6. முழு கோப்பும் எழுதப்படும் வரை கிளையண்ட் ஒவ்வொரு அடுத்தடுத்த தரவுத் தொகுதிக்கும் படிகள் 3-5 ஐ மீண்டும் செய்கிறது.
  7. இறுதியாக, கோப்பு முழுமையாக எழுதப்பட்டதாக கிளையண்ட் NameNode-க்கு தெரிவிக்கிறது.

2. HDFS-லிருந்து தரவைப் படித்தல்

  1. கோப்பைத் திறக்க NameNode-க்கு கிளையண்ட் ஒரு கோரிக்கையை அனுப்புகிறது.
  2. கோப்பை அணுக கிளையண்டிற்கு அனுமதி உள்ளதா என்பதை NameNode சரிபார்க்கிறது மற்றும் கோப்பின் தொகுதிகளைச் சேமிக்கும் DataNodes-ன் முகவரிகளை வழங்குகிறது.
  3. கிளையண்ட் DataNodes-உடன் இணைகிறது மற்றும் தொகுதிகளை இணையாகப் படிக்கிறது.
  4. கிளையண்ட் தொகுதிகளை முழுமையான கோப்பாக ஒன்றிணைக்கிறது.

HDFS பயன்படுத்துவதன் நன்மைகள்

HDFS பெரிய அளவிலான தரவுகளைக் கையாளும் நிறுவனங்களுக்கு பல நன்மைகளை வழங்குகிறது:

HDFS பயன்பாட்டு வழக்குகள்

HDFS பல்வேறு தொழில்களிலும் பயன்பாடுகளிலும் பரவலாகப் பயன்படுத்தப்படுகிறது, அவற்றுள்:

HDFS வரம்புகள்

HDFS குறிப்பிடத்தக்க நன்மைகளை வழங்கினாலும், அதற்கு சில வரம்புகளும் உள்ளன:

HDFS-க்கு மாற்று வழிகள்

HDFS பெரிய தரவு சேமிப்பிற்கான பிரபலமான தேர்வாக இருந்தாலும், பின்வருவனவற்றை உள்ளடக்கிய பல மாற்று பரவலாக்கப்பட்ட கோப்பு முறைமைகள் உள்ளன:

எந்த கோப்பு முறைமையை தேர்வு செய்வது என்பது பயன்பாட்டின் குறிப்பிட்ட தேவைகளைப் பொறுத்தது, அதாவது அளவுத்திறன், செயல்திறன், செலவு மற்றும் பிற கருவிகள் மற்றும் சேவைகளுடன் ஒருங்கிணைப்பு.

HDFS பயன்பாடு மற்றும் மேலாண்மைக்கான சிறந்த நடைமுறைகள்

உங்கள் HDFS தொகுப்பின் உகந்த செயல்திறன் மற்றும் நம்பகத்தன்மையை உறுதிப்படுத்த, பின்வரும் சிறந்த நடைமுறைகளைக் கவனியுங்கள்:

முடிவுரை

HDFS என்பது ஒரு சக்திவாய்ந்த மற்றும் பல்துறை பரவலாக்கப்பட்ட கோப்பு முறைமையாகும், இது பெரிய தரவுகளை நிர்வகிப்பதிலும் செயலாக்குவதிலும் முக்கிய பங்கு வகிக்கிறது. அளவிடக்கூடிய மற்றும் நம்பகமான தரவு செயலாக்க குழாய்களை உருவாக்குவதற்கும் பராமரிப்பதற்கும் அதன் கட்டமைப்பு, கூறுகள் மற்றும் தரவு ஓட்டத்தைப் புரிந்துகொள்வது அவசியம். இந்த வலைப்பதிவில் கோடிட்டுக் காட்டப்பட்டுள்ள சிறந்த நடைமுறைகளைப் பின்பற்றுவதன் மூலம், உங்கள் HDFS தொகுப்பு உகந்ததாகச் செயல்படுவதையும் உங்கள் நிறுவனத்தின் தேவைகளைப் பூர்த்தி செய்வதையும் உறுதிசெய்யலாம்.

நீங்கள் ஒரு தரவு விஞ்ஞானி, ஒரு மென்பொருள் பொறியாளர் அல்லது ஒரு IT நிபுணராக இருந்தாலும், HDFS-ன் திடமான புரிதல் இன்றைய தரவு-சார்ந்த உலகில் ஒரு மதிப்புமிக்க சொத்து. இந்த இடுகை முழுவதும் குறிப்பிடப்பட்டுள்ள ஆதாரங்களை ஆராய்ந்து இந்த அத்தியாவசிய தொழில்நுட்பத்தைப் பற்றி தொடர்ந்து கற்றுக்கொள்ளுங்கள். தரவின் அளவு தொடர்ந்து வளர்வதால், HDFS மற்றும் அதுபோன்ற பரவலாக்கப்பட்ட கோப்பு முறைமைகளின் முக்கியத்துவம் அதிகரிக்கும்.

மேலும் படிக்க