„Hadoop 2.0 Cluster Architecture Federation“ apžvalga



„Apache Hadoop 2.x“ sudaro reikšmingi „Hadoop 1.x“ patobulinimai. Šiame tinklaraštyje kalbama apie „Hadoop 2.0 Cluster Architecture Federation“ ir jos komponentus.

„Hadoop 2.0 Cluster Architecture Federation“

Įvadas:

Šiame tinklaraštyje gilinsiuosi į „Hadoop 2.0 Cluster Architecture Federation“. „Apache Hadoop“ labai išsivystė nuo „Apache Hadoop 1.x“ išleidimo. Kaip žinote iš mano ankstesnio tinklaraščio, kad vadovaujasi pagrindinio / vergo topologija, kur „NameNode“ veikia kaip pagrindinis demonas ir yra atsakingas už kitų vergo mazgų, vadinamų „DataNodes“, valdymą. Šioje ekosistemoje šis vienintelis pagrindinis „Daemon“ arba „NameNode“ tampa kliūtimi ir, priešingai, įmonės turi turėti „NameNode“, kuris yra labai prieinamas. Ši priežastis tapo HDFS federacijos architektūros ir HA (didelio prieinamumo) architektūra .

java analizuoti eilutę iki šiol

Šiame tinklaraštyje aptariamos šios temos:





  • Dabartinė HDFS architektūra
  • Dabartinės HDFS architektūros apribojimai
  • HDFS federacijos architektūra

Dabartinės HDFS architektūros apžvalga:

„Single Namespace HDFS Architecture“ - „Hadoop 2.0 Cluster Architecture Federation“ apžvalga - „Edureka“

Kaip matote paveikslėlyje aukščiau, dabartinis HDFS turi du sluoksnius:



  • HDFS vardų sritis (NS): Šis sluoksnis yra atsakingas už katalogų, failų ir blokų valdymą. Tai suteikia visas su vardų sritimi susijusias failų sistemos operacijas, pvz., Failų ar failų katalogų kūrimą, ištrynimą ar modifikavimą.
  • Saugojimo sluoksnis: Jį sudaro du pagrindiniai komponentai.
    1. Blokų valdymas : Jis atlieka šias operacijas:
      • Periodiškai tikrina „DataNodes“ širdies plakimą ir valdo „DataNode“ narystę klasteryje.
      • Tvarko blokavimo ataskaitas ir prižiūri blokavimo vietą.
      • Palaiko blokavimo operacijas, tokias kaip bloko vietos kūrimas, modifikavimas, ištrynimas ir paskirstymas.
      • Išlaiko replikacijos koeficientą, pastovų visoje grupėje.

2. Fizinis saugojimas : Jį valdo „DataNodes“, kurie yra atsakingi už duomenų saugojimą, ir suteikia skaitymo / rašymo prieigą prie HDFS saugomų duomenų.

Taigi, dabartinė HDFS architektūra leidžia jums turėti vieną klasterio vardų sritį. Šioje architektūroje už vardų srities valdymą yra atsakingas vienas „NameNode“. Ši architektūra yra labai patogi ir lengvai įgyvendinama. Be to, tai suteikia pakankamai galimybių patenkinti mažos gamybos grupių poreikius.

Dabartinio HDFS apribojimai:

Kaip jau buvo aptarta anksčiau, dabartinio HDFS pakako mažo gamybos klasterio poreikiams ir naudojimo atvejams. Tačiau didelės organizacijos, tokios kaip „Yahoo“, „Facebook“ rado tam tikrų apribojimų, nes HDFS klasteris augo eksponentiškai. Greitai apžvelkime kai kuriuos apribojimus:



  1. Vardų sritis yra nėra keičiamas kaip „DataNodes“. Taigi klasteryje galime turėti tik tiek „DataNodes“, kuriuos gali tvarkyti vienas „NameNode“.
  2. Du sluoksniai, t. Y. Vardų ir saugojimo sluoksniai yra sandariai sujungti o tai labai apsunkina alternatyvų „NameNode“ diegimą.
  3. Visos „Hadoop“ sistemos veikimas priklauso nuo pralaidumas „NameNode“. Todėl visas visų HDFS operacijų atlikimas priklauso nuo to, kiek užduočių „NameNode“ gali atlikti tam tikru metu.
  4. „NameNode“ saugo visą vardų sritį RAM, kad būtų galima greitai pasiekti. Tai lemia atminties dydis y. vardų srities objektų (failų ir blokų), kuriuos gali susidoroti vienas vardų serveris, skaičius.
  5. Daugelis organizacijų (tiekėjų), turinčių HDFS diegimą, leidžia kelioms organizacijoms (nuomininkams) naudoti jų grupių vardų sritį. Taigi, vardų sritis nėra atskirta ir todėl yra jokios izoliacijos tarp nuomininkų organizacijų, kurios naudojasi klasteriu.

HDFS federacijos architektūra:

  • HDFS federacijos architektūroje turime horizontalų vardų paslaugų mastelį. Todėl mes turime kelis „NameNodes“, kurie yra susivieniję, t. Y. Nepriklausomi vienas nuo kito.
  • „DataNodes“ yra apačioje, t. Y. Pagrindiniame saugojimo sluoksnyje.
  • Kiekvienas „DataNode“ registruojasi su visais „NameNodes“ grupėje.
  • „DataNodes“ perduoda periodinius širdies plakimus, blokuoja ataskaitas ir tvarko komandas iš „NameNodes“.

HDFS federacijos architektūros vaizdinis vaizdas pateiktas žemiau:

Prieš eidamas į priekį, leiskite trumpai pakalbėti apie aukščiau pateiktą architektūrinį vaizdą:

  • Vardų sritis yra kelios (NS1, NS2,…, NSn) ir kiekvieną iš jų valdo atitinkamas „NameNode“.
  • Kiekviena vardų sritis turi savo blokų telkinį (NS1 turi 1, NSk - k k ir pan.).
  • Kaip parodyta paveikslėlyje, 1 baseino (dangaus mėlynos spalvos) blokai saugomi „DataNode 1“, „DataNode 2“ ir t. T. Panašiai visi blokai iš kiekvieno blokų telkinio bus visuose „DataNodes“.

Dabar išsamiai supraskime HDFS federacijos architektūros komponentus:

Blokuoti baseiną:

Blokų telkinys yra tik blokų rinkinys, priklausantis konkrečiai vardų sričiai. Taigi, mes turime bloko baseino kolekciją, kurioje kiekvienas bloko baseinas valdomas nepriklausomai nuo kito. Ši nepriklausomybė, kai kiekvienas blokų telkinys valdomas atskirai, leidžia vardų sričiai sukurti naujų blokų blokų ID, nesuderinus jų su kitomis vardų sritimis. Visame blokų telkinyje esantys duomenų blokai saugomi visuose „DataNodes“. Iš esmės blokų telkinyje pateikiama tokia abstrakcija, kad duomenų blokus, esančius DataNodes (kaip ir bendros vardų erdvės architektūroje), galima sugrupuoti pagal tam tikrą vardų sritį.

kodėl turėtum išmokti pitoną

Vardų srities tūris:

Vardų srities apimtis yra ne kas kita, o vardų sritis kartu su jos blokų telkiniu. Todėl HDFS federacijoje turime keletą vardų srities apimčių. Tai savarankiškas valdymo vienetas, t. Y. Kiekvienas vardų srities tūris gali veikti nepriklausomai. Jei „NameNode“ ar vardų sritis bus ištrinta, atitinkamas „DataNodes“ esantis blokų telkinys taip pat bus ištrintas.

Demonstracija apie „Hadoop 2.0 Cluster Architecture Federation“ | Edureka

Manau, kad jūs turite gana gerą idėją apie HDFS federacijos architektūrą. Tai daugiau teorinė koncepcija ir žmonės jos praktiškai netaiko praktinėje gamybos sistemoje. Yra keletas HDFS federacijos diegimo problemų, kurios apsunkina diegimą. Todėl HA (didelio prieinamumo) architektūra yra pageidaujama išspręsti vieno nesėkmės taško problemą. Aš padengiau HDFS HA ​​architektūra kitame mano tinklaraštyje.

Dabar, kai supratote „Hadoop HDFS Federation Architecture“, patikrinkite sukūrė „Edureka“ - patikima internetinė mokymosi įmonė, turinti daugiau nei 250 000 patenkintų besimokančiųjų tinklą. „Edureka Big Data Hadoop“ sertifikavimo mokymo kursai padeda besimokantiesiems tapti HDFS, verpalų, „MapReduce“, „Pig“, „Hive“, „HBase“, „Oozie“, „Flume“ ir „Sqoop“ ekspertais, naudojant realaus laiko naudojimo atvejus mažmeninės prekybos, socialinės žiniasklaidos, aviacijos, turizmo, finansų srityse.

Turite mums klausimą? Prašau paminėti tai komentarų skiltyje ir mes su jumis susisieksime.