„Hadoop“ verpalų pamoka - sužinokite siūlų verpalų architektūros pagrindus

Šiame tinklaraštyje daugiausia dėmesio skiriama „Apache Hadoop YARN“, kuris buvo pristatytas „Hadoop“ 2.0 versijoje išteklių valdymui ir darbų planavimui. Tai paaiškina YARN architektūrą su jos komponentais ir kiekvieno iš jų atliekamomis pareigomis. Aprašoma „Apache Hadoop YARN“ programos pateikimo ir darbo eiga.

„Hadoop YARN“ su įvairiais apdorojimo įrankiais mezga „Hadoop“, t. Y. HDFS („Hadoop Distributed File System“), saugyklą. Tiems iš jūsų, kuriems ši tema yra visiškai nauja, YARN reiškia „ Y ir Į niekur R persiųsti N egotiatorius “. Aš taip pat siūlyčiau jums pereiti mūsų ir prieš pradėdami mokytis „Apache Hadoop YARN“. Čia paaiškinsiu šias temas, norėdamas įsitikinti, kad šio tinklaraščio pabaigoje jūsų supratimas apie „Hadoop YARN“ yra aiškus.

Kodėl verpalai?

„Hadoop“ versijoje 1.0, kuri taip pat vadinama MRV1 („MapReduce“ versija 1), „MapReduce“ atliko tiek apdorojimo, tiek išteklių valdymo funkcijas. Jį sudarė „Job Tracker“, kuris buvo vienintelis meistras. „Job Tracker“ paskirstė išteklius, atliko planavimą ir stebėjo apdorojimo užduotis. Jis priskyrė žemėlapį ir sumažino užduočių skaičių daugelyje pavaldžių procesų, vadinamų „Task Tracker“. Užduočių sekėjai periodiškai pranešė apie savo pažangą „Job Tracker“.



java į operatoriaus galią

„MapReduce“ versija 1.0 - „Hadoop YARN“ - „Edureka“

Dėl šio dizaino atsirado vienas „Job Tracker“ mastelis.IBM savo straipsnyje minėjo, kad pagal „Yahoo!“, Praktinės tokio dizaino ribos pasiekiamos kartu su 5000 mazgų ir 40 000 užduočių grupe.Be šio apribojimo, skaičiavimo išteklių panaudojimas MRV1 yra neefektyvus. Be to, „Hadoop“ sistema apsiribojo tik „MapReduce“ apdorojimo paradigma.



Norėdami išspręsti visas šias problemas, „Yahoo“ ir „Hortonworks“ 2012 m. „YARN“ pristatė 2.0 versijos „Hadoop“. Pagrindinė YARN idėja yra palengvinti „MapReduce“ perimant atsakomybę už išteklių valdymą ir darbų planavimą. YARN pradėjo suteikti „Hadoop“ galimybę vykdyti ne „MapReduce“ darbus „Hadoop“ sistemoje.

Taip pat galite žiūrėti žemiau esantį vaizdo įrašą, kuriame yra mūsų ekspertas išsamiai aptaria YARN koncepcijas ir jos architektūrą.

„Hadoop“ siūlų pamoka | Hadoopo verpalų architektūra Edureka

Įvedus verpalus, buvo visiškai revoliucionizuota. Ji tapo daug lankstesnė, efektyvesnė ir keičiama. Kai 2013 m. Pirmąjį ketvirtį „Yahoo“ pradėjo veikti kartu su „YARN“, tai padėjo įmonei sumažinti „Hadoop“ klasterio dydį nuo 40 000 iki 32 000 mazgų. Tačiau darbo vietų skaičius padvigubėjo - iki 26 milijonų per mėnesį.



„Hadoop YARN“ įvadas

Dabar, kai apšvietiau jus verpalų poreikiu, leiskite supažindinti jus su pagrindiniu „Hadoop v2.0“ komponentu, Verpalai . YARN leidžia naudoti įvairius duomenų apdorojimo metodus, tokius kaip grafiko apdorojimas, interaktyvus apdorojimas, srauto apdorojimas, taip pat paketinis apdorojimas, kad būtų galima paleisti ir apdoroti HDFS saugomus duomenis. Todėl YARN atveria „Hadoop“ kitų tipų paskirstytoms programoms, išskyrus „MapReduce“.

YARN leido vartotojams atlikti operacijas pagal reikalavimus, naudojant įvairius įrankius, tokius kaip apdorojimui realiuoju laiku, Avilys SQL, HBase „NoSQL“ ir kitiems.

Be išteklių valdymo, YARN taip pat atlieka darbų planavimą. YARN atlieka visas jūsų apdorojimo veiklas, paskirstydamas išteklius ir planuodamas užduotis. „Apache Hadoop YARN Architecture“ sudaro šie pagrindiniai komponentai:

  1. Išteklių valdytojas : Vykdo pagrindinį demoną ir valdo išteklių paskirstymą grupėje.
  2. Mazgo tvarkyklė: Jie veikia vergų demonuose ir yra atsakingi už kiekvieno duomenų mazgo užduoties vykdymą.
  3. Programos magistras: Tvarko vartotojo darbo ciklo ir atskirų programų išteklių poreikius. Jis veikia kartu su „Node Manager“ ir stebi užduočių vykdymą.
  4. Konteineris: Išteklių, įskaitant RAM, procesorių, tinklą, HDD ir kt., Paketas viename mazge.

YARN komponentai

Galite laikyti „YARN“ kaip savo „Hadoop“ ekosistemos smegenis. Žemiau pateiktas paveikslėlis rodo YARN architektūrą.

The pirmasis komponentas YARN architektūros

Išteklių valdytojas

  • Tai yra pagrindinė išteklių paskirstymo institucija .
  • Gavęs apdorojimo užklausas, jis atitinkamai perduoda užklausų dalis atitinkamiems mazgų valdytojams, kur vyksta faktinis apdorojimas.
  • Tai yra klasterio išteklių arbitras ir nusprendžia paskirstyti turimus išteklius konkuruojančioms programoms.
  • Optimizuoja klasterio naudojimą, pavyzdžiui, išlaikant visus išteklius nuolat naudojamus atsižvelgiant į įvairius suvaržymus, tokius kaip pajėgumų garantijos, sąžiningumas ir SLA.
  • Ją sudaro du pagrindiniai komponentai:a) Tvarkaraštisb)„Application Manager“

a) Tvarkaraštis

  • Planuotojas yra atsakingas už išteklių paskirstymą įvairioms veikiančioms programoms, atsižvelgiant į pajėgumų, eilių ir kt. Apribojimus.
  • „ResourceManager“ jis vadinamas grynu planuotoju, o tai reiškia, kad jis nevykdo jokių programų būklės stebėjimo ar stebėjimo.
  • Jei yra programos ar aparatūros gedimas, planavimo priemonė negarantuoja paleisti nepavykusių užduočių iš naujo.
  • Atlieka planavimą, atsižvelgdamas į programų išteklių poreikius.
  • Jame yra įskiepijamas politikos papildinys, kuris yra atsakingas už sankaupos išteklių paskirstymą tarp įvairių programų. Yra du tokie papildiniai: Pajėgumų planuoklis ir Sąžiningas planuotojas , kurie šiuo metu naudojami kaip planuotojai programoje „ResourceManager“.

b) Programų tvarkyklė

  • Ji yra atsakinga už darbo paraiškų priėmimą.
  • Derasi dėl pirmojo talpyklos iš išteklių tvarkytuvės, kad ji vykdytų konkrečios programos „Master“.
  • Tvarko „Application Masters“ paleidimą grupėje ir teikia paslaugas, kai nepavyksta paleisti „Application Master“ sudėtinio rodinio.

Ateina į antrasis komponentas kuris yra:

Mazgo tvarkyklė

  • Ji rūpinasi atskirais mazgais Hadoop grupėje irtvarko vartotojo darbus ir darbo eigą duotame mazge.
  • Jis registruojasi išteklių tvarkytuvėje ir siunčia širdies plakimus su mazgo sveikatos būkle.
  • Pagrindinis jo tikslas yra valdyti programų tvarkytuvus, kuriuos jam priskyrė išteklių valdytojas.
  • Jis nuolat atnaujinamas su išteklių valdytoju.
  • „Application Master“ prašo priskirtojo konteinerio iš „Node Manager“, siųsdamas jam „Container Launch Context“ (CLC), kuriame yra viskas, ko reikia programai paleisti. „Node Manager“ sukuria prašomą sudėtinio rodinio procesą ir jį paleidžia.
  • Stebimas atskirų konteinerių išteklių naudojimas (atmintis, procesorius).
  • Atlieka žurnalo tvarkymą.
  • Jis taip pat užmuša konteinerį, kaip nurodė išteklių valdytojas.

The trečiasis komponentas yra „Apache Hadoop YARN“,

Taikymo magistras
  • Paraiška yra vienas darbas, pateiktas sistemai. Kiekviena tokia programa yra susieta su unikaliu „Application Master“, kuris yra konkrečios sistemos objektas.
  • Tai procesas, kuris koordinuoja programos vykdymą klasteryje ir taip pat valdo gedimus.
  • Jos užduotis yra derėtis dėl išteklių tvarkytuvės išteklių ir dirbti su mazgų tvarkytuvu, kad būtų vykdomos ir stebimos komponentų užduotys.
  • Ji yra atsakinga už derybas dėl tinkamų išteklių talpyklų iš „ResourceManager“, jų būklės stebėjimo ir pažangos stebėjimo.
  • Pradėjęs, jis periodiškai siunčia širdies plakimus išteklių valdytojui, kad patvirtintų savo sveikatos būklę ir atnaujintų išteklių poreikių įrašą.

The ketvirtasis komponentas yra:

Konteineris
  • Tai fizinių išteklių, tokių kaip RAM, procesoriaus šerdys ir diskai, rinkinys viename mazge.
  • YARN konteinerius valdo konteinerių paleidimo kontekstas, kuris yra konteinerio gyvavimo ciklas (CLC). Šiame įraše yra aplinkos kintamųjų žemėlapis, priklausomybės, saugomos nuotoliniu būdu pasiekiamoje saugykloje, saugos žetonai, „Node Manager“ paslaugų naudingoji apkrova ir komanda, reikalinga procesui sukurti.
  • Jis suteikia teisę programai naudoti tam tikrą išteklių kiekį (atmintį, procesorių ir kt.) Konkrečiam pagrindiniam kompiuteriui.

Paraiškos pateikimas verpalais

Peržiūrėkite paveikslėlį ir peržiūrėkite veiksmus, susijusius su „Hadoop YARN“ paraiškos pateikimu:

vaizdinės studijos pamoka pradedantiesiems

1) Pateikite darbą

2)Gaukite programos ID

3) Paraiškos pateikimo kontekstas

4 a) Paleiskite konteinerįPaleiskite

b) Paleiskite „Application Master“

5) Paskirkite išteklius

6 a) Konteineris

b) Paleisti

7) Vykdyti

Programos darbo eiga „Hadoop YARN“

Peržiūrėkite pateiktą vaizdą ir peržiūrėkite šiuos veiksmus, susijusius su „Apache Hadoop YARN“ programos darbo eiga:

  1. Klientas pateikia paraišką
  2. „Resource Manager“ skiria sudėtinį rodinį, kad būtų paleista „Application Manager“
  3. „Application Manager“ registruojasi „Resource Manager“
  4. „Application Manager“ prašo konteinerių iš išteklių tvarkytuvės
  5. „Application Manager“ praneša „Node Manager“, kad ji paleistų sudėtinius rodinius
  6. Programos kodas vykdomas talpykloje
  7. Klientas susisiekia su „Resource Manager“ / „Application Manager“, kad galėtų stebėti programos būseną
  8. „Application Manager“ išregistruojasi „Resource Manager“

Dabar, kai žinote „Apache Hadoop YARN“, patikrinkite sukūrė patikima internetinė mokymosi įmonė „Edureka“, turinti daugiau nei 250 000 patenkintų besimokančiųjų tinklą visame pasaulyje. „Edureka Big Data Hadoop“ sertifikavimo mokymo kursas padeda besimokantiesiems tapti HDFS, verpalų, „MapReduce“, „Pig“, „Hive“, „HBase“, „Oozie“, „Flume“ ir „Sqoop“ ekspertais, naudojant realaus laiko naudojimo atvejus mažmeninės prekybos, socialinės žiniasklaidos, aviacijos, turizmo, finansų srityse.

Turite mums klausimą? Prašau paminėti tai komentarų skiltyje ir mes su jumis susisieksime.