Kaip sukurti „Hadoop“ klasterį naudojant „Amazon EMR“?



Šiame straipsnyje mes išnagrinėsime AWS EMR tarnybą ir proceso metu sužinosime, kaip sukurti „Hadoop“ klasterį su „Amazon EMR“?

Šiame straipsnyje apie tai, kaip sukurti Klasteris Su „Amazon EMR“ mes pamatysime, kaip lengvai paleisti ir keisti „Hadoop“ ir „Big Data“ programas. Tolimesni patarimai bus aptarti šiame straipsnyje,

Toliau einant į tai, kaip sukurti „Hadoop“ klasterį naudojant „Amazon EMR“?





Kaip sukurti „Hadoop“ klasterį naudojant „Amazon EMR“?

Ieškodami ko nors „Google“ ar „Yahoo“, atsakymą gauname per kelias sekundes. Kaip įmanoma, kad „Google“, „Yahoo“ ir kitos paieškos sistemos taip greitai grąžins rezultatus iš vis augančio interneto? Paieškos sistemos tikrina internetą, atsisiunčia tinklalapius ir sukuria rodyklę, kaip parodyta žemiau. Bet kokiai mūsų užklausai jie naudoja rodyklę, norėdami išsiaiškinti, kokie yra visi tinklalapiai, kuriuose yra ieškomas tekstas. Pažvelgę ​​į žemiau esantį rodyklę dešinėje pusėje, galime aiškiai žinoti, kad „Hadoop“ yra 1, 2 ir 3 tinklalapiai.

Vaizdas - Kaip sukurti „Hadoop“ klasterį naudojant „Amazon EMR“ - „Edureka“Tada „PageRanking“ algoritmas yra naudojamas remiantis puslapių sujungimu, kad išsiaiškintumėte, kurį puslapį rodyti viršuje, o kurį apačioje. Žemiau pateiktame scenarijuje W1 yra „populiariausias“, nes visi su juo susieja, o W4 yra „mažiausiai populiarus“, nes niekas su juo nesusieja. Taigi, W1 paieškos rezultatuose rodomas viršuje, o W4 - apačioje.



Sprogus tinklalapiams, šios paieškos sistemos rado iššūkių kuriant indeksą ir atliekant „PageRanking“ skaičiavimus. Čia Hadoopas gimė „Yahoo“, o vėliau tapo „ASOS“ („Apache Software Foundation“) valdoma FOSS (laisvos ir atviro kodo programine įranga). Patekusi į ASF, daugelis įmonių pradėjo domėtis „Hadoop“ ir prisidėti prie jos tobulinimo. „Hadoop“ buvo tas, kuris pradėjo „Big Data“ revoliuciją, tačiau daugelis kitų programinės įrangos, tokių kaip „Spark“, „Hive“, „Pig“, „Sqoop“, „Zookeeper“, „HBase“, „Cassandra“, „Flume“, pradėjo tobulėti, kad pašalintų „Hadoop“ apribojimus ir spragas.

Pirmieji žiniatinklio paieškos varikliai naudojo „Hadoop“, tačiau vėliau daugybė naudojimo atvejų pradėjo vystytis, nes buvo generuojama vis daugiau duomenų. Paimkime el. Prekybos programos, naudojamos rekomenduojant knygas vartotojui, pavyzdį. Pagal žemiau pateiktą schemą „user1“ pirko knygą1, knygą2 ir knygą3, vartotojas2 - knygas ir pan. Atidžiai stebėdami galime pastebėti, kad user1 ir user2 yra panašaus skonio, kaip ir nusipirkę book1 ir book2. Taigi, „book3“ gali būti rekomenduojamas vartotojui2, o „book4“ - vartotojui1. Tai vadinama „Collaborative Filtering“ - mašininio mokymosi algoritmo tipas. Mes galime apversti žemiau pateiktą schemą ir gauti panašių knygų.

Minėtu atveju mes sukūrėme indeksą „PageRanked“ ir rekomendavome vartotojui, duomenų dydis buvo nedidelis, todėl mes galėjome vizualizuoti duomenis ir padaryti išvadas iš jų. Duomenų dydis didėja kiekvieną dieną ir nebekontroliuojamas, todėl čia matomi tokie „Big Data“ įrankiai, kaip „Hadoop“.



„Hadoop“ sprendžia daugybę problemų, tačiau „Hadoop“ ir kitos „Big Data“ programinės įrangos įdiegimas niekada nebuvo lengva užduotis. Yra daugybė konfigūracijos parametrų, kuriuos reikia pakoreguoti, pvz., Integracijos, diegimo ir konfigūravimo problemos, su kuriomis dirbate. Čia tokios kompanijos kaip „Cloudera“, ir duomenų bazės padeda. Jie palengvina „Big Data“ programinės įrangos diegimą ir teikia komercinę paramą, pavyzdžiui, tarkime, kad kažkas vyksta gamyboje. „Amazon EMR“ („Elastic MapReduce“) lengviau naudoti „Hadoop“ ir kt. Pavadinimas „Elastic MapReduce“ yra šiek tiek klaidingas, nes EMR taip pat palaiko kitus paskirstytus skaičiavimo modelius, pvz., „Elastingus paskirstytus duomenų rinkinius“, o ne tik „MapReduce“.

Šioje pamokoje mes ištirsime, kaip sukonfigūruoti EMR sankaupą „AWS Cloud“, o būsimoje pamokoje - kaip paleisti „Spark“, „Hive“ ir kitas viršuje esančias programas.

Toliau einant į tai, kaip sukurti „Hadoop“ klasterį naudojant „Amazon EMR“?

Demonstracija: EMR klasterio kūrimas AWS

1 žingsnis: Eikite į EMR valdymo pultą ir spustelėkite „Sukurti grupę“. Pulte - metaduomenys, skirti nutrauktas klasteris taip pat nemokamai taupomas dviem mėnesiams. Tai leidžia nutrauktą klasterį klonuoti ir vėl sukurti.

kas yra džitas java

2 žingsnis : Greitųjų parinkčių ekrane spustelėkite „Eiti į išplėstines parinktis“, kad nurodytumėte daug daugiau informacijos apie grupę.

3 žingsnis: Skirtuke Išplėstinės parinktys galime pasirinkti skirtingą programinę įrangą, kuri bus įdiegta EMR klasteryje. SQL sąsajai galima pasirinkti avilį. Duomenų srauto kalbos sąsajai galima pasirinkti Pig. Paskirstytai programai koordinuoti galima pasirinkti „ZooKeeper“ ir pan. Šis skirtukas taip pat leidžia mums pridėti veiksmus, kurie yra neprivaloma užduotis. Veiksmai yra didelių duomenų apdorojimo užduotys naudojant „MapReduce“, „Pig“, „Hive“ ir kt. Jas galima pridėti šiame skirtuke arba vėliau, kai bus sukurtas klasteris. Spustelėkite „Kitas“, kad pasirinktumėte aparatinę įrangą, reikalingą EMR klasteriui.

4 žingsnis: Hadoopas vadovaujasi pagrindinio darbuotojo architektūra, kur meistras atlieka visą koordinavimą, pavyzdžiui, planuoja ir paskiria darbą bei tikrina jų pažangą, o darbuotojai atlieka faktinį duomenų apdorojimo ir saugojimo darbą. Vienas meistras yra vieno taško nesėkmė (SPOF). „Amazon EMR“ palaiko daugialypę prieigą prie didelio prieinamumo (HA). Ankstesnis žingsnis leidžia sukonfigūruoti kelių pagrindinių grupių grupę EMR.

EMR leidžia dviejų tipų mazgus - „Core“ ir „Task“. Pagrindinis mazgas naudojamas tiek duomenims apdoroti, tiek saugoti, užduočių mazgas naudojamas tik duomenims apdoroti. Šioje pamokoje galime pasirinkti tik vieną „Core“ ir ne „Task“ mazgus, nes tai mums kainuoja mažiau. Be to, pasirinkite Vietos pavyzdžiai baigėsi Pagal pareikalavimą nes „Spot“ egzemplioriai yra pigesni. „Spot“ egzempliorių pagavimas yra tas, kad AWS juos gali automatiškai nutraukti naudodamas a įspėjimas apie dvi minutes . Tai gerai praktikos sumetimais ir kai kuriais atvejais. „Spot“ egzemplioriai nutraukiami automatiškai, nes jiems yra mažas prioritetas, palyginti su kitų tipų pavyzdžiais. Spustelėkite „Next“.

5 žingsnis: Nurodykite klasterio pavadinimą. ir spustelėkite „Next“. Atkreipkite dėmesį, kad „Apsauga nuo nutraukimo“ yra įjungta pagal numatytuosius nustatymus. Tai užtikrina, kad EMR klasteris nebūtų ištrintas netyčia, atliekant kelis veiksmus nutraukiant klasterį.

6 žingsnis: Skirtuke nurodomos skirtingos EMR sankaupos saugos parinktys. Norint prisijungti prie EC2 egzemplioriaus, reikia pasirinkti „KeyPair“. EMR automatiškai sukurs reikiamus vaidmenis ir saugos grupes ir pridės juos prie pagrindinio ir darbuotojo EC2 mazgų. Spustelėkite „Sukurti grupę“.

nustatyti java kelią languose

Klasterio sukūrimas trunka kelias minutes, nes reikia įsigyti EC2 egzempliorius, o skirtingos „Big Data“ programinės įrangos turi būti įdiegtos ir sukonfigūruotos. Iš pradžių klasterio būsena bus „Pradinė“ būsena ir pereis į būseną „Laukimas“. „Laukiančioje“ būsenoje EMR klasteris tiesiog laukia, kol pateiksime įvairias didelių duomenų apdorojimo užduotis, tokias kaip MR, „Spark“, „Hive“ ir kt.

Be to, atkreipkite dėmesį iš „EC2“ valdymo pulto ir atkreipkite dėmesį, kad pagrindinis ir darbuotojas „EC2“ egzemplioriai turėtų būti veikiančios būsenos. Tai yra „Spot“ egzemplioriai, sukurti kuriant EMR grupes. Tą patį EC2 galima pastebėti ir EMR valdymo pulto skirtuke Aparatūra. Atkreipkite dėmesį, kad skirtuke Aparatūra „Spot EC2“ egzempliorių kaina minima kaip 0,032 USD / val. „Spot“ egzempliorių kaina laikui bėgant keičiasi ir yra daug mažesnė nei „On-Demand EC2“ kainodara.

7 žingsnis: Dabar, kai EMR klasteris buvo sėkmingai pridėtas, galima pridėti „Steps“ arba „Big Data“ apdorojimo užduotis. Eikite į skirtuką „Veiksmai“ ir spustelėkite „Pridėti veiksmą“ ir pasirinkite žingsnio tipą (MR, „Hive“, „Spark“ ir kt.). Mes ištirsime tą patį būsimoje pamokoje. Kol kas spustelėkite Atšaukti.

8 žingsnis: Dabar, kai pamatėme, kaip paleisti EMR, galime pamatyti, kaip tą patį sustabdyti.

php eilutę pavers masyvu

8.1 žingsnis: Spustelėkite „Nutraukti“.

8.2 žingsnis: Kaip minėta ankstesniuose žingsniuose, EMR klasteriui „Apsauga nuo nutraukimo“ yra įjungta, o mygtukas „Baigti“ buvo išjungtas. Spustelėkite Keisti.

8.3 žingsnis: Pasirinkite radijo mygtuką „Išjungta“ ir spustelėkite varnelę. Dabar turėtų būti įjungtas mygtukas „Nutraukti“. Tai yra papildomas žingsnis, kurį įdiegė EMR, tik norėdami įsitikinti, kad netyčia neištriname EMR grupės.

Atkreipkite dėmesį, kad EMR klasteris bus baigiamojo statuso ir EC2 bus nutrauktas. Galiausiai, EMR klasteris bus perkeltas į statusą „Baigta“, tada mūsų atsiskaitymas su AWS bus sustabdytas. Būtinai nutraukite klasterį, kad nepatirtumėte papildomų AWS išlaidų.

Išvada

Šioje pamokoje matėme, kaip per kelias minutes paleisti EMR klasterį iš žiniatinklio konsolės (naršyklės), tą patį galima automatizuoti naudojant , AWS SDK arba naudojant „AWS CloudFormation“ . Kaip pastebėjome, EMR klasterio nustatymas gali būti atliktas per kelias minutes, o didžiųjų duomenų apdorojimą galima pradėti nedelsiant, kai tik apdorojimas bus baigtas, išvestis gali būti saugoma S3 arba „DynamoDB“ ir todėl klasterio išjungimas sustabdyti atsiskaitymą. Dėl šio kainodaros modelio ir paprasto naudojimo EMR yra didelis smūgis tiems, kurie apdoroja „Big Data“. Nereikia pirkti daug serverio, gauti „Big Data“ programinės įrangos licencijų ir jų prižiūrėti. “

Taigi tai yra vaikinai, todėl mes baigiame šį straipsnį apie tai, kaip sukurti „Hadoop“ klasterį naudojant „Amazon EMR“?Jei norite įgyti šio dalyko patirties, „Edureka“ parengė mokymo programą, kurioje tiksliai aprašoma, ko jums reikia norint išspręsti Sprendimo architekto egzaminą! Galite pažvelgti į išsamią kursų informaciją mokymai.

Jei kiltų klausimų, susijusių su šiuo tinklaraščiu, nedvejodami užduokite klausimą toliau pateiktame komentarų skyriuje, ir mes mielai jums atsakysime anksčiausiai.