„Cloudera Hadoop“: darbo su CDH platinimu pradžia



Šis „Edureka“ tinklaraštis „Cloudera Hadoop“ mokymo programoje suteiks jums išsamią informaciją apie skirtingus „Cloudera“ komponentus, tokius kaip „Cloudera Manager“, „Siuntiniai“, „Hue“ ir kt.

Didėjant „Big Data“ poreikiui, „Apache Hadoop“ yraprierevoliucijos esmė, ji pakeitė duomenų tvarkymo ir skaičiavimo būdą. Organizacijų poreikis suderinti „Hadoop“ su savo verslo poreikiais paskatino komercinių platinimų atsiradimą. Komerciniai „Hadoop“ paskirstymai paprastai yra supakuoti su funkcijomis, skirtomis supaprastinti „Hadoop“ diegimą. „Cloudera Hadoop Distribution“ teikia keičiamo dydžio, lanksčią, integruotą platformą, leidžiančią lengvai valdyti sparčiai didėjančią jūsų įmonės duomenų kiekį ir įvairovę.

Šiame „Cloudera Hadoop Distribution“ tinklaraštyje aptarsime šias temas:





„Cloudera Hadoop“: „Hadoop“ įvadas

„Hadoop“ yra „Apache“ atvirojo kodo sistema, sauganti ir apdorojanti „Big Data“ paskirstytoje aplinkojevisojeklasteris, naudojant paprastus programavimo modelius. „Hadoop“ teikia lygiagrečią skaičiavimą paskirstytosios saugyklos viršuje.Norėdami sužinoti daugiau apie „Hadoop“ išsamiai iš galite tai nurodyti

Po šio trumpo „Hadoop“ įvado leiskite man dabar paaiškinti skirtingus „Hadoop“ platinimo tipus.



„Cloudera Hadoop“: „Hadoop“ paskirstymai

Kadangi „Apache Hadoop“ yra atviras šaltinis, daugelis kompanijų sukūrė platinimus, kurie viršija pirminio atvirojo kodo ribas. Tai labai panašu į „Linux“ platinimus, tokius kaip „RedHat“, „Fedora“ ir „Ubuntu“. Kiekvienas „Linux“ paskirstymas palaiko savo funkcijas ir funkcijas, tokias kaip patogi vartotojo sąsaja „Ubuntu“. Panašiai raudona KEPURĖ yra populiarus įmonėse, nes siūlo paramą ir ideologiją, kad galėtų keisti bet kurią sistemos dalį savo nuožiūra. „Red Hat“ atleidžia jus nuo programinės įrangos suderinamumo problemų. Paprastai tai yra didelė problema vartotojamskurie pereina iš „Windows“.

Panašiai yra 3 pagrindiniai „Hadoop“ paskirstymo tipai, kurie turi savo funkcijų ir funkcijų rinkinį ir yra pastatyti po pagrindine HDFS.

„Cloudera“ prieš „MapR“ ir „Hortonworks“

Pav. „MapR“ prieš „Hortonworks“ ir „Cloudera“

Pav. „MapR“ prieš „Hortonworks“ ir „Cloudera“



„Cloudera Hadoop“ platinimas

„Cloudera“ yra „Hadoop“ kosmoso rinkos tendencija ir pirmoji išleido komercinį „Hadoop“ platinimą. Ji siūlo konsultavimo paslaugas, kad būtų galima panaikinti atotrūkį tarp „ko teikia Apache Hadoop“ ir „ko reikia organizacijoms“.

„Cloudera“ platinimas yra:

  • Greitai verslui Nuo „Analytics“ iki duomenų mokslo ir visko, kas vyksta tarp jų, „Cloudera“ teikia našumą, kurio reikia norint išlaisvinti neribotų duomenų potencialą.
  • Padaro „Hadoop“ lengvai valdomą : Naudodami „Cloudera Manager“, automatiniai vedliai leidžia greitai įdiegti savo grupę, neatsižvelgiant į mastą ar diegimo aplinką.
  • Saugoma be kompromisų: Tenkina griežtus duomenų saugumo ir atitikties poreikius neprarandant verslo judrumo. „Cloudera“ teikia integruotą požiūrį į duomenų saugumą ir valdymą.

„Horton-Works“ Paskirstymas

„Horton-Works“ duomenų platforma (HDP) yra visiškai atviro kodo platforma, sukurta manevruoti daugelio šaltinių ir formatų duomenimis. Platforma apima įvairius „Hadoop“ įrankius, tokius kaip „Hadoop Distributed File System“ (HDFS), „MapReduce“, „Zookeeper“, „HBase“, „Pig“, „Hive“ ir papildomus komponentus.

Jis taip pat palaiko tokias funkcijas kaip:

  • HDP daro avilį greičiau per savo naują „Stinger“ projektą.
  • HDP vengia pardavėjo užrakinimo pasižadėdamas išsišakojusią „Hadoop“ versiją.
  • HDP yra sutelktas į tinkamumas naudoti „Hadoop“ platformos.

„MapR“ platinimas

„MapR“ yra į platformą orientuotas „Hadoop“ sprendimų tiekėjas, kaip ir „HortonWorks“ bei „Cloudera“. „MapR“ siūlo savo duomenų bazių sistemą, žinomą kaip „MapR-DB“, siūlydama „Hadoop“ platinimo paslaugas. Teigiama, kad „MapR-DB“ yra keturis – septynis kartus greitesnė už „Hadoop“ atsargų duomenų bazę, t. Y. „HBase“, kuri vykdoma kituose paskirstymuose.

Tai turi savo intriguojančių savybių, tokių kaip:

  • Tai yra vienintelis „Hadoop“ paskirstymas, apimantis „Pig“, „Hive“ ir „Sqoop“ be jokių „Java“ priklausomybių, nes jis remiasi „MapR-File System“.
  • „MapR“ yra labiausiai paruoštas „Hadoop“ platinimas su daugybe patobulinimų, kurie daro jį patogesnį vartotojui, greitesnį ir patikimesnį.

Dabar išsamiai aptarkime „Cloudera Hadoop“ platinimą.

Užsiprenumeruokite mūsų „YouTube“ kanalą, kad gautumėte naujų naujinių ...

„Cloudera Hadoop“: „Cloudera“ platinimas

„Cloudera“ yra geriausiai žinomas „Hadoop“ erdvės žaidėjas, išleidęs pirmąjį komercinį „Hadoop“ platinimą.

Pav. „Cloudera Hadoop“ paskirstymas

„Cloudera Hadoop Distribution“ palaiko šiuos funkcijų rinkinius:

  1. „Cloudera“ CDH apima visus atvirojo kodo komponentus, nukreipta į įmonės klasės diegimą ir yra viena iš populiariausių komercinių „Hadoop“ platinimų.
  2. Žinomas dėl savo naujovių, „Cloudera“ buvo pirmoji, kuri pasiūlė „SQL for Hadoop“ su jos Impala užklausų variklis.
  3. Valdymo pultas - „Cloudera“ vadybininkas , yra lengva naudoti ir įgyvendinti su turtinga vartotojo sąsaja, rodančia visą grupių informaciją organizuotai ir švariai.
  4. CDH galite pridėti paslaugų prie veikiančio klasterio be jokių trikdžių.
  5. Kiti „Cloudera“ papildymai apima saugumą, vartotojo sąsają ir sąsajas, skirtas integruoti su trečiųjų šalių programomis.
  6. CDH teikia Mazgo šablonai y. tai leidžia sukurti mazgų grupę Hadoop klasteryje su skirtinga konfigūracija. Tai panaikina tos pačios konfigūracijos naudojimą visame „Hadoop“ klasteryje.
  7. Jis taip pat palaiko:
    • Patikimumas
      „Hadoop“ pardavėjai nedelsdami reaguoja, kai aptinka klaidą. Kad komerciniai sprendimai taptų stabilesni, pataisymai ir pataisymai yra nedelsiant diegiami.
    • Parama
      „Cloudera Hadoop“ pardavėjai teikia technines gaires ir pagalbą, kuri leidžia klientams lengvai pritaikyti „Hadoop“ įmonės lygio užduotims atlikti ir kritinėms misijoms.

    • Išsamumas
      „Hadoop“ pardavėjai sujungia savo platinimus su įvairiais kitais priedų įrankiais, kurie padeda klientams pritaikyti „Hadoop“ programą, kad būtų įvykdytos konkrečios užduotys.

„Cloudera“ platinimai pateikia 2 skirtingų tipų leidimus.

  1. „Cloudera Express Edition“
  2. „Cloudera Enterprise Edition“

Dabar pažvelkime į skirtumus tarp jų.

funkcijos „Cloudera-Express“ „Cloudera-Enterprise“
Klasterių valdymas
1. Daugiaklasteris valdymasTaipTaip
2. Išteklių valdymasTaipTaip
Diegimas
1. CDH 4 ir 5 palaikymasTaipTaip
2. Nuolatinis CDH atnaujinimasNeTaip
Paslaugų ir konfigūracijos valdymas
1. Tvarkykite HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark ir Accumulo paslaugasTaipTaip
2. Pakartotinis paslaugų paleidimasNeTaip
Saugumas
1. LDAP autentifikavimasNeTaip
2. SAML autentifikavimasNeTaip
Stebėjimas ir diagnostika
1. Sveikatos istorijaTaipTaip
Įspėjimų valdymas
1. Įspėjimas el. PaštuTaipTaip
2. Įspėjimas per SNMPNeTaip
Išplėstinės valdymo funkcijos
1. Automatinis atsarginių kopijų kūrimas ir atkūrimasNeTaip
2. Failų naršymas ir paieškaNeTaip
3. „MapReduce“, „Impala“, „HBase“, verpalų naudojimo ataskaitosNeTaip

„Cloudera Hadoop“: „Cloudera Manager“

Pasak „Cloudera“, „Cloudera Manager“ yra geriausias būdas tai padaryti diegti , sukonfigūruoti , valdyti ir monitorius „Hadoop“ kamino.

Tai suteikia:

  1. Automatizuotas diegimas ir konfigūravimas
  2. Pritaikomas stebėjimas ir ataskaitų teikimas
  3. Lengva ir patikima trikčių diagnostika
  4. Nulis - prastovų priežiūra

Gaukite išsamių žinių apie „Cloudera Hadoop“ ir įvairius jos įrankius

„Cloudera Manager“ demonstravimas

Panagrinėkime „Cloudera Manager“.

1. Žemiau pateiktame paveikslėlyje parodytas „Cloudera Manager“ šiuo metu veikiančių paslaugų skaičius. Taip pat galite peržiūrėti diagramas apie klasterio procesoriaus naudojimą, disko IO naudojimą ir kt.

Pav. „Cloudera Manager“ tinklalapis

2. Žemiau pateiktame paveikslėlyje pavaizduotas HBase klasteris. Čia pateikiamos diagramos ir diagramos apie šiuo metu veikiančio HBase REST serverio sveikatos būklę.

Pav. HBase serverio sveikatos būklė

3. Dabar pažvelkime į HBase klasterio skirtuką Instances, kur galite patikrinti būseną ir IP konfigūraciją.

kaip pakeisti eilutę python

Pav. HBase klasterio pagrindinio serverio būsena ir IP adresas

4. Tada turėsite skirtuką Konfigūracija. Čia galite pamatyti visus konfigūracijos parametrus ir pakeisti jų vertes.

Pav. HBase klasterio konfigūracija

Dabar supraskime, kas yra „Cloudera“ siuntiniai.

„Cloudera Hadoop“: siuntiniai

Siuntinys yra dvejetainis paskirstymo formatas, kuriame yra programos failai kartu su papildomais „Cloudera Manager“ naudojamais metaduomenimis.

Siuntiniai yra savarankiški ir įdiegiami versijuotame kataloge, o tai reiškia, kad kelias nurodytos paslaugos versijas galima įdiegti greta.

Toliau pateikiami siuntinio naudojimo pranašumai:

  • Tai suteikia CDH paskirstymą kaip vieną objektą, t. Y. Užuot turėję atskirą paketą kiekvienai CDH daliai, siuntiniai turi tik vieną objektą, kurį reikia įdiegti.

  • Tai suteikia vidinį nuoseklumą (kadangi visas CDH yra paskirstomas kaip vienas siuntinys, visi CDH komponentai yra suderinti ir nebus rizikos, kad skirtingos dalys bus iš skirtingų CDH versijų).

  • Siuntinius CDH galite įdiegti, atnaujinti, žemesnę versiją, paskirstyti ir suaktyvinti keliais paspaudimais.

Pažiūrėkime, kaip įdiegti ir suaktyvinti „Kafka“ paslaugą CDH naudojant siuntinius.

  1. Eikite į „Cloudera“ valdytojo pagrindinį puslapį >> Šeimininkai >> Siuntiniai, kaip parodyta žemiau

    Pav. Siuntinių pasirinkimas iš šeimininkų

2. Jei siuntinių sąraše nematote „Kafka“, siuntinį galite įtraukti į sąrašą.

  1. Raskite norimos naudoti „Kafka“ versijos siuntinį. Jei jo nematote, galite įtraukti siuntų saugyklą į sąrašą.
  2. Raskite norimos įdiegti „Kafka“ versijos siuntinį - „Cloudera“ „Apache Kafka“ versijų platinimas .
    Žemiau pateiktas paveikslas parodo tą patį.

Pav.: Siuntinio saugyklos kelias.

3. Nukopijuokite nuorodą, kaip parodyta aukščiau esančiame paveikslėlyje, ir pridėkite ją prie Nuotolinių siuntų saugyklos, kaip parodyta žemiau.

Pav. Kafkos kelio pridėjimas iš saugyklos

Keturi.Pridėjus kelią, „Kafka“ bus paruošta atsisiųsti. Galite tiesiog spustelėti atsisiuntimo mygtuką ir atsisiųsti „Kafka“.

Pav. „Kafka“ atsisiuntimas

5. Atsisiuntus Kafka, tereikia ją platinti ir aktyvuoti.

Pav .: Kafkos aktyvinimas

Kai jis bus suaktyvintas, galėsite eiti į priekį ir „Kafka“ peržiūrėti „Cloudera“ tvarkyklės paslaugų skirtuke.

Pav .: Kafkos paslauga

„Cloudera Hadoop“: „Oozie“ darbo eigos sukūrimas

Sukurti darbo eigą rankiniu būdu parašant XML kodą ir tada jį vykdant, yra sudėtinga. Galite tai nurodyti Suplanuokite „Oozie“ darbą tinklaraštyje, kad sužinotumėte apie tradicinį požiūrį.

__init__ pitonas

Galite pamatyti žemiau esantį vaizdą, kuriame parašėme XML failą, kad sukurtume paprastą „Oozie“ darbo eigą. Pav. „Oozie“ darbo eigos sukūrimas naudojant tradicinį metodą

Kaip matote, net norėdami sukurti paprastą „Oozie“ tvarkaraštį, turėjome parašyti didžiulį XML kodą, kuris užima daug laiko, o kiekvienos eilutės derinimas tampa sudėtingas. Norėdami tai įveikti, „Cloudera Manager“ pristatė naują funkciją, vadinamą Atspalvis kuris suteikia GUI ir paprastas „drag and drop“ funkcijas, skirtas „Oozie“ darbo eigoms kurti ir vykdyti.

Dabar pažiūrėkime, kaip „Hue“ supaprastintai atlieka tą pačią užduotį.

Prieš kurdami darbo eigą, pirmiausia sukurkime įvesties failus, t. Y. Clickstream.txt ir user.txt.
Faile user.txt turime vartotojo ID, vardą, amžių, šalį, lytį, kaip parodyta žemiau. Mums reikia šio vartotojo failo, kad žinotume, jog vartotojas skaičiuoja ir spustelėja URL (nurodytą paspaudimo srauto faile), remdamasis vartotojo ID.

Pav.: Teksto failo kūrimas

Norėdami sužinoti, kiek naudotojas spustelėjo kiekvieną URL, turime paspaudimų srautą, kuriame yra vartotojo ID ir URL.

Pav.: „Clickstream“ failas

Parašykime užklausas scenarijaus faile.

Paveikslėlis: scenarijaus failas

Sukūrę vartotojo failą, paspaudimų srauto failą ir scenarijaus failą, galime pradėti kurti „Oozie“ darbo eigą.

1. Galite tiesiog nuvilkti „Oozie“ darbo eigą, kaip parodyta paveikslėlyje.

Pav. Nuvilkite ir sukurkite „Oozie“ darbo eigą

2. Netrukus atsisakę veiksmo, turite nurodyti scenarijaus failo kelius ir pridėti scenarijaus faile nurodytus parametrus. Čia reikia pridėti parametrus OUTPUT, CLICKSTREAM ir USER ir nurodyti kiekvieno parametro kelią.

Paveikslėlis: scenarijaus failo ir reikalingų parametrų pridėjimas veiksmui atlikti

3. Nurodę kelius ir pridėję parametrus, dabar tiesiog išsaugokite ir pateikite darbo eigą, kaip parodyta žemiau esančiame paveikslėlyje.

Pav. „Oozie“ veiksmo išsaugojimas ir pateikimas

4. Kai pateiksite užduotį, jūsų darbas bus baigtas. Vykdymu ir kitais veiksmais rūpinasi Hue.

Pav. „Oozie“ darbo vykdymo būsena

5.Dabar, kai atlikome „Oozie“ darbą, pažvelkime į veiksmo skirtuką. Jame yra vartotojo ID ir darbo eigos būsena. Taip pat rodomi klaidos kodai, jei jų yra, veiksmo pradžios ir pabaigos laikas.

Pav. Elementai, esantys „Oozie“ darbo eigos skirtuke

6. Šalia veiksmų skirtuko yra išsamios informacijos skirtukas. Tuo galime pamatyti darbo pradžios ir paskutinį kartą pakeistą laiką.

Pav. Išsami informacija apie „Oozie“ darbo eigą.

7. Šalia skirtuko Išsami informacija turime darbo eigos skirtuką Konfigūracija.

Pav. „Oozie“ darbo eigos konfigūracijos nustatymai

7. Vykdant veiksmo elementą, jei yra klaidų, jis bus nurodytas skirtuke Žurnalas. Galite kreiptis į klaidų teiginius ir juos atitinkamai derinti.

Pav. Žurnalo failas, kuriame yra klaidų kodai ir klaidų teiginiai

8. Čia yra „Hue“ automatiškai sugeneruoto darbo eigos XML kodas.

Pav. „Oozie“ darbo eigos XML kodas

9.1. 2 žingsnyje jau nurodėte išvesties katalogo kelią, čia HDFS naršyklėje turite išvesties katalogą, kaip parodyta žemiau.

Pav. HDFS naršyklės išvesties katalogas

9.2 Spustelėjus išvesties katalogą, rasite tekstinį failą pavadinimu output.txt ir tame tekste yra faktinė išvestis, kaip parodyta žemiau esančiame paveikslėlyje.

Pav. Galutinio išvesties tekstas

Štai kaip „Hue“ daro mūsų darbą paprastą, pateikdamas „drag and drop“ parinktis, kad sukurtumėte „Oozie“ darbo eigą.

Tikiuosi, kad šis tinklaraštis buvo naudingas norint suprasti „Cloudera“ platinimą ir skirtingus „Cloudera“ komponentus.

Norite dalyvauti „Big Data“ revoliucijoje?

Dabar, kai supratote „Cloudera Hadoop Distribution“, patikrinkite sukūrė „Edureka“ - patikima internetinė mokymosi įmonė, turinti daugiau nei 250 000 patenkintų besimokančiųjų tinklą. „Edureka Big Data Hadoop“ sertifikavimo mokymo kursai padeda besimokantiesiems tapti HDFS, verpalų, „MapReduce“, „Pig“, „Hive“, „HBase“, „Oozie“, „Flume“ ir „Sqoop“ ekspertais, naudojant realaus laiko naudojimo atvejus mažmeninės prekybos, socialinės žiniasklaidos, aviacijos, turizmo, finansų srityse.

Turite mums klausimą? Prašau paminėti tai komentarų skiltyje ir mes su jumis susisieksime.