„Hadoop 2.0“ - dažnai užduodami klausimai



Per pastaruosius porą metų susidomėjimas „Hadoop“ išaugo daug kartų. Šis įrašas atsako į jūsų klausimus ir pašalina daug abejonių dėl „Hadoop 2.0“ ir jo naudojimo.

Tai yra tolesnis pranešimas su atsakymu į dažniausiai užduodamus klausimus per viešą „edureka“ internetinį seminarą! ant .

Dažnai užduodami klausimai apie Hadoop

„Deepak“:





Kas yra Hadoopas?
„Apache Hadoop“ yra atvirojo kodo programinės įrangos sistema, skirta duomenų rinkiniams saugoti ir plačiai apdoroti prekių aparatinės įrangos grupėse. Tai yra atviro kodo duomenų tvarkymo programinės įrangos sistema su išplėstine saugykla ir paskirstytuoju apdorojimu. Ją kuria ir naudoja pasaulinė bendraautorių ir vartotojų bendruomenė.

Skaitykite daugiau mūsų „Hadoop“ tinklaraščio įraše ir .



Paieška:

Kokie yra didžiųjų duomenų naudojimo atvejai kelionių, transporto ir oro linijų pramonėje?

Saulėta:



Ar galite nurodyti mums tikrąjį „Hadoop“ diegimo pavyzdį, kurį galime ištirti?
Mes esame liviapiedidėjančių spūsčių piko metu eroje. Transporto operatoriai nuolat ieško ekonomiškų būdų, kaip teikti paslaugas, išlaikydami savo transporto parką geromis sąlygomis. „Big Data Analytics“ naudojimas šiame domene gali padėti organizacijai:

  • Maršruto optimizavimas
  • Geoerdvinė analizė
  • Eismo modeliai ir spūstys
  • Turto priežiūra
  • Pajamų valdymas (t. Y. Aviakompanija)
  • Atsargų valdymas
  • Kuro taupymas
  • Tikslinė rinkodara
  • Klientų lojalumas
  • Pajėgumų prognozavimas
  • Tinklo našumas ir optimizavimas

Tik keletas naudojimo atvejų yra:
iki) Skrydžio išlaidų nustatymas
b) Atsargų logistikos prognozavimo modeliavimas
c) „Orbitz Worldwide“ - klientų pirkimo modeliai
d) Šeši „Super-Scale Hadoop“ diegimai
yra) Hadoopas - daugiau nei prideda
f) „Hadoop“ įmonėje

Sužinokite daugiau apie „Hadoop“ realiame pasaulyje diegimą:

Hirdeshas:

Ar „Hadoop“ yra susijęs su duomenų tvarkymu ir tvarkymu? Kaip pereiti prie ataskaitų teikimo ir „Visual Analytics“. Ar galima „Qlikview“, „Tableau“ naudoti ant „Hadoop“?
Pagrindiniai „Hadoop“ komponentai HDFS ir „MapReduce“ yra susiję su duomenų saugojimu ir apdorojimu. HDFS saugojimui ir „MapReduce“ apdorojimui. Tačiau analizei naudojami pagrindiniai „Hadoop“ komponentai, tokie kaip „Pig“ ir „Hive“. „Visual Reports Tableau“ „QlikView“ galima prijungti prie „Hadoop for Visual Reporting“.

Amit:

Hadoopas vs. mongoDB
„MongoDB“ yra naudojama kaip „operatyvinė“ realaus laiko duomenų saugykla, o „Hadoop“ naudojama neprisijungus paketiniams duomenims apdoroti ir analizuoti.
„mongoDB“ yra į dokumentus orientuota, be schemų duomenų saugykla, kurią galite naudoti žiniatinklio programoje kaip vidinę atmintį, o ne RDBMS, pvz., „MySQL“, o „Hadoop“ daugiausia naudojama kaip išplėstinė saugykla ir paskirstytas didelio duomenų kiekio apdorojimas.

Skaitykite daugiau mūsų „mongoDB“ ir „Hadoop“ tinklaraščio įrašas .

Čia:

Ar „Apache Spark“ yra „Hadoop“ dalis ?
„Apache Spark“ yra greitas ir bendras variklis, skirtas didelio masto duomenims apdoroti. „Spark“ yra greitesnė ir palaiko atminties apdorojimą. „Spark“ vykdymo variklis praplečia skaičiavimo darbo krūvio tipą, kurį „Hadoop“ gali įveikti ir gali paleisti „Hadoop 2.0 YARN“ grupėje. Tai yra apdorojimo pagrindų sistema, leidžianti saugoti atminties objektus (RDD) kartu su galimybe apdoroti šiuos objektus naudojant „Scala“ uždarymus. Jis palaiko grafiką, duomenų saugyklą, mašininį mokymąsi ir srauto apdorojimą.

Jei turite „Hadoop 2“ grupę, galite paleisti „Spark“ be jokio diegimo. Priešingu atveju „Spark“ lengva valdyti atskirai arba naudojant EC2 ar „Mesos“. Jis gali skaityti iš HDFS, HBase, Cassandra ir bet kurio „Hadoop“ duomenų šaltinio.

Skaitykite daugiau „Spark“ čia .

Prasadas:

Kas yra „Apache Flume“?
„Apache Flume“ yra paskirstyta, patikima ir prieinama sistema, skirta efektyviai rinkti, kaupti ir perkelti didelius žurnalo duomenis iš daugelio skirtingų šaltinių į centralizuotą duomenų šaltinį.

iteracinis fibonacci c ++

Amit:

SQL ir NO-SQL duomenų bazės
„NoSQL“ duomenų bazės yra naujos kartos duomenų bazės ir dažniausiai skirtos kai kuriems klausimams

  • nesusijęs
  • platinamas
  • atviro kodo
  • horizontaliai keičiamas

Dažnai taikoma daugiau charakteristikų, tokių kaip be schemos, lengvo replikavimo palaikymas, paprastas API, galiausiai nuoseklus / BASE (ne ACID), didžiulis duomenų kiekis ir dar daugiau. Pvz., Keletas diferenciatorių yra:

  • „NoSQL“ duomenų bazės didėja horizontaliai, pridedant daugiau serverių, kad būtų galima susidoroti su didesnėmis apkrovomis. Kita vertus, SQL duomenų bazės paprastai didėja vertikaliai, didėjant srautui, į vieną serverį pridedama vis daugiau išteklių.
  • SQL duomenų bazėse reikėjo apibrėžti savo schemas prieš pridedant bet kokią informaciją ir duomenis, tačiau „NoSQL“ duomenų bazėse be schemų nereikia schemos apibrėžti iš anksto.
  • SQL duomenų bazės yra lentelės, pagrįstos eilutėmis ir stulpeliais, vadovaujantis RDBMS principais, o „NoSQL“ duomenų bazės yra dokumentų, raktų reikšmių poros, grafikų ar plačių stulpelių saugyklos.
  • SQL duomenų bazėse duomenų apibrėžimui ir manipuliavimui naudojama SQL (struktūrinė užklausos kalba). „NoSQL“ duomenų bazėje užklausos skiriasi kiekvienoje duomenų bazėje.

Populiarios SQL duomenų bazės: „MySQL“, „Oracle“, „Postgres“ ir „MS-SQL“
Populiari „NoSQL“ duomenų bazės: „MongoDB“, „BigTable“, „Redis“, „RavenDb“, „Cassandra“, „HBase“, „Neo4j“ ir „CouchDB“

Peržiūrėkite mūsų tinklaraščius „Hadoop“ ir „NoSQL“ duomenų bazės ir vienos tokios duomenų bazės privalumai:

Koteswararao:

Ar „Hadoop“ turi įmontuotą „Cluster“ technologiją?
„Hadoop“ klasteris naudoja „Master-Slave“ architektūrą. Jis susideda iš vieno pagrindinio („NameNode“) ir vergų grupių („DataNodes“) duomenims saugoti ir apdoroti. „Hadoop“ sukurtas veikti daugeliui mašinų, kurios neturi jokios atminties ar diskų. Šie „DataNodes“ yra sukonfigūruoti naudojant grupes . Hadoopas naudoja replikacijos koncepciją, kad užtikrintų, jog klasteryje visą laiką būtų prieinama bent viena duomenų kopija. Kadangi yra kelios duomenų kopijos, serveryje saugomi duomenys, kurie išjungiami arba miršta, gali būti automatiškai nukopijuoti iš žinomos geros kopijos.

Dinesh:

Kas yra darbas Hadoope? Ką viską galima pasiekti per darbą?
„Hadoop“ programoje „Job“ yra programa „MapReduce“, skirta apdoroti / analizuoti duomenis. Sąvoka „MapReduce“ iš tikrųjų reiškia dvi atskiras ir atskiras užduotis, kurias atlieka „Hadoop“ programos. Pirmoji yra užduotis Žemėlapis, kuri ima duomenų rinkinį ir paverčia jį kitu tarpinių duomenų rinkiniu, kur atskiri elementai suskirstomi į raktų ir verčių poras. Antroje „MapReduce Job“ dalyje, užduotyje „Reduce“, žemėlapio išvestis laikoma įvestimi ir raktų reikšmių poros sujungiamos į mažesnį agreguotų raktų ir verčių poros rinkinį. Kaip matyti iš pavadinimo „MapReduce“ sekos, užduotis „Reduce“ visada atliekama baigus žemėlapio užduotis. Skaitykite daugiau „MapReduce Job“ .

Sukruth:

Kuo ypatingas „NameNode“ ?
„NameNode“ yra HDFS failų sistemos esmė. Tai saugo visų failų sistemos failų metaduomenis, pvz., Katalogų medį, ir stebi, kur visoje grupėje yra saugomi failų duomenys. Faktiniai duomenys „DataNodes“ saugomi kaip HDFS blokai.
Kliento programos kalba su „NameNode“, kai tik nori rasti failą arba kai nori pridėti / kopijuoti / perkelti / ištrinti failą. „NameNode“ atsako į sėkmingas užklausas pateikdamas atitinkamų „DataNodes“ serverių, kuriuose gyvena duomenys, sąrašą. Skaitykite daugiau apie HDFS architektūrą .

rūšiavimo algoritmas gali būti naudojamas organizuoti ________ rinkinį ________ tvarka.

Dinesh:

Kada „Hadoop 2.0“ buvo pristatytas į rinką?
„Apache Software Foundation“ (ASF), atvirojo kodo grupė, valdanti „Hadoop Development“, 2013 m. Spalio 15 d. Savo tinklaraštyje paskelbė, kad „Hadoop 2.0“ dabar yra visuotinai prieinama (GA). Šis pranešimas reiškia, kad po ilgo laukimo „Apache Hadoop 2.0“ ir „YARN“ dabar yra pasirengę diegti „Production“. Daugiau apie Tinklaraštis.

Dinesh:

Kokie yra keli „MapReduce Big Data“ programos pavyzdžiai?
„MapReduce“ puikiai tinka daugeliui programų išspręsti „Big Data“ problemas, tačiau ne viskam, kiti programavimo modeliai geriau atitinka reikalavimus, pvz., Grafikų apdorojimą (pvz., „Google Pregel“ / „Apache Giraph“) ir iteracinį modeliavimą naudojant pranešimų perdavimo sąsają (MPI).

Marish:

Kaip duomenys tvarkomi ir indeksuojami HDFS?
Duomenys yra suskirstyti į 64 MB blokus (konfigūruojami pagal parametrą) ir saugomi HDFS. „NameNode“ saugo šių blokų saugyklos informaciją kaip „Block ID“ savo RAM („NameNode“ metaduomenys). „MapReduce“ užduotys gali pasiekti šiuos blokus naudodamos „NameNode“ RAM saugomus metaduomenis.

Šašvatas:

Ar galime tame pačiame klasteryje naudoti ir MapReduce (MRv1), ir MRv2 (su YARN)?
„Hadoop 2.0“ pristatė naują „YARN“ sistemą, skirtą skirtingoms „Hadoop“ programoms rašyti ir vykdyti. Taigi, „YARN“ ir „MapReduce“ yra dvi skirtingos „Hadoop 2.0“ sąvokos, todėl jų nereikėtų maišyti ir naudoti tarpusavyje. Teisingas klausimas yra „Ar galima paleisti tiek MRv1, tiek MRv2„ Hadoop 2.0 “grupėje, kurioje įjungtas YARN?“ Atsakymas į šį klausimą yra a „Ne“ net jei „Hadoop“ klasteris gali būti sukonfigūruotas vykdyti tiek MRv1, tiek MRv2, bet bet kuriuo metu gali paleisti tik vieną demonų rinkinį. Abi šios sistemos ilgainiui naudoja tuos pačius konfigūracijos failus ( verpalai-site.xml ir mapred-site.xml ) paleisti demonus, todėl Hadoop klasteryje galima įjungti tik vieną iš dviejų konfigūracijų.

Lėlė:

Kuo skiriasi naujos kartos „MapReduce“ (MRv2) ir verpalai?
Verpalai ir naujos kartos „MapReduce“ (MRv2) yra dvi skirtingos „Hadoop 2.0“ koncepcijos ir technologijos. YARN yra programinės įrangos sistema, kuri gali būti naudojama paleisti ne tik MRv2, bet ir kitas programas. MRv2 yra programos struktūra, parašyta naudojant „YARN API“, ir ji veikia „YARN“.

Bharat:

Ar „Hadoop 2.0“ užtikrina atgalinį suderinamumą su „Hadoop 1.x“ programomis?
Neha:

Ar „Hadoop 1.0–2.0“ perkėlimui reikia sunkaus programos kodo migracija?
Ne, dauguma programų, sukurtų naudojant „org.apache.hadoop.mapred“ API, gali veikti YARN be jokio kompiliavimo. YARN yra dvejetainis suderinamas su MRv1 programomis, o „bin / hadoop“ gali būti naudojamas šioms programoms pateikti YARN. Skaitykite daugiau apie tai čia .

Šerinas:

Kas atsitiks, jei išteklių valdytojo mazgas nepavyks naudojant „Hadoop 2.0“?
Pradedant nuo „Hadoop“ leidimo 2.4.0, „Resource Manager“ palaikymas taip pat yra prieinamas. „ResourceManager“ persijungimui naudoja „Apache ZooKeeper“. Kai išteklių valdytojo mazgas nepavyksta, antrinis mazgas gali greitai atkurti per „ZooKeeper“ išsaugotą sankaupos būseną. „ResourceManager“, įvykus trikčiai, iš naujo paleidžia visas eilėje esančias ir veikiančias programas.

Sabbirali:

Ar „Apache Hadoop“ sistema veikia „Cloudera Hadoop“?
„Apache Hadoop“ buvo pristatytas 2005 m. Su pagrindiniu „MapReduce“ apdorojimo varikliu, kuris palaiko paskirstytą didelio masto duomenų darbo krūvių, saugomų HDFS, apdorojimą. Tai yra atvirojo kodo projektas ir turi kelis paskirstymus (panašius į „Linux“). „Cloudera Hadoop“ (CDH) yra vienas iš tokių „Cloudera“ platinimų. Kiti panašūs platinimai yra „HortonWorks“, „MapR“, „Microsoft HDInsight“, „IBM InfoSphere BigInsights“ ir kt.

Arulvadivel:

Bet koks paprastas būdas įdiegti „Hadoop“ į savo nešiojamąjį kompiuterį ir pabandyti perkelti „Oracle“ duomenų bazę į „Hadoop“?
Tu gali pradžia su nešiojamojo kompiuterio „HortonWorks Sandbox“ arba „Cloudera Quick VM“ (su mažiausiai 4 GB RAM ir „i3“ ar naujesniu procesoriumi). Naudokite SQOOP, kad perkeltumėte duomenis iš „Oracle“ į „Hadoop“, kaip paaiškinta čia .

Bhabani:

Kokios knygos yra geriausios, norint išmokti „Hadoop“?
Pradėti nuo Hadoopas: galutinis vadovas pateikė Tomas White'as ir „Hadoop“ operacijos pateikė Erikas Sammeris.

Mahendra:

Ar yra „Hadoop 2.0“, kaip ir „Hadoop“, galutinis skaitymas?
Peržiūrėkite vėliausias atvykimas knygų lentynose, kurias parašė nedaugelis „Hadoop 2.0“ kūrėjų.

Stebėkite daugiau šios serijos klausimų.