Esminiai „Hadoop“ įrankiai, skirti kaupti didelius duomenis



„Hadoop“ yra populiarus žodis šiandieniniame IT pasaulyje, o šis įrašas apibūdina esminius „Hadoop“ įrankius, kurie kenkia „Big Data“.

Šiandien populiariausias terminas IT pasaulyje yra „Hadoop“. Per trumpą laiką Hadoopas masiškai išaugo ir pasirodė esąs naudingas dideliam įvairių projektų rinkiniui. „Hadoop“ bendruomenė sparčiai vystosi ir turi svarbų vaidmenį savo ekosistemoje.





Čia apžvelgiami pagrindiniai „Hadoop“ įrankiai, naudojami tvarkant „Big Data“.

kaip apkarpyti java

ambari



Ambari yra „Apache“ projektas, kurį palaiko „Hortonworks“. Jis siūlo žiniatinklio GUI (grafinę vartotojo sąsają) su vedlio scenarijais, kad būtų galima sukurti grupes su dauguma standartinių komponentų. „Ambari“ aprūpina, valdo ir stebi visus „Hadoop“ darbų klasterius.

hdfs-logo

The HDFS , platinamas pagal „Apache“ licenciją, siūlo pagrindinę duomenų rinkinių padalijimo tarp kelių mazgų sistemą. HDFS faile dideli failai yra suskaidomi į blokus, kur keli mazgai laiko visus failo blokus. Failų sistema suprojektuota taip, kad būtų galima sumaišyti toleranciją su gedimais ir dideliu pralaidumu. HDFS blokai yra pakraunami, kad būtų užtikrintas tolygus srautas. Paprastai jie nėra talpykloje, kad sumažintų vėlavimą.



hbaselogo

HBase yra į stulpelius orientuota duomenų bazių valdymo sistema, veikianti virš HDFS. „HBase“ programos yra parašytos „Java“, panašiai kaip „MapReduce“ programa. Jį sudaro lentelių rinkinys, kuriame kiekvienoje lentelėje yra eilutės ir stulpeliai, kaip ir tradicinėje duomenų bazėje. Kai duomenys patenka į didelę lentelę, „HBase“ išsaugos duomenis, ieškos jų ir automatiškai bendrins lentelę keliuose mazguose, kad „MapReduce“ užduotys galėtų ją paleisti vietoje. „HBase“ siūlo ribotą kai kurių vietinių pakeitimų garantiją. Vienoje eilėje įvykę pakeitimai gali būti sėkmingi arba nepavykę tuo pačiu metu.

hive

Jei jau mokate SQL kalbą, galite panaudoti „Hadoop“ Avilys . Avilį sukūrė kai kurie „Facebook“ žmonės. „Apache Hive“ reguliuoja bitų išskyrimo iš visų HBase failų procesą. Tai palaiko didelių duomenų rinkinių, saugomų Hadoop HDFS ir suderinamose failų sistemose, analizę. Taip pat pateikiama į SQL panaši kalba, vadinama HSQL (HiveSQL), kuri patenka į failus ir ištraukia reikiamus kodo fragmentus.

sqoop

Apache Sqoop yra specialiai sukurtas efektyviems masinių duomenų perdavimui iš tradicinių duomenų bazių į „Hive“ arba „HBase“. Jis taip pat gali būti naudojamas duomenims iš „Hadoop“ išgauti ir eksportuoti į išorines struktūrizuotas duomenų parduotuves, tokias kaip reliacinės duomenų bazės ir įmonės duomenų saugyklos. „Sqoop“ yra komandinės eilutės įrankis, susidedantis iš lentelių ir duomenų saugojimo sluoksnio, paverčiantis lenteles konfigūruojamu HDFS, HBase ar Hive deriniu.

Pig1

Kai Hadoopas mato saugomus duomenis, Apache Pig pasineria į duomenis ir paleidžia kodą, parašytą savo kalba, vadinamą Pig Latin. Kiaulių lotynų kalba užpildomos abstrakcijos, skirtos duomenims tvarkyti. Kiauliena turi standartines funkcijas atliekant tokias įprastas užduotis kaip duomenų vidurkis, darbas su datomis arba skirtumų tarp eilučių nustatymas. Kiauliena taip pat leidžia vartotojui savarankiškai rašyti kalbas, vadinamas UDF (vartotojo apibrėžta funkcija), kai trūksta standartinių funkcijų.

zookeper

Zoologijos sodo prižiūrėtojas yra centralizuota paslauga, palaikanti, konfigūruojanti informaciją, suteikianti pavadinimą ir teikianti paskirstytą sinchronizavimą klasteryje. Klasteris nustato failų sistemos tipo hierarchiją ir saugo visus mašinų metaduomenis, todėl galime sinchronizuoti įvairių mašinų darbą.

„NoSQL“

Kai kurie „Hadoop“ klasteriai integruojasi su „NoSQL“ duomenų saugyklos, kuriose yra savi duomenų saugojimo mazgų grupėje mechanizmai. Tai leidžia jiems saugoti ir gauti duomenis su visomis „NoSQL“ duomenų bazės funkcijomis, o po to „Hadoop“ gali būti naudojamas planuoti duomenų analizės užduotis tame pačiame klasteryje.

mahoutlogo

Mahoutas yra skirtas įgyvendinti daug algoritmų, klasifikacijų ir duomenų analizės filtravimą į „Hadoop“ klasterį. Daugelis standartinių algoritmų, tokių kaip K reikšmės, „Dirichelet“, lygiagretusis modelis ir Bajeso klasifikacijos, yra pasirengę paleisti duomenis su „Hadoop“ stiliaus žemėlapiu ir sumažinti.

Lucene, parašyta „Java“ ir lengvai integruota su „Hadoop“, yra natūralus „Hadoop“ kompanionas. Tai įrankis, skirtas indeksuoti didelius nestruktūruoto teksto blokus. „Lucene“ tvarko indeksavimą, o „Hadoop“ - paskirstytas užklausas. Kuriant naujus projektus, „Lucene-Hadoop“ funkcijos sparčiai tobulėja.

Avro

Eurų yra serijos sistema, sujungianti duomenis kartu su schema, kad juos suprastų. Kiekviename pakete yra JSON duomenų struktūra. JSON paaiškina, kaip galima analizuoti duomenis. JSON antraštė nurodo duomenų struktūrą, kur galima išvengti poreikio rašyti papildomas žymas į duomenis laukams pažymėti. Išvestis yra žymiai kompaktiškesnė nei tradiciniai formatai, tokie kaip XML.

Darbą galima supaprastinti suskaidant jį į žingsnius. Pertraukus projektą į kelis „Hadoop“ darbus, Oozie pradeda juos tvarkyti tinkama seka. Jis valdo darbo eigą, kaip nurodyta DAG („Directed Acyclic Graph“), ir nereikia laiku stebėti.

GIS įrankiai

Darbas su geografiniais žemėlapiais yra didelis darbas grupėms, valdančioms „Hadoop“. GIS ( Geografinė informacinė sistema ) „Hadoop“ projektų įrankiai pritaikė geriausius „Java“ pagrindu sukurtus įrankius, kad suprastų geografinę informaciją, kad būtų galima vykdyti su „Hadoop“. Dabar duomenų bazės gali tvarkyti geografines užklausas naudodamos koordinates, o kodai gali naudoti GIS įrankius.

Visų duomenų surinkimas yra lygus jų saugojimui ir analizavimui. Apache Flume siunčia „specialiuosius agentus“ rinkti informaciją, kuri bus saugoma HDFS. Surinkta informacija gali būti žurnalo failai, „Twitter“ API arba svetainės iškarpos. Šiuos duomenis galima susieti grandinėmis ir analizuoti.

Spark

Kibirkštis yra nauja karta, veikianti kaip „Hadoop“, kuri apdoroja atmintyje talpinamus duomenis. Jo tikslas yra greitai atlikti duomenų analizę ir rašyti naudojant bendrą vykdymo modelį. Tai gali optimizuoti savavališkus operatoriaus grafikus ir palaikyti atminties skaičiavimą, o tai leidžia greičiau pateikti duomenų užklausas nei diskų varikliai, pvz., „Hadoop“.

SQL „Hadoop“

Kai reikia paleisti greitą ad hoc visų grupėje esančių duomenų užklausą, galima parašyti naują „Hadoop“ užduotį, tačiau tai užtrunka šiek tiek laiko. Kai programuotojai pradėjo tai daryti dažniau, jie sukūrė įrankius, parašytus paprasta SQL kalba. Šie įrankiai suteikia galimybę greitai pasiekti rezultatus.

Apache Drill

„Apache Drill“ teikia nedidelės vėlavimo ad-hoc užklausas daugeliui ir įvairių duomenų šaltinių, įskaitant įdėtus duomenis. „Drill“, įkvėptas „Google“ „Dremel“, sukurtas iki 10 000 serverių ir per kelias sekundes pateikti užklausą petabaitams duomenų.

Tai yra būtini „Hadoop“ įrankiai, reikalingi norint sugadinti „Big Data“!

Turite mums klausimą? Prašau paminėti juos komentarų skiltyje ir mes su jumis susisieksime.

Susijusios žinutės:

Praktinės priežastys išmokti „Hadoop 2.0“