„Apache Flume“ mokymo programa: „Twitter“ duomenų srautas

Šiame „Apache Flume“ mokymo tinklaraštyje paaiškinami „Apache Flume“ pagrindai ir funkcijos. Taip pat bus demonstruojamas „Twitter“ srautas naudojant „Apache Flume“.

Šiame „Apache Flume“ mokymo tinklaraštyje suprasime, kaip „Flume“ padeda perduoti duomenis iš įvairių šaltinių. Tačiau prieš tai supraskime duomenų praradimo svarbą. Duomenų įsisavinimas yra pradinis ir svarbus žingsnis siekiant apdoroti ir analizuoti duomenis, o tada iš jų gauti verslo vertes. Yra keli šaltiniai, iš kurių duomenys renkami organizacijoje.

Leiskite kalbėti apie dar vieną svarbią priežastį, kodėl „Flume“ išpopuliarėjo. Tikiuosi, kad jums gali būti žinoma , kuri pramonėje naudojama be galo daug, nes joje galima saugoti įvairius duomenis. „Flume“ gali lengvai integruotis su „Hadoop“ ir perkelti nestruktūruotus, taip pat pusiau struktūruotus duomenis į HDFS, papildydamas „Hadoop“ galią. Štai kodėl „Apache Flume“ yra svarbi „Hadoop“ ekosistemos dalis.

Šiame „Apache Flume“ mokymo tinklaraštyje aptarsime:

Šią „Flume“ mokymo programą pradėsime diskutuodami apie tai, kas yra „Apache Flume“. Tada judėdami į priekį suprasime „Flume“ naudojimo pranašumus.

„Apache Flume“ mokymo programa: „Apache Flume“ įvadas

„Apache Flume“ logotipas - „Apache Flume“ pamoka - „Edureka“„Apache Flume“ yra įrankis duomenims įgyti HDFS. Jis renka, kaupia ir perduoda didelį kiekį srautinių duomenų, tokių kaip žurnalo failai, įvykiai iš įvairių šaltinių, tokių kaip tinklo srautas, socialinė žiniasklaida, el. Pašto pranešimai ir kt., Į HDFS.„Flume“ yra labai patikimas ir platinamas.

Pagrindinė „Flume“ dizaino idėja yra srautinių duomenų surinkimas iš įvairių interneto serverių į HDFS. Jis turi paprastą ir lanksčią architektūrą, pagrįstą duomenų srautais. Tai atsparus gedimams ir suteikia patikimumo gedimams ir gedimams atstatymo mechanizmą.

Supratę, kas yra „Flume“, dabar pažvelkime į šį „Flume Tutorial“ tinklaraštį ir supraskime „Apache Flume“ pranašumus. Tada žengdami į priekį, mes pažvelgsime į „Flume“ architektūrą ir bandysime suprasti, kaip ji veikia iš esmės.

rūšiuoti () c ++

„Apache Flume“ pamoka: Apache Flume privalumai

Yra keli „Apache Flume“ pranašumai, dėl kurių jis yra geresnis pasirinkimas nei kiti. Privalumai yra šie:

  • „Flume“ yra keičiamo dydžio, patikimas, atsparus trikdžiams ir pritaikomas įvairiems šaltiniams ir kriauklėms.
  • „Apache Flume“ gali saugoti duomenis centralizuotose parduotuvėse (t. Y. Duomenys teikiami iš vienos parduotuvės), tokiose kaip „HBase“ ir HDFS.
  • Flume yra horizontaliai keičiamas.
  • Jei skaitymo dažnis viršija rašymo greitį, „Flume“ užtikrina pastovų duomenų srautą tarp skaitymo ir rašymo operacijų.
  • „Flume“ teikia patikimą pranešimų pristatymą. „Flume“ operacijos yra pagrįstos kanalu, kur kiekvienam pranešimui palaikomos dvi operacijos (vienas siuntėjas ir vienas imtuvas).
  • Naudodami „Flume“, galime į „Hadoop“ įtraukti duomenis iš kelių serverių.
  • Tai suteikia mums patikimą ir platinamą sprendimą, kuris padeda rinkti, kaupti ir perkelti daug duomenų rinkinių, tokių kaip „Facebook“, „Twitter“ ir elektroninės prekybos svetainės.
  • Tai padeda mums HDFS įrašyti tiesioginio srauto duomenis iš įvairių šaltinių, tokių kaip tinklo srautas, socialinė žiniasklaida, el. Pašto pranešimai, žurnalo failai ir kt.
  • Jis palaiko daugybę šaltinių ir paskirties vietų.

Ši architektūra suteikia „Apache Flume“ šias privilegijas. Dabar, kai žinome „Apache Flume“ pranašumus, galime judėti pirmyn ir suprasti „Apache Flume“ architektūrą.

Apache Flume pamoka: Flume Architektūra

Dabar supraskime „Flume“ architektūrą iš toliau pateiktos diagramos:

Yra „Flume“ agentas, kuris perduoda srautinius duomenis iš įvairių duomenų šaltinių į HDFS. Iš diagramos galite lengvai suprasti, kad žiniatinklio serveris nurodo duomenų šaltinį. „Twitter“ yra vienas iš garsiausių duomenų perdavimo šaltinių.

Dūmų agentą sudaro 3 komponentai: šaltinis, kriauklė ir kanalas.

    1. Šaltinis : Jis priima duomenis iš gaunamo srauto ir saugo duomenis kanale.
    2. Kanalas : Apskritai skaitymo greitis yra didesnis nei rašymo greitis. Taigi mums reikia šiek tiek buferio, kad atitiktų skaitymo ir rašymo greičio skirtumą. Iš esmės buferis veikia kaip tarpinė saugykla, kuri laikinai saugo perduodamus duomenis ir todėl apsaugo nuo duomenų praradimo. Panašiai kanalas veikia kaip vietinė saugykla arba laikina saugykla tarp duomenų šaltinio ir nuolatinių duomenų HDFS.
    3. Kriauklė : Tada paskutinis mūsų komponentas, t. Y. „Sink“, renka duomenis iš kanalo ir visam laikui įpareigoja arba įrašo duomenis į HDFS.

Dabar, kai žinome, kaip veikia „Apache Flume“, pažvelkime į praktinę vietą, kurioje mes sugadinsime „Twitter“ duomenis ir išsaugosime juos HDFS.

„Apache Flume“ mokymo programa: „Twitter“ duomenų srautas

Šioje praktikoje mes srautą iš „Twitter“ naudosime naudodami „Flume“ ir tada išsaugosime duomenis HDFS, kaip parodyta žemiau esančiame paveikslėlyje.

Pirmasis žingsnis yra sukurti „Twitter“ programą. Norėdami tai padaryti, pirmiausia turite eiti į šį URL: https://apps.twitter.com/ ir prisijunkite prie „Twitter“ paskyros. Eikite į programos skirtuko kūrimą, kaip parodyta žemiau esančiame paveikslėlyje.

Tada sukurkite programą, kaip parodyta žemiau esančiame paveikslėlyje.

Sukūrę šią programą rasite „Key & Access“ prieigos raktą. Nukopijuokite raktą ir prieigos raktą. Šiuos žetonus perduosime „Flume“ konfigūracijos faile, kad galėtume prisijungti prie šios programos.

Dabar sukurkite failą „flume.conf“ „fluume“ šakniniame kataloge, kaip parodyta žemiau esančiame paveikslėlyje. Kaip diskutavome, Flume architektūroje sukonfigūruosime savo šaltinį, kriauklę ir kanalą. Mūsų šaltinis yra „Twitter“, iš kurio mes transliuojame duomenis, o „Sink“ yra HDFS, kur mes rašome duomenis.

Šaltinio konfigūracijoje mes perduodame „Twitter“ šaltinio tipą kaip org.apache.flume.source.twitter.TwitterSource. Tada mes perduodame visus keturis žetonus, kuriuos gavome iš „Twitter“. Pagaliau konfigūruodami šaltinį mes perduodame raktinius žodžius, pagal kuriuos ketiname gauti „tweets“.

„Sink“ konfigūracijoje sukonfigūruosime HDFS ypatybes. Mes nustatysime HDFS kelią, įrašymo formatą, failo tipą, paketo dydį ir tt Pagaliau mes nustatysime atminties kanalą, kaip parodyta žemiau esančiame paveikslėlyje.

Dabar mes visi esame pasirengę vykdyti. Vykdykime šią komandą:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Kurį laiką atlikę šią komandą, tada galite išeiti iš terminalo naudodami CTRL + C. Tada galite pereiti į savo „Hadoop“ katalogą ir patikrinti minėtą kelią, nesvarbu, ar failas yra sukurtas, ar ne.

lėlių virėjo druskos palyginimas

Atsisiųskite failą ir atidarykite jį. Jūs gausite ką nors, kaip parodyta žemiau esančiame paveikslėlyje.

Tikiuosi, kad šis tinklaraštis yra informatyvus ir suteikia jums pridėtinės vertės. Jei norite sužinoti daugiau, galite tai išbandyti kuriame pasakojama apie „Big Data“ ir kaip Hadoopas sprendžia su „Big Data“ susijusius iššūkius.

Dabar, kai supratote „Apache Flume“, patikrinkite sukūrė „Edureka“ - patikima internetinė mokymosi įmonė, turinti daugiau nei 250 000 patenkintų besimokančiųjų tinklą. „Edureka Big Data Hadoop“ sertifikavimo mokymo kursai padeda besimokantiesiems tapti HDFS, verpalų, „MapReduce“, „Pig“, „Hive“, „HBase“, „Oozie“, „Flume“ ir „Sqoop“ ekspertais, naudojant realaus laiko naudojimo atvejus mažmeninės prekybos, socialinės žiniasklaidos, aviacijos, turizmo, finansų srityse.

Turite mums klausimą? Prašau paminėti tai komentarų skiltyje ir mes su jumis susisieksime.