HDFS mokymo programa: įvadas į HDFS ir jo funkcijas



Šis „HDFS Tutorial“ tinklaraštis padės suprasti HDFS arba „Hadoop“ paskirstytą failų sistemą ir jos funkcijas. Taip pat trumpai išnagrinėsite pagrindinius jo komponentus.

HDFS mokymo programa

Prieš eidamas į priekį šiame HDFS mokymo tinklaraštyje, leiskite jums apžvelgti beprotišką statistiką, susijusią su HDFS:

kaip pakeisti skaičių
  • 2010 m. Facebook teigė turintis vieną didžiausių HDFS sankaupų 21 petabaitas duomenų.
  • 2012, Facebook paskelbė, kad jie turi didžiausią vieną HDFS klasterį su daugiau nei 100 PB duomenų .
  • Ir „Yahoo“ ! turi daugiau nei 100 000 centrinis procesorius per 40 000 serverių veikia „Hadoop“ su didžiausiu „Hadoop“ klasteriu 4500 mazgų . Viskas pasakyta, „Yahoo! parduotuvėse 455 petabaitai duomenų HDFS.
  • Iš tikrųjų iki 2013 m. Dauguma didžiųjų „Fortune 50“ vardų pradėjo naudoti „Hadoop“.

Per sunku virškinti? Teisingai. Kaip aptarta , Hadoopas turi du pagrindinius vienetus - S kankinimas ir Apdorojimas . Kai sakau „Hadoop“ saugojimo dalį, turiu omenyje HDFS kuris reiškia „Hadoop“ paskirstyta failų sistema . Taigi šiame tinklaraštyje aš jus supažindinsiu HDFS .





Čia aš kalbėsiu apie:

  • Kas yra HDFS?
  • HDFS privalumai
  • HDFS ypatybės

Prieš kalbėdamas apie HDFS, leiskite man pasakyti, kas yra paskirstyta failų sistema?



DFS arba paskirstyta failų sistema:

Apie platinamąją failų sistemą kalbama valdymas duomenis , t.y. failus ar aplankus keliuose kompiuteriuose ar serveriuose. Kitaip tariant, DFS yra failų sistema, leidžianti mums saugoti duomenis keliuose mazguose ar mašinose ir leidžianti prieigą prie duomenų keliems vartotojams. Taigi iš esmės ji tarnauja tam pačiam tikslui kaip failų sistema, kuri yra jūsų kompiuteryje, pvz., „Windows“ turite NTFS (naujos technologijos failų sistemą) arba „Mac“ - HFS (hierarchinę failų sistemą). Vienintelis skirtumas yra tas, kad paskirstytos failų sistemos atveju duomenis saugote keliose mašinose, o ne vienoje mašinoje. Nors failai yra saugomi visame tinkle, DFS tvarko ir rodo duomenis taip, kad mašinoje sėdintis vartotojas pajustų, kad visi duomenys yra saugomi tame pačiame kompiuteryje.

Kas yra HDFS?

„Hadoop Distributed File System“ arba HDFS yra „Java“ pagrindu sukurta paskirstyta failų sistema, leidžianti kaupti didelius duomenis keliuose „Hadoop“ grupės mazguose. Taigi, jei įdiegsite „Hadoop“, gausite HDFS kaip pagrindinę duomenų saugojimo sistemą paskirstytoje aplinkoje.

Paimkime pavyzdį, kad tai suprastume. Įsivaizduokite, kad kiekvienoje mašinoje turite dešimt mašinų arba dešimt kompiuterių su 1 TB kietuoju disku. Dabar HDFS sako, kad jei įdiegsite „Hadoop“ kaip platformą ant šių dešimties mašinų, gausite HDFS kaip saugojimo paslaugą. „Hadoop“ paskirstytoji failų sistema paskirstoma taip, kad kiekviena mašina prisideda prie savo individualios saugyklos bet kokio tipo duomenims saugoti.



HDFS mokymo programa: HDFS pranašumai

1. Paskirstyta saugykla:

Paskirstyta saugykla - HDFS mokymo programa - „Edureka“

Kai prieisite prie „Hadoop Distributed“ failų sistemos naudodamiesi bet kuria iš dešimties „Hadoop“ grupėje esančių mašinų, jausitės tarsi prisijungę prie vieno didelio įrenginio, kurio talpa yra 10 TB (iš viso saugoma daugiau nei dešimt mašinų). Ką tai reiškia? Tai reiškia, kad galite išsaugoti vieną didelį 10 TB failą, kuris bus paskirstytas dešimčiai mašinų (po 1 TB).Taigi, taip yra neapsiriboja fizinėmis ribomis kiekvienos atskiros mašinos.

2. Paskirstytasis ir lygiagretusis skaičiavimas:

Kadangi duomenys yra padalinti į visas mašinas, tai leidžia mums pasinaudoti Paskirstytasis ir lygiagretusis skaičiavimas . Supraskime šią sąvoką pagal aukščiau pateiktą pavyzdį. Tarkime, 1 TB failo apdorojimas vienoje mašinoje užtrunka 43 minutes. Taigi, dabar pasakykite man, kiek laiko užtruks to paties 1 TB failo apdorojimas, kai „Hadoop“ klasteryje turite 10 mašinų su panašia konfigūracija - 43 minutes arba 4,3 minutes? 4,3 minutės, teisingai! Kas čia atsitiko? Kiekvienas mazgas lygiagrečiai dirba su 1 TB failo dalimi. Todėl darbas, kuris užtruko 43 minutes, baigtas tik per 4,3 minutes, nes darbas buvo padalytas į dešimt mašinų.

3. Horizontalus mastelis:

Paskutinis, bet ne mažiau svarbus dalykas, pakalbėkime apie horizontalus mastelis arba išplėsti Hadoope. Yra du mastelio tipai: vertikalus ir horizontaliai . Vertikaliu masteliu (mastelio padidinimas) padidinate savo sistemos aparatinę talpą. Kitaip tariant, įsigyjate daugiau RAM ar procesoriaus ir įtraukiate jį į esamą sistemą, kad ji būtų patikimesnė ir galingesnė. Tačiau yra problemų, susijusių su vertikaliu mastelio keitimu ar didinimu:

  • Visada yra riba, iki kurios galite padidinti aparatinės įrangos talpą. Taigi, jūs negalite toliau didinti mašinos RAM ar procesoriaus.
  • Vertikaliu masteliu pirmiausia sustabdysite mašiną. Tada padidinate RAM arba CPU, kad tai būtų tvirtesnė aparatinės įrangos krūva. Padidinę aparatinės įrangos talpą, iš naujo paleiskite mašiną. Šis sustabdymo laikas, kai sustabdote savo sistemą, tampa iššūkiu.

Tuo atveju horizontalus mastelis (išplėsti) , prie esamo klasterio pridedate daugiau mazgų, užuot padidinę atskirų mašinų aparatinės įrangos talpą. O svarbiausia - galite pridėkite daugiau mašinų kelyje t., nestabdant sistemos . Todėl, nors išplėsti, mes neturime jokio prastovos laiko ar žaliosios zonos, nieko tokio. Dienos pabaigoje turėsite daugiau mašinų, dirbančių lygiagrečiai, kad atitiktų jūsų reikalavimus.

HDFS mokomasis vaizdo įrašas:

Galite peržiūrėti toliau pateiktą vaizdo įrašą, kuriame išsamiai aptartos visos su HDFS susijusios sąvokos:

HDFS mokymo programa: HDFS ypatybės

Išsamiai suprasime šias funkcijas, kai ištirsime HDFS architektūrą kitame HDFS mokymo tinklaraštyje. Tačiau kol kas apžvelkime HDFS funkcijas:

  • Kaina: HDFS apskritai yra įdiegtas tokioje prekės aparatinėje įrangoje kaip jūsų darbalaukis / nešiojamas kompiuteris, kurį naudojate kasdien. Taigi, tai yra labai ekonomiška, atsižvelgiant į projekto nuosavybės kainą. Kadangi naudojame mažų kainų prekių aparatinę įrangą, jums nereikia išleisti daug pinigų, kad išplėstumėte savo „Hadoop“ klasterį. Kitaip tariant, pridėti daugiau mazgų prie HDFS yra ekonomiškai naudinga.
  • Duomenų įvairovė ir apimtis: Kai kalbėsime apie HDFS, tada kalbėsime apie didžiulių duomenų, t. Y. Terabaitų ir petabaitų duomenų ir įvairių duomenų, saugojimą. Taigi, HDFS galite saugoti bet kokio tipo duomenis, struktūrizuotus, nestruktūruotus ar pusiau struktūruotus.
  • Patikimumas ir gedimų tolerancija: Kai saugote duomenis HDFS, jie viduje suskirsto pateiktus duomenis į duomenų blokus ir saugo juos paskirstytu būdu visame „Hadoop“ klasteryje. Informacija apie tai, kuriame duomenų bloke yra kuriame iš duomenų mazgų, įrašoma metaduomenyse. NameNode tvarko metaduomenis ir „DataNodes“ yra atsakingi už duomenų saugojimą.
    Pavadinimo mazgas taip pat atkartoja duomenis, t. Y. Palaiko kelias duomenų kopijas. Toks duomenų pakartojimas padaro HDFS labai patikimą ir tolerantišką gedimams. Taigi, net jei bet kuris iš mazgų nepavyksta, galime gauti duomenis iš kopijų, esančių kituose duomenų mazguose. Pagal numatytuosius nustatymus replikacijos koeficientas yra 3. Todėl, jei HDFS laikysite 1 GB failo, jis pagaliau užims 3 GB vietos. Vardo mazgas periodiškai atnaujina metaduomenis ir palaiko replikacijos koeficientą.
  • Duomenų vientisumas: Duomenų vientisumas kalba apie tai, ar mano HDFS saugomi duomenys yra teisingi, ar ne. HDFS nuolat tikrina saugomų duomenų vientisumą ir kontrolinę sumą. Jei randa kokių nors gedimų, apie tai praneša vardo mazgui. Tada vardo mazgas sukuria papildomas naujas kopijas ir todėl ištrina sugadintas kopijas.
  • Didelis pralaidumas: Pralaidumas yra atlikto darbo kiekis per laiko vienetą. Kalbama apie tai, kaip greitai galite pasiekti duomenis iš failų sistemos. Iš esmės tai suteikia jums supratimą apie sistemos veikimą. Kaip matėte aukščiau pateiktame pavyzdyje, kai mes naudojome dešimt mašinų kartu, kad pagerintume skaičiavimus. Čia mes galėjome sumažinti apdorojimo laiką nuo 43 minutės į vien 4,3 minutės nes visos mašinos dirbo lygiagrečiai. Todėl apdorodami duomenis lygiagrečiai, mes labai sutrumpinome apdorojimo laiką ir taip pasiekėme aukštą pralaidumą.
  • Duomenų vieta: Duomenų lokalumas kalba apie perdirbimo įrenginio perkėlimą į duomenis, o ne į duomenis į apdorojimo įrenginį. Savo tradicinėje sistemoje duomenis atvedėme į programos sluoksnį ir juos apdorojome. Bet dabar, dėl architektūros ir didžiulio duomenų kiekio, duomenys bus nukreipti į programos sluoksnįpastebimai sumažinti tinklo našumą.Taigi, naudojant HDFS, skaičiavimo dalį perkeliame į duomenų mazgus, kuriuose yra duomenys. Taigi, jūs ne perkeliate duomenis, bet ir programą ar procesądalį duomenų.

Taigi dabar jūs turite trumpą idėją apie HDFS ir jo funkcijas. Bet patikėk manimi, vaikinai, tai tik ledkalnio viršūnė. Mano kitame , Aš giliai pasinersiu į HDFS architektūra ir aš atskleisiu HDFS sėkmės paslaptis. Kartu atsakysime į visus tuos klausimus, kurie galvoja jūsų galvoje, pavyzdžiui:

  • Kas nutinka už kadro, kai skaitote ar rašote duomenis „Hadoop Distributed File System“ sistemoje?
  • Kokie yra algoritmai, tokie kaip stovo supratimas, dėl kurio HDFS yra tokia tolerantiška gedimams?
  • Kaip „Hadoop“ paskirstyta failų sistema valdo ir kuria repliką?
  • Kas yra blokavimo operacijos?

Dabar, kai supratote HDFS ir jo funkcijas, patikrinkite sukūrė patikima internetinė mokymosi įmonė „Edureka“, turinti daugiau nei 250 000 patenkintų besimokančiųjų tinklą visame pasaulyje. „Edureka Big Data Hadoop“ sertifikavimo mokymo kursas padeda besimokantiesiems tapti HDFS, verpalų, „MapReduce“, „Pig“, „Hive“, „HBase“, „Oozie“, „Flume“ ir „Sqoop“ ekspertais, naudojant realaus laiko naudojimo atvejus mažmeninės prekybos, socialinės žiniasklaidos, aviacijos, turizmo, finansų srityse.

Turite mums klausimą? Prašau paminėti tai komentarų skiltyje ir mes su jumis susisieksime.