„Apache Spark“ su „Hadoop“ - kodėl tai svarbu?



Didžiausias „Apache Spark“ su „Hadoop“ diegimas, kurį vykdo geriausios įmonės, rodo jo sėkmę ir potencialą, kai reikia apdoroti realiuoju laiku.

„Hadoop“, duomenų apdorojimo sistema, tapusi platforma sau, tampa dar geresnė, kai prie jos prijungiami geri komponentai. Kai kurie „Hadoop“ trūkumai, pvz., „Hadoop“ komponentas „MapReduce“, žinomi kaip lėti atliekant duomenų analizę realiuoju laiku.





Įveskite „Apache Spark“, „Hadoop“ pagrindu veikiantį duomenų apdorojimo variklį, skirtą tiek paketiniams, tiek srautiniams srautams, dabar savo 1.0 versijoje ir aprūpintą funkcijomis, iliustruojančiomis, kokį darbą „Hadoop“ bandoma įtraukti. „Spark“ veikia virš esamų „Hadoop“ grupių, kad suteiktų patobulintų ir papildomų funkcijų.

Pažvelkime į pagrindines kibirkšties ypatybes ir kaip ji veikia kartu su Hadoop ir .



Pagrindiniai „Apache Spark“ privalumai:

img2-R

„Spark“ nuostabios savybės:

  • „Hadoop“ integracija - „Spark“ gali dirbti su failais, saugomais HDFS.
  • „Spark's Interactive Shell“ - „Spark“ parašyta „Scala“ ir turi savo „Scala“ vertėjo versiją.
  • „Spark“ analitinis liuksas - „Spark“ yra įrankiai interaktyviai užklausų analizei, didelio masto grafiko apdorojimui ir analizei bei realaus laiko analizei.
  • Elastingi paskirstyti duomenų rinkiniai (RDD) - RDD yra paskirstyti objektai, kuriuos galima talpinti atmintyje, visoje skaičiavimo mazgų grupėje. Tai yra pagrindiniai duomenų objektai, naudojami „Spark“.
  • Paskirstyti operatoriai - Be „MapReduce“, yra daugybė kitų operatorių, kuriuos galima naudoti RDD.

„Apache Spark“ su „Hadoop“ naudojimo pranašumai:

ssis pamoka pradedantiesiems 2012 su pavyzdžiais
  • „Apache Spark“ tinka „Hadoop“ atvirojo kodo bendruomenei, pastatas ant „Hadoop“ paskirstytos failų sistemos (HDFS). Tačiau „Spark“ nėra susieta su dviejų pakopų „MapReduce“ paradigma ir žada našumą iki 100 kartų greičiau nei „Hadoop MapReduce“ tam tikroms programoms.



  • Puikiai tinka mašininio mokymosi algoritmams - „Spark“ teikia atminties klasterių skaičiavimo pradmenis, leidžiančius vartotojo programoms įkelti duomenis į klasterio atmintį ir pakartotinai pateikti jų užklausas.

  • Bėk 100 kartų greičiau - „Spark“ analizės programinė įranga taip pat gali pagreitinti užduotis, kurios veikia „Hadoop“ duomenų apdorojimo platformoje. Pavadinta „Hadoop Swiss Army peiliu“, „Apache Spark“ suteikia galimybę kurti duomenų analizės užduotis, kurios gali veikti 100 kartų greičiau nei tos, kurios veikia standartiniame „Apache Hadoop MapReduce“. „MapReduce“ buvo plačiai kritikuojamas kaip „Hadoop“ grupių kliūtis, nes ji vykdo darbus paketiniu režimu, o tai reiškia, kad duomenų analizė realiuoju laiku nėra įmanoma.

  • „MapReduce“ alternatyva - „Spark“ suteikia „MapReduce“ alternatyvą. Darbai atliekami per trumpą mikropartelių seriją, kurios skiriasi penkiomis sekundėmis ar mažiau. Tai taip pat suteikia daugiau stabilumo nei realiuoju laiku, į srautą orientuotos „Hadoop“ sistemos, tokios kaip „Twitter Storm“. Programinė įranga gali būti naudojama įvairiems darbams atlikti, pavyzdžiui, nuolatinei tiesioginių duomenų analizei ir programinės įrangos bibliotekos dėka, skaičiavimo požiūriu nuodugnesniems darbams, susijusiems su mašinų mokymusi ir grafikų apdorojimu.

  • Parama kelioms kalboms - Naudodamiesi „Spark“, kūrėjai gali rašyti duomenų analizės užduotis „Java“, „Scala“ ar „Python“, naudodami daugiau nei 80 aukšto lygio operatorių rinkinį.

  • Bibliotekos palaikymas - „Spark“ bibliotekos yra sukurtos papildyti agresyviau tiriamų apdorojimo darbų tipus naujausiais komerciškai palaikomais „Hadoop“ diegimais. „MLlib“ įgyvendina daugybę įprastų mašininio mokymosi algoritmų, tokių kaip naivus Bayeso klasifikavimas ar grupavimas „Spark Streaming“ leidžia greitai apdoroti iš daugelio šaltinių įvestus duomenis, o „GraphX“ leidžia apskaičiuoti grafiko duomenis.

  • Stabili API - Naudodama 1.0 versiją, „Apache Spark“ siūlo stabilią API (programų programavimo sąsają), kurią kūrėjai gali naudoti sąveikai su „Spark“, naudodamiesi savo pačių programomis. Tai padeda lengviau naudoti „Storm“ diegiant „Hadoop“.

  • SPARK SQL komponentas - „Spark SQL“ komponentas, skirtas prieigai prie struktūrizuotų duomenų, leidžia duomenis apklausti kartu su nestruktūrizuotais duomenimis analizės darbe. „Spark SQL“, kuris šiuo metu yra tik alfa, leidžia į SQL panašias užklausas vykdyti pagal „Apache Hive“ saugomus duomenis. Duomenų ištraukimas iš „Hadoop“ naudojant SQL užklausas yra dar vienas realiojo laiko užklausų funkcijų, atsirandančių aplink „Hadoop“, variantas.

  • „Apache Spark“ suderinamumas su „Hadoop“ [HDFS, HBASE ir YARN] - „Apache Spark“ yra visiškai suderinama su „Hadoop“ paskirstytųjų failų sistema (HDFS), taip pat su kitais „Hadoop“ komponentais, tokiais kaip „YARN“ (dar vienas išteklių derybininkas) ir „HBase“ paskirstyta duomenų baze.

    fibonacci algoritmas c ++

Pramonės pritaikytojai:

Tokios IT kompanijos kaip „Cloudera“, „Pivotal“, „IBM“, „Intel“ ir „MapR“ suskleidė „Spark“ į savo „Hadoop“ krūvą. Kai kurių „Spark“ kūrėjų įkurta bendrovė „Databricks“ siūlo komercinę programinės įrangos palaikymą. Tiek „Yahoo“, tiek NASA, be kita ko, naudoja programinę įrangą kasdienėms duomenų operacijoms atlikti.

Išvada:

Tai, ką gali pasiūlyti „Spark“, bus naudinga tiek „Hadoop“ vartotojams, tiek komerciniams pardavėjams. Vartotojai, norintys įdiegti „Hadoop“ ir jau sukūrę daugelį savo analizės sistemų aplink „Hadoop“, traukia idėja, kad „Hadoop“ bus galima naudoti kaip realaus laiko apdorojimo sistemą.

kuo skiriasi c ++ ir java

„Spark 1.0“ suteikia jiems dar vieną funkcijų įvairovę, kad galėtų palaikyti ar kurti nuosavybės teises turinčius daiktus. Tiesą sakant, vienas iš trijų didžiausių „Hadoop“ pardavėjų „Cloudera“ jau teikė komercinę paramą „Spark“ per savo „Cloudera Enterprise“ pasiūlymą. „Hortonworks“ taip pat siūlo „Spark“ kaip „Hadoop“ platinimo komponentą. Geriausios įmonės, įgyvendinusios „Spark“, masiškai rodo jo sėkmę ir potencialą, kai reikia apdoroti realiuoju laiku.

Turite mums klausimą? Paminėkite juos komentarų skiltyje ir mes susisieksime su jumis.

Susijusios žinutės: