Apache avilio įvadas



„Apache Hive“ yra duomenų saugojimo paketas, sukurtas ant „Hadoop“ ir naudojamas duomenų analizei. Avilys skirtas tiems vartotojams, kuriems patogu naudotis SQL.

„Apache Hive“ yra duomenų saugojimo paketas, sukurtas ant „Hadoop“ ir naudojamas duomenų analizei. Avilys skirtas tiems vartotojams, kuriems patogu naudotis SQL. Jis yra panašus į SQL ir vadinamas „HiveQL“, naudojamas tvarkant struktūrizuotus duomenis ir pateikiant iš jų užklausas. „Apache Hive“ naudojamas abstrakčiam Hadoopo sudėtingumui. Ši kalba taip pat leidžia tradiciniams žemėlapių / redukcijos programuotojams prijungti savo pasirinktinius žemėlapius ir reduktorius. Populiari „Hive“ ypatybė yra ta, kad nereikia mokytis „Java“.





„Hive“, atvirojo kodo beta baitų masto sandėliavimo sistemą, pagrįstą „Hadoop“, sukūrė „Facebook“ duomenų infrastruktūros komanda. Avilys taip pat yra viena iš technologijų, kuri naudojama siekiant patenkinti „Facebook“ keliamus reikalavimus. „Hive“ yra labai populiarus tarp visų „Facebook“ vartotojų ir yra naudojamas tūkstančiams klasterio darbų atlikti su šimtais vartotojų įvairiausioms programoms. „Hive-Hadoop“ klasteris „Facebook“ kaupia daugiau nei 2PB neapdorotų duomenų ir reguliariai kasdien įkelia 15 TB duomenų.

kaip nustatyti java classpath

Pažvelkime į kai kurias jo savybes, dėl kurių jis yra populiarus ir patogus naudoti:



  • Leidžia programuotojams prijungti pasirinktinius žymeklius ir reduktorius.
  • Turi duomenų saugyklos infrastruktūrą.
  • Pateikia įrankius, leidžiančius lengvai atlikti duomenų ETL.
  • Nurodo į SQL panašią užklausos kalbą, vadinamą QL.

„Apache Hive“ naudojimo atvejis - „Facebook“:

Avilio naudojimo atvejis - „Facebook“

Prieš diegdamas „Hive“, „Facebook“ susidūrė su daugybe iššūkių, nes padidėjo arba greičiau sprogo sukuriamų duomenų dydis, todėl juos tvarkyti buvo tikrai sunku. Tradicinė RDBMS negalėjo atlaikyti spaudimo, todėl „Facebook“ ieškojo geresnių variantų. Norėdami išspręsti šią artėjančią problemą, „Facebook“ iš pradžių bandė naudoti „Hadoop MapReduce“, tačiau sunkiai programuodamas ir privalydamas žinias SQL, padarė tai nepraktišku sprendimu. Avilys leido jiems įveikti iškilusius iššūkius.

Dabar su „Hive“ jie gali atlikti šiuos veiksmus:



  • Stalai gali būti dalijami ir kaupiami
  • Schemos lankstumas ir evoliucija
  • Yra JDBC / ODBC tvarkyklės
  • Avilio lenteles galima apibrėžti tiesiogiai HDFS
  • Išplečiami - tipai, formatai, funkcijos ir scenarijai

Avilio naudojimo atvejis sveikatos priežiūros srityje:

Kur naudoti avilį?

„Apache Hive“ galima naudoti šiose vietose:

  • Duomenų gavyba
  • Žurnalo apdorojimas
  • Dokumentų indeksavimas
  • Klientas susiduria su verslo žvalgyba
  • Nuspėjamasis modeliavimas
  • Hipotezės bandymas

Avilio architektūra:

Avilį sudaro šie pagrindiniai komponentai:

  • Metastore - laikyti metaduomenis.
  • JDBC / ODBC - Užklausų sudarytojas ir vykdymo variklis, skirtas konvertuoti SQL užklausas į MapReduce seką.
  • „SerDe“ ir „ObjectInspectors“ - duomenų formatams ir tipams.
  • UDF / UDAF - skirta vartotojo nustatytoms funkcijoms.
  • Klientai - panašūs į „MySQL“ komandinę eilutę ir žiniatinklio vartotojo sąsają.

Avilio komponentai:

„Metastore“:

„Metastore“ saugo informaciją apie lenteles, pertvaras, stulpelius lentelėse. Yra 3 „Metastore“ saugojimo būdai: „Embedded Metastore“, „Local Metastore“ ir „Remote Metastore“. Dažniausiai „Remote Metastore“ bus naudojama gamybos režimu.

Avilio apribojimai:

Avilys turi šiuos apribojimus ir negali būti naudojamas tokiomis aplinkybėmis:

  • Neskirtas operacijoms internetu apdoroti.
  • Užtikrina priimtiną interaktyvių duomenų naršymo delsą.
  • Nesiūlo realaus laiko užklausų ir eilučių lygio atnaujinimų.
  • Avilio užklausų vėlavimas paprastai yra labai didelis.

Turite mums klausimą? Paminėkite juos komentarų skiltyje ir mes susisieksime su jumis.

palaukite ir praneškite java

Susijusios žinutės:

Avilio komandos