4 būdai, kaip kartu naudoti R ir Hadoop

R ir Hadoopas gana gerai papildo vizualizaciją ir didžiųjų duomenų analizę. Šiame tinklaraščio įraše kalbama apie 4 būdus, kaip juos naudoti kartu.

„Hadoop“ yra trikdanti „Java“ pagrindu sukurta programavimo sistema, palaikanti didelių duomenų rinkinių apdorojimą paskirstytoje skaičiavimo aplinkoje, o „R“ - programavimo kalba ir programinės įrangos aplinka statistiniam skaičiavimui ir grafikai. R kalba yra plačiai naudojama tarp statistikų ir duomenų gavėjų kuriant statistinę programinę įrangą ir atliekant duomenų analizę. Interaktyvios duomenų analizės, bendrosios paskirties statistikos ir nuspėjamojo modeliavimo srityse R klasifikavimo, grupavimo ir reitingavimo galimybėmis įgijo didžiulį populiarumą.

KM



Hadoopas ir R gana gerai papildo vizualizaciją ir didžiųjų duomenų analizę.

Naudojant R ir Hadoop

Yra keturi skirtingi „Hadoop“ ir „R“ naudojimo būdai:

1. RHadoopas

kas yra jit kompiliatorius java

RHadoop yra trijų R paketų kolekcija: rmr, rhdfs ir rhbase. „rmr“ paketas teikia „R Hadoop MapReduce“ funkcionalumą, „rhdfs“ teikia HDFS failų valdymą R, o „rhbase“ - „HBase“ duomenų bazių valdymą R viduje. Kiekvieną iš šių pirminių paketų galima geriau analizuoti ir valdyti „Hadoop“ pagrindo duomenis.

2. ORKAS

ORCH reiškia „Oracle R Connector for Hadoop“. Tai R paketų rinkinys, suteikiantis atitinkamas sąsajas darbui su „Hive“ lentelėmis, „Apache Hadoop“ skaičiavimo infrastruktūra, vietine R aplinka ir „Oracle“ duomenų bazių lentelėmis. Be to, ORCH taip pat teikia nuspėjamosios analizės metodus, kuriuos galima pritaikyti HDFS failų duomenims.

3. RIPAS

RHIPE yra R paketas, suteikiantis API naudoti „Hadoop“. RHIPE reiškia „R“ ir „Hadoop“ integruotą programavimo aplinką ir iš esmės yra „RHadoop“ su kitokia API.

kas yra charat java

Keturi. „Hadoop“ srautas

„Hadoop Streaming“ yra priemonė, leidžianti vartotojams kurti ir paleisti darbo vietas su bet kokiais vykdomaisiais failais, pvz., Žemėlapiu ir (arba) reduktoriumi. Naudojant srautinio perdavimo sistemą, galima sukurti veikiančius „Hadoop“ darbus, turint pakankamai žinių apie „Java“, kad būtų galima parašyti du „shell“ scenarijus, kurie veikia kartu.

R ir Hadoop derinys tampa privalomu įrankių rinkiniu žmonėms, dirbantiems su statistika ir dideliais duomenų rinkiniais. Tačiau kai kurie „Hadoop“ entuziastai iškėlė raudoną vėliavą, tvarkydami itin didelius „Big Data“ fragmentus. Jie teigia, kad R pranašumas yra ne jo sintaksė, o išsami vaizdų ir statistikos primityvių biblioteka. Šios bibliotekos iš esmės nėra platinamos, todėl duomenų paieška yra daug laiko reikalaujantis reikalas. Tai yra būdingas R trūkumas, ir jei nuspręsite jo nepastebėti, R ir Hadoopas kartu gali daryti stebuklus.

Dabar pažiūrėkime demonstracinę versiją:

Turite mums klausimą? Prašau paminėti juos komentarų skiltyje ir mes su jumis susisieksime.

c vs c ++ vs java

Susijusios žinutės: