Dideli duomenys AWS - išmanusis didelių duomenų sprendimas

Šis straipsnis padės suprasti, kaip AWS sumaniai elgiasi su „Big Data“. Tai taip pat parodo, kaip AWS gali lengvai išspręsti „Big Data“ iššūkius.

„Big Data“ idėja paprasčiausiai nėra nauja, ji yra visur. „Big Data“ poveikis yra visur, nuo verslo iki mokslo, nuo vyriausybės iki meno ir pan. Nėra geresnio kompaniono už apdoroti ir analizuoti didelius duomenis. Šiame straipsnyje aš parodysiu, kaip AWS sprendžia „Big Data“ iššūkius, o patarimai, kuriuos ketinu aptarti, yra šie:

Kas yra „Big Data“?

didelių duomenų charakteristikos



„Big data“ galite laikyti didelės apimties, didelio greičio ir (arba) labai įvairialypiu informacijos turtu, kuriam reikalingos ekonomiškos, novatoriškos informacijos apdorojimo formos, leidžiančios patobulinti įžvalgas, priimti sprendimus ir automatizuoti procesus.

Didžiuosius duomenis sudaro 5 svarbūs V, kurie apibrėžia didžiųjų duomenų charakteristikas. Aptarkime šiuos dalykus prieš pereidami į AWS.

Kas yra AWS?

sudaro daugybė skirtingų debesų kompiuterijos produktų ir paslaugų. Labai pelningas „Amazon“ padalinys teikia serverius, saugyklą, tinklus, nuotolinius kompiuterius, el. Paštą, mobiliuosius įrenginius ir saugumą. Be to. AWS sudaro du pagrindiniai produktai: EC2, „Amazon“ virtualių mašinų paslauga ir „S3“, „Amazon“ saugojimo sistema. Jis yra toks didelis ir yra skaičiavimo pasaulyje, kad dabar yra bent 10 kartų didesnis už artimiausią konkurentą ir jame yra populiarių svetainių, tokių kaip „Netflix“ ir „Instagram“.

.

AWS yra padalintas į 12 pasaulinių regionų visame pasaulyje, kiekviename iš jų yra kelios prieinamumo zonos, kuriose yra jos serveriai.Šie aptarnaujami regionai yra padalinti, kad vartotojai galėtų nustatyti savo paslaugų geografines ribas, bet taip pat užtikrinti saugumą įvairindami fizines vietas, kuriose laikomi duomenys.

Kodėl dideli duomenys AWS?

Mokslininkai, kūrėjai ir kiti technologijų entuziastai iš daugelio skirtingų sričių naudojasi AWS, kad atliktų didelių duomenų analizę ir atitiktų kritinius iššūkius, kylančius dėl vis didėjančios skaitmeninės informacijos. „AWS“ siūlo debesų kompiuterijos paslaugų portfelį, kuris padės valdyti didelius duomenis, žymiai sumažinant išlaidas, mastelį, kad būtų patenkinta paklausa, ir didinant naujovių spartą.

„Amazon Web Services“ teikia visiškai integruotas portfelis debesų kompiuterijos paslaugų. Be to, tai padeda kurti, apsaugoti ir diegti didžiųjų duomenų programas. Be to, naudojant AWS jums nereikia aparatinės įrangos norint įsigyti ir infrastruktūros palaikyti ir išplėsti. Dėl šios priežasties galite sutelkti savo išteklius naujų įžvalgų atskleidimui.Kadangi naujos funkcijos nuolat pridedamos, visada galėsite pasinaudoti naujausiomis technologijomis nereikalaudami prisiimti ilgalaikių investicinių įsipareigojimų.

Kaip AWS gali išspręsti didelių duomenų iššūkius?

AWS sprendimai „Big Data“

AWS turi daugybę sprendimų visais kūrimo ir diegimo tikslais. Be to, duomenų mokslo ir didelių duomenų srityje AWS pateikė naujausių pokyčių įvairiais didžiųjų duomenų tvarkymo aspektais. Prieš pereidami prie įrankių, leiskite mums suprasti skirtingus „Big Data“ aspektus, kuriems AWS gali pateikti sprendimus.

  1. Duomenų perdavimas
    Neapdorotų duomenų - operacijų, žurnalų, mobiliųjų įrenginių ir dar daugiau - rinkimas yra pirmasis iššūkis, su kuriuo susiduria daugelis organizacijų, tvarkydamos didelius duomenis. Gera didelių duomenų platforma palengvina šį žingsnį, leidžiant kūrėjams bet kokiu greičiu įsisavinti įvairiausius duomenis - nuo struktūrizuotų iki nestruktūruotų - nuo realaus laiko iki paketinių.

  2. Duomenų saugojimas
    Bet kuriai didelių duomenų platformai reikalinga saugi, keičiamo dydžio ir patvari saugykla duomenims saugoti prieš ar net apdorojus užduotis. Atsižvelgiant į konkrečius reikalavimus, jums taip pat gali prireikti laikinų saugyklų duomenims perduoti.

  3. Duomenų apdorojimas
    Tai yra žingsnis, kai duomenys transformuojami iš neapdorotos būsenos į vartojimo formatą - paprastai rūšiuojant, kaupiant, sujungiant ir netgi atliekant pažangesnes funkcijas ir algoritmus. Gauti duomenų rinkiniai saugomi tolesniam apdorojimui arba yra prieinami vartoti naudojant verslo informacijos ir duomenų vizualizavimo įrankius.

  4. Vizualizacija

    Dideli duomenys yra tai, kad iš duomenų turto gaunama vertinga, naudinga įžvalga. Geriausia, jei duomenys suinteresuotosioms šalims yra prieinami naudojantis savitarnos verslo žvalgyba ir judriomis duomenų vizualizavimo priemonėmis, kurios leidžia greitai ir lengvai ištirti duomenų rinkinius.

AWS įrankiai dideliems duomenims

Ankstesniuose skyriuose mes apžvelgėme „Big Data“ laukus, kuriuose AWS gali pateikti sprendimus. Be to, AWS arsenale yra keli įrankiai ir paslaugos, leidžiančios klientams naudotis „Big Data“ galimybėmis.

kaip padaryti objektų masyvą

Pažvelkime į įvairius AWS teikiamus sprendimus skirtingiems „Big Data“ tvarkymo etapams tvarkyti

Nurijimas

  1. Kinezis

    „Amazon Kinesis Firehose“ yra visiškai valdoma paslauga, skirta realiuoju laiku perduoti srautinius duomenis tiesiai į „Amazon S3“. „Kinesis Firehose“ automatiškai keičia mastelį, kad atitiktų srautinių duomenų apimtį ir pralaidumą ir nereikalauja nuolatinio administravimo. Prieš sukaupdami „Amazon S3“, galite sukonfigūruoti „Kinesis Firehose“, kad transformuotų srautinius duomenis.

  2. Sniego gniūžtė
    Tu gali naudoti AWS Sniego gniūžtė saugiai ir efektyviai perkelti masinius duomenis iš vietinių saugojimo platformų ir „Hadoop“ grupių į S3 grupes. Sukūrę darbą „AWS Management Console“, automatiškai gausite „Snowball“ prietaisą. Atvykus „Sniego gniūžtei“, prijunkite jį prie savo vietinio tinklo, įdiekite „Snowball“ klientą savo vietiniame duomenų šaltinyje ir tada naudokite „Snowball“ klientą, kad pasirinktumėte ir perkeltumėte failų katalogus į „Snowball“ įrenginį.

Sandėliavimas

  1. „Amazon S3“

„Amazon S3“ yra saugi, labai keičiamo dydžio, patvari objektų saugykla, turinti milisekundžių vėlavimą prieigai prie duomenų. „S3“ gali saugoti bet kokio tipo duomenis iš bet kur - svetainių ir mobiliųjų programų, įmonių programų ir IoT jutiklių ar įrenginių duomenis. Jis taip pat gali saugoti ir nuskaityti bet kokį duomenų kiekį, turėdamas neprilygstamą prieinamumą, ir pastatytas nuo pat pradžių, kad užtikrintų 99,99999999999% (11 devynių) patvarumą.

2. AWS klijai

Klijai yra visiškai valdoma paslauga, teikianti duomenų katalogą, kad duomenų ežero duomenys būtų aptinkami. Be to, ji turi galimybę išskleisti, transformuoti ir įkelti (ETL), kad paruoštų duomenis analizei. Be to, įmontuotas duomenų katalogas yra tarsi nuolatinė visų duomenų išteklių metaduomenų saugykla, todėl visus duomenis galima ieškoti ir pateikti užklausas viename rodinyje.

Apdorojimas

  1. EMR
    Norėdami apdoroti didelius duomenis naudodami „Spark“ ir „Hadoop“, „Amazon EMR“ teikia valdomą paslaugą, leidžiančią lengvai, greitai ir ekonomiškai apdoroti didžiulį duomenų kiekį. Be to, EMR remia 19 skirtingų atvirojo kodo projektų, įskaitant Hadoopas , Kibirkštis ir Taip pat kartu su valdomais EMR užrašų knygelėmis, skirtomis duomenų inžinerijai, duomenų mokslo plėtrai ir bendradarbiavimui.

  2. Raudonas poslinkis
    Duomenų sandėliavimui, „Amazon“ „Redshift“ suteikia galimybę vykdyti sudėtingas, analitines užklausas prieš petabaitus struktūrinių duomenų. Be to, ji apima Raudonojo poslinkio spektras kuris vykdo SQL užklausas tiesiai prieš „Exabytes“ struktūrizuotus arba nestruktūruotus duomenis S3, nereikalaujant nereikalingo duomenų judėjimo.

Vizualizacijos

  1. „Amazon QuickSight“

    Informacijos suvestinėms ir vizualizacijoms „Amazon Quicksight“ teikia greitą, debesimis pagrįstą verslo analizės paslaugą. Tai leidžia lengvai kurti nuostabias vizualizacijas ir turtingas informacijos suvestines. Be to, prie jų galite prisijungti naudodami bet kurią naršyklę ar mobilųjį įrenginį.

Demonstracija - nykstančių augalų ir gyvūnų rūšių Australijoje duomenų analizė.

Šioje demonstracijoje naudosime Australijos valstijų ir teritorijų nykstančių augalų ir gyvūnų rūšių pavyzdinius duomenis. Čia sukursime EMR sankaupą ir sukonfigūruosime ją paleisti daugiapakopius „Apache Hive“ darbus. EMR grupėje bus įdiegtas „Apache Hive“. Šis klasteris naudos EMRFS kaip failų sistemą, todėl duomenų įvesties ir išvesties vietos bus susietos su S3 grupe. Klasteris taip pat naudos tą patį S3 grupę žurnalo failams saugoti.

Dabar grupėje sukursime keletą EMR žingsnių, kad apdorotume pavyzdinį duomenų rinkinį. Kiekviename iš šių veiksmų bus paleistas „Hive“ scenarijus, o galutinis rezultatas bus išsaugotas S3 grupėje. Šie veiksmai sugeneruos „MapReduce“ žurnalus ir todėl, kad „Hive“ komandos verčiamos į „MapReduce“ užduotis vykdymo metu. Kiekvieno veiksmo žurnalo failai sujungiami iš jo neršiamų talpyklų.

Duomenų pavyzdys

Šio naudojimo atvejo duomenų rinkinio pavyzdys yra viešai prieinamas Australijos vyriausybės atvirų duomenų svetainė . Šis duomenų rinkinys yra apie nykstančias gyvūnų ir augalų rūšis iš skirtingų Australijos valstijų ir teritorijų. Šio duomenų rinkinio ir CSV failo laukų aprašymą galima pamatyti ir atsisiųsti čia .

Apdorojimo žingsniai

Pirmasis EMR darbo žingsnis apima „Hive“ lentelės sukūrimą kaip pagrindinio šaltinio failo S3 schemą. Antrame darbo etape dabar vykdysime sėkmingą duomenų užklausą. Panašiai vykdysime trečią ir ketvirtą užklausas.

Šiuos keturis veiksmus pakartosime kelis kartus per valandą, imituodami kelis pakopinius paketinius darbus. Tačiau realaus gyvenimo scenarijuje laiko skirtumas tarp kiekvienos partijos paprastai gali būti daug didesnis. Mažas laiko tarpas tarp vienas po kito einančių bandymų skirtas pagreitinti mūsų bandymus.

S3 kibiras ir aplankai

Prieš sukurdami savo EMR klasterį, čia turėjome sukurti S3 segmentą, kuriame talpinsime jo failus. Mūsų pavyzdyje šią grupę pavadiname „arvind1-bucket“. Aplankai po šiuo segmentu rodomi toliau „AWS Console for S3“:

periodinė „Devops“ įrankių lentelė

  • Įvesties aplanke yra duomenų pavyzdžiai

  • Scenarijų aplanke yra „Hive“ scenarijaus failai, skirti atlikti EMR darbo veiksmus

  • Išvesties aplanke akivaizdžiai bus „Hive“ programos išvestis

  • EMR klasteris naudoja žurnalų aplanką, kad išsaugotų savo žurnalo failus.

Avilio scenarijai, skirti EMR darbo žingsniams

1. Šiame darbo etape vykdomas „Hive“ scenarijussukurti išorinę „Hive“ lentelę. Šioje lentelėje aprašoma pagrindinio CSV duomenų failo schema lentelėmis. Tai yra toks scenarijus:

SUKURTI IŠORIN T LENTEL `„ threatened_species “(„ mokslinio pavadinimo “eilutė,„ bendro pavadinimo “eilutė,„ dabartinio mokslinio pavadinimo “eilutė,„ pavojaus būsenos “eilutė,„ act “eilutė,„ nsw “eilutė,„ nt “eilutė,„ qld “ stygos, „sa“ stygos, „tas“ stygos, „vic“ eilutės, „wa“ eilutės, „aci“ eilutės, „cki“ eilutės, „ci“ eilutės, „csi“ eilutės, „jbt“ eilutės, „nfi“ stygos, „hmi“ stygos, „aat“ stygos, „cma“ stygos, „išvardyti šprotų taksonidai“ bigint, „dabartiniai šprotų taksonidai“ bigintai, „karalystės“ stygos, „klasės“ stygos, „profilio“ stygos, „išgautos datos“ eilutė, „nsl name“ eilutė, „šeimos“ eilutė, „genties“ eilutė, „rūšies“ eilutė, „infraspecifinio rango“ eilutė, „infraspecies“ eilutė, „rūšies autoriaus eilutė“, „infrasugarių autoriaus“ eilutė) NUTRAUKTA „,„ STORED AS INPUTFORMAT “org.apache.hadoop.mapred.TextInputFormat„ OUTPUTFORMAT “org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 'LOCATION' s3: // arvind1-bucket / script

2. Šiame darbo etape vykdoma užklausa, skirta apskaičiuoti penkias didžiausias nykstančių rūšių rūšis Naujojo Pietų Velso valstijoje (NSW). „Hive“ užklausos failo pavadinimas yra nykstanti rūšisNSW.q ir tai parodyta žemiau:

PASIRINKITE rūšis, COUNT (nsw) AS__pasižymėtų_species_numeris iš pavojaus_species WHERE (nsw = 'taip' ARBA nsw = 'nykstantis') IR 'grėsmingas statusas' = 'nykstantis' GRUPĖ PAGAL rūšis, turinčią COUNT (nsw)> 1 UŽSAKYTI PAGAL skaičių_of_endangered_species DESC LIMIT 5

3.Šiame darbo etape vykdoma užklausa, kad būtų apskaičiuotas bendras nykstančių augalų rūšių skaičius kiekvienai Australijos augalų šeimai. „Hive“ užklausos failo pavadinimas yraendangeredPlantSpecies.qir yra parodyta žemiau

maišos lentelės ir maišos žemėlapio skirtumas
PASIRINKITE šeimą, COUNT (rūšis) AS_pasižymėtų_species_numeris iš pavojaus_species2 WHERE karalystė = 'Plantae' IR 'grėsmės statusas' = 'Endangered' GROUP BY family

4. Šiame žingsnyje išvardyti Australijos Kvinslando valstijos išnykusių gyvūnų rūšių moksliniai pavadinimai. Vadinamas scenarijaus failas išnykęsGyvūnaiQLD.q ir yra parodyta žemiau:

PASIRINKITE „bendras vardas“, „mokslinis pavadinimas“ IŠ fenyenamų_species WHERE karalystė = 'Animalia' IR (qld = 'Taip' ARBA qld = 'Išnykusi') IR 'Grėsmės būsena' = 'Išnykusi'

Rąstų suvestinė

Čia mes taip pat įkėlėme JSON failą, vadinamą logAggregation.json, į S3 grupės scenarijų aplanką. Mes naudojame šį failą YARN žurnalo failams kaupti. Žurnalo kaupimas sukonfigūruotas „yarn-site.xml“ konfigūracijos faile, kai paleidžiama grupė. Failo logAggregation.json turinys yra toks:

[{„Klasifikacija“: „verpalų svetainė“, „Ypatybės“: {„verpalai.log-agregavimas-įgalinimas“: „tiesa“, „verpalai.log-agregavimas.retain-sekundės“: „-1“, „verpalai“. .nodemanager.remote-app-log-dir “:„ s3: // arvind1-bucket / logs “}}]

Sukūrę S3 grupę ir nukopijavę duomenų ir scenarijaus failus į atitinkamus aplankus, atėjo laikas nustatyti EMR grupę. Šie momentiniai vaizdai apibūdina procesą, kai mes kuriame klasterį su numatytaisiais parametrais.

EMR klasterio sąranka

Pirmajame paveikslėlyje, norėdami sukonfigūruoti sankaupą AWS konsolėje, išsaugojome visas EMR rekomenduojamas programas, įskaitant „Hive“. Avilio metaduomenims saugoti nereikia naudoti „AWS Glue“, taip pat šiuo metu nepridedame jokio darbo žingsnio. Tačiau turime pridėti „Hive“ programinės įrangos nustatymą. Čia turite atidžiai stebėti, kaip šiame lauke nurodome kelią į žurnalo kaupimo JSON failą.

Kitame etape išlaikėme visus numatytuosius nustatymus. Dėl mūsų bandymo klasteris turės vieną pagrindinį mazgą ir du pagrindinius mazgus. Kiekvienas mazgas čia yra m3.xlarge egzempliorius ir turi 10 GB pagrindinį tūrį. Kitame žingsnyje mes pavadiname klasterį arvind1-cluster ir nurodome jo žurnalo failų pasirinktinę s3 vietą.

Galiausiai mes nurodėme EC2 raktų porą, kad galėtume pasiekti klasterio pagrindinį mazgą. Nėra numatytųjų IAM vaidmenų, susijusių su EMR, EC2 egzemplioriaus profiliu ir automatinio mastelio parinktimis. Be to, pagrindinis ir pagrindinis mazgai pagal numatytuosius nustatymus naudoja galimas saugos grupes. Paprastai tai yra numatytoji EMR sankaupos sąranka. Kai viskas bus paruošta, klasteris bus „laukimo“ būsenoje, kaip parodyta žemiau:

Pateikite avilio darbo žingsnius

Po to turime leisti SSH prieigą.

  1. Atidarykite „Amazon EMR“ konsolę adresu https://console.aws.amazon.com/elasticmapreduce/ .
  2. Pasirinkite Grupės .
  3. Pasirink vardas klasterio.
  4. Pagal Saugumas ir prieiga Pasirink Meistro saugumo grupės nuoroda.
  5. Pasirinkite „ElasticMapReduce-master“ iš sąrašo.
  6. Pasirinkite Gaunamasis , Redaguoti .
  7. Raskite taisyklę su šiais nustatymais ir pasirinkite x piktogramą, kad ją ištrintumėte:
    • Tipas SSH
    • Uostas 22
    • Šaltinis Pasirinktinis 0.0.0.0/0
  8. Slinkite į taisyklių sąrašo apačią ir pasirinkite Pridėti taisyklę .
  9. Dėl Tipas , pasirinkite SSH .Tai automatiškai įeina TCP dėl Protokolas ir 22 dėl Uosto diapazonas .
  10. Norėdami pasirinkti šaltinį, pasirinkite Mano IP . Tai automatiškai prideda kliento kompiuterio IP adresą kaip šaltinio adresą. Arba galite pridėti diapazoną Pasirinktinis patikimų klientų IP adresus ir pasirinkti pridėti taisyklę sukurti papildomas taisykles kitiems klientams. Daugelyje tinklo aplinkų IP adresus paskirstote dinamiškai, todėl norint atnaujinti patikimų klientų IP adresą, gali tekti periodiškai redaguoti saugos grupės taisykles.
  11. Pasirinkite Sutaupyti .
  12. Pasirinktinai pasirinkite ElasticMapSumažinti-vergą iš sąrašo ir pakartokite aukščiau nurodytus veiksmus, kad SSH klientas galėtų pasiekti patikimų klientų pagrindinius ir užduočių mazgus.

Kadangi EMR klasteris veikia ir veikia, mes pridėjome keturis darbo žingsnius. Tai yra žingsniai, kuriuos EMR vykdytų vienas po kito. Šiame paveikslėlyje rodomi AWS EMR konsolės veiksmai:

Pridėję keturis veiksmus, galime patikrinti, ar šie veiksmai yra baigti. Net jei kyla kokių nors problemų vykdant šiuos veiksmus, tokiais atvejais tai galima išspręsti naudojant šių veiksmų žurnalo failus.

Taigi tai yra iš mano pusės šiame straipsnyje apie didelius duomenis AWS. Tikiuosi, kad supratote viską, ką aš čia paaiškinau.

Jei radote svarbius šiuos didelius duomenis AWS, galite peržiūrėti „Edureka“ tiesioginius ir instruktorių vedamus kursus , kurį kartu sukūrė pramonės specialistai.

Turite mums klausimą? Prašome paminėti tai komentarų skyriuje „Kaip įdiegti„ Java “žiniatinklio programą AWS, ir mes su jumis susisieksime.