„BIG DATA“ MOKYMO PROGRAMA VISKAS, KĄ REIKIA ŽINOTI APIE DIDELIUS DUOMENIS

„Big Data“ mokymo programa

„Big Data“, ar dar negirdėjote šio termino? Aš tikiu, kad turite. Per pastaruosius 4–5 metus visi kalba apie „Big Data“. Bet ar tikrai žinote, kas būtent yra šie didieji duomenys, kaip tai daro įtaką mūsų gyvenimui ir kodėl organizacijos medžioja profesionalus ? Šioje „Big Data“ mokymo programoje aš jums pateiksiu išsamią informaciją apie „Big Data“.

Toliau pateikiamos temos, kurias aptarsiu šioje „Big Data“ mokymo programoje:

„Big Data“ istorija
Didžiųjų duomenų vairavimo veiksniai
Kas yra „Big Data“?
Didžiųjų duomenų charakteristikos
Didžiųjų duomenų tipai
Didžiųjų duomenų pavyzdžiai
„Big Data“ programos
Iššūkiai su dideliais duomenimis

„Big Data“ mokymo programa - „Edureka“

Leiskite man pradėti šią „Big Data“ mokymo programą su apysaka.

„Big Data“ istorija

Senovėje žmonės iš vieno kaimo į kitą kaimą keliaudavo su arkliu varomais vežimais, tačiau laikui bėgant kaimai virto miestais ir žmonės išsiskleidė. Taip pat padidėjo atstumas keliauti iš vieno miesto į kitą miestą. Taigi, keliauti tarp miestų kartu su bagažu tapo problema. Iš proto, pasiūlė vienas protingas draugas, turėtume daugiau sutvarkyti ir pašerti arklį, kad išspręstume šią problemą. Kai žvelgiu į šį sprendimą, jis nėra toks blogas, bet ar manote, kad arklys gali tapti drambliu? Nemanau. Kitas protingas vaikinas pasakė, kad vietoj to, kad 1 arklys temptų vežimėlį, turėkime 4 arklius, kad ištrauktume tą patį vežimėlį. Ką jūs, vaikinai, galvojate apie šį sprendimą? Manau, kad tai yra fantastiškas sprendimas. Dabar žmonės gali nuvažiuoti didelius atstumus per trumpesnį laiką ir net vežtis daugiau bagažo.

Ta pati koncepcija taikoma ir didiesiems duomenims. „Big Data“ sako, kad iki šiandien mums buvo gerai saugoti duomenis į savo serverius, nes duomenų apimtis buvo gana ribota, o laiko tarpas šiems duomenims apdoroti taip pat buvo gerai. Tačiau dabar šiame dabartiniame technologiniame pasaulyje duomenys auga per greitai ir žmonės daug kartų pasikliauja duomenimis. Taip pat duomenų augimo greičiu tampa neįmanoma saugoti duomenų bet kuriame serveryje.

Per šį „Big Data Tutorial“ tinklaraštį tyrinėkime „Big Data“ šaltinius, kurių tradicinės sistemos nesugeba saugoti ir apdoroti.

Didžiųjų duomenų vairavimo veiksniai

Duomenų kiekis Žemės planetoje dėl daugelio priežasčių auga eksponentiškai. Įvairūs šaltiniai ir kasdieninė veikla generuoja daug duomenų. Išradus internetą, visas pasaulis prisijungė prie interneto, kiekvienas mūsų atliktas dalykas palieka skaitmeninį pėdsaką. Išmaniesiems objektams prisijungus prie interneto, duomenų augimo greitis sparčiai išaugo. Pagrindiniai didžiųjų duomenų šaltiniai yra socialinės žiniasklaidos svetainės, jutiklių tinklai, skaitmeniniai vaizdai / vaizdo įrašai, mobilieji telefonai, pirkimo sandorių įrašai, interneto žurnalai, medicininiai įrašai, archyvai, karinė priežiūra, el. Prekyba, sudėtingi moksliniai tyrimai ir pan. Visa ši informacija sudaro maždaug keletą kvintilijonų baitų duomenų. Iki 2020 m. Duomenų apimtys bus apie 40 zetabaitų, o tai prilygsta kiekvienam planetos smėlio grūdeliui, padaugintam iš septyniasdešimt penkių.

Kas yra „Big Data“?

„Big Data“ yra terminas, naudojamas rinkti didelius ir sudėtingus duomenų rinkinius, kuriuos sunku saugoti ir apdoroti naudojant turimas duomenų bazių valdymo priemones ar tradicines duomenų apdorojimo programas. Iššūkis apima šių duomenų fiksavimą, tvarkymą, saugojimą, paiešką, dalijimąsi, persiuntimą, analizavimą ir vizualizavimą.

Didžiųjų duomenų charakteristikos

Penkios charakteristikos, apibrėžiančios didelius duomenis, yra: tūris, greitis, įvairovė, tikrumas ir vertė.

TŪRIS
Apimtis reiškia „duomenų kiekį“, kuris kiekvieną dieną auga labai sparčiai. Žmonių, mašinų ir jų sąveikos socialiniuose tinkluose generuojamų duomenų dydis yra didžiulis. Tyrėjai prognozavo, kad iki 2020 m. Bus sukurta 40 zetabaitų (40 000 egzabaitų), o tai yra 300 kartų daugiau nei 2005 m.
VELOKITUMAS
Greitis apibrėžiamas kaip tempas, kuriuo kiekvieną dieną įvairūs šaltiniai generuoja duomenis. Šis duomenų srautas yra didžiulis ir nuolatinis. Šiuo metu mobiliajame telefone yra 1,03 milijardo aktyvių vartotojų („Facebook DAU“), tai yra 22 proc. Daugiau nei per metus. Tai rodo, kaip sparčiai auga vartotojų skaičius socialiniuose tinkluose ir kaip greitai duomenys kaupiami kasdien. Jei sugebėsite valdyti greitį, galėsite generuoti įžvalgas ir priimti sprendimus remdamiesi realaus laiko duomenimis.
VEISLĖ
Kadangi yra daug šaltinių, kurie prisideda prie didžiųjų duomenų, jų generuojamų duomenų tipas skiriasi. Jis gali būti struktūrizuotas, pusiau struktūrizuotas arba nestruktūruotas. Taigi yra įvairių duomenų, kurie kaupiami kiekvieną dieną. Anksčiau duomenis gaudavome iš „Excel“ ir duomenų bazių, dabar duomenys pateikiami vaizdų, garso įrašų, vaizdo įrašų, jutiklių duomenų ir kt. Pavidalu, kaip parodyta žemiau esančiame paveikslėlyje. Taigi ši nestruktūrizuotų duomenų įvairovė kelia problemų renkant, saugant, kasant ir analizuojant duomenis.
PATIKRUMAS
Tikrumas reiškia duomenis, kurie yra abejotini arba turimi dėl netikrumo dėl duomenų nenuoseklumo ir neišsamumo. Žemiau esančiame paveikslėlyje matote, kad lentelėje trūksta kelių reikšmių. Be to, sunku sutikti su keliomis reikšmėmis, pavyzdžiui - 15000 mažiausia vertė 3-ioje eilėje, tai neįmanoma. Šis nenuoseklumas ir neišsamumas yra teisingumas.
Turimi duomenys kartais gali būti netvarkingi ir galbūt sunku jais pasitikėti. Naudojant daugybę didžiųjų duomenų formų, kokybę ir tikslumą sunku kontroliuoti, pvz., „Twitter“ įrašus su grotažymėmis, santrumpomis, rašybos klaidomis ir šnekamąja kalba. Apimtis dažnai lemia duomenų kokybės ir tikslumo trūkumą.
- Dėl duomenų neapibrėžtumo kas trečias verslo lyderis nepasitiki informacija, kurią naudoja priimdami sprendimus.
- Apklausos metu nustatyta, kad 27% respondentų nebuvo tikri, kiek jų duomenys yra netikslūs.
- Prasta duomenų kokybė JAV ekonomikai kainuoja apie 3,1 trln. USD per metus.
VERTĖ
Aptarus tūrį, greitį, įvairovę ir teisingumą, yra dar vienas V, į kurį reikėtų atsižvelgti žiūrint į didelius duomenis, t. Y. Vertę. Viskas gerai ir gera turėti prieigą prie dideliųduomenisbetjei tai negalime paversti verte, tai nenaudinga. Norėdamas tai paversti verte, turiu omenyje, ar tai naudinga organizacijoms, kurios analizuoja didelius duomenis, naudos? Ar organizacija, dirbanti „Big Data“ srityje, pasiekia aukštą IG (investicijų grąžą)? Jei tai padidina jų pelną dirbant „Big Data“, tai yra nenaudinga.

Peržiūrėkite toliau pateiktą „Big Data“ vaizdo įrašą, kad sužinotumėte daugiau apie „Big Data“:

„Big Data“ mokymo programa pradedantiesiems Kas yra dideli duomenys | Edureka

Kaip aptarta „Variety“, yra įvairių tipų duomenys, kurie kaupiami kiekvieną dieną. Taigi, dabar supraskime duomenų tipus:

Didžiųjų duomenų tipai

Didieji duomenys gali būti trijų tipų:

Struktūrinis
Pusiau struktūrizuotas
Nestruktūrizuotas

Struktūrinis
Duomenys, kuriuos galima saugoti ir apdoroti fiksuotu formatu, vadinami struktūriniais duomenimis. Reliacinių duomenų bazių valdymo sistemoje (RDBMS) saugomi duomenys yra vienas iš „struktūrizuotų“ duomenų pavyzdžių. Struktūrizuotus duomenis lengva apdoroti, nes jie turi fiksuotą schemą. Struktūrinė užklausų kalba (SQL) dažnai naudojama tvarkant tokio tipo duomenis.
Pusiau struktūrizuotas
Pusiau struktūriniai duomenys yra duomenų tipas, neturintis formalios duomenų modelio struktūros, ty lentelės apibrėžimo reliacinėje DBVS, tačiau vis dėlto jis turi tam tikrų organizacinių savybių, tokių kaip žymos ir kiti žymekliai, kad atskirtų semantinius elementus, o tai palengvina analizuoti. XML failai arba JSON dokumentai yra pusiau struktūrizuotų duomenų pavyzdžiai.
rūšiavimo masyvai c ++
Nestruktūrizuotas
Duomenys, kurių forma nežinoma ir kurių negalima saugoti RDBMS, ir kurių negalima analizuoti, nebent jie būtų transformuoti į struktūrizuotą formatą, vadinami nestruktūrizuotais duomenimis. Tekstiniai failai ir daugialypės terpės turinys, pvz., Vaizdai, garso įrašai, vaizdo įrašai, yra nestruktūrizuotų duomenų pavyzdys. Nestruktūrizuoti duomenys auga greičiau nei kiti, ekspertai teigia, kad 80 procentų organizacijos duomenų yra nestruktūruoti.

Iki šiol ką tik aptariau „Big Data“ pristatymą. Be to, šioje „Big Data“ mokymo programoje kalbama apie „Big Data“ pavyzdžius, programas ir iššūkius.

Didžiųjų duomenų pavyzdžiai

Kasdien įkeliame milijonus baitų duomenų. 90% pasaulio duomenų buvo sukurta per pastaruosius dvejus metus.

Walmart tvarko daugiau nei 1 milijonas klientų operacijos kas valandą.
„Facebook“ parduotuvės, prieigos ir analizės 30+ petabaitų vartotojų sukurtų duomenų.
230 + milijonai tweet'ų sukuriama kiekvieną dieną.
Daugiau nei 5 mlrd žmonės visame pasaulyje skambina, rašo žinutes, rašo žinutes ir lankosi mobiliaisiais telefonais.
„YouTube“ naudotojai įkelia 48 valandos naujų vaizdo įrašų kiekvieną dienos minutę.
„Amazon“ rankenos 15 mln klientas spustelėja srauto vartotojo duomenis per dieną, kad rekomenduotų produktus.
294 mlrd laiškai siunčiami kiekvieną dieną. „Services“ analizuoja šiuos duomenis, kad surastų šlamštą.
Šiuolaikiniai automobiliai yra arti 100 jutiklių kuri stebi degalų lygį, padangų slėgį ir pan., kiekviena transporto priemonė generuoja daug jutiklių duomenų.

„Big Data“ programos

Negalime kalbėti apie duomenis nekalbėdami apie žmones, žmones, kuriems naudingos „Big Data“ programos. Beveik visos pramonės šakos vienu ar kitu būdu pasitelkia „Big Data“ programas.

Pažangesnė sveikatos priežiūra : Organizacija, pasinaudodama petabaitų paciento duomenimis, gali išgauti prasmingą informaciją ir tada kurti programas, kurios gali iš anksto numatyti blogėjančią paciento būklę.

Telekomunikacijos : Telekomunikacijų sektoriai renka informaciją, ją analizuoja ir teikia įvairių problemų sprendimus. Naudodamosi „Big Data“ programomis, telekomunikacijų bendrovės sugebėjo žymiai sumažinti duomenų paketų praradimą, kuris įvyksta perkraunant tinklus, ir taip užtikrinti sklandų ryšį su savo klientais.

Mažmeninė : Mažmeninė prekyba turi keletą griežčiausių maržų ir yra viena iš didžiausių naudos iš didžiųjų duomenų. Didžiųjų duomenų naudojimo mažmeninėje prekėje grožis yra suprasti vartotojų elgseną. „Amazon“ rekomendacijų variklis teikia pasiūlymus, pagrįstus vartotojo naršymo istorija.

Eismo kontrolė : Eismo spūstys yra pagrindinis iššūkis daugeliui pasaulio miestų. Efektyvus duomenų ir jutiklių naudojimas bus raktas į eismo valdymą geriau, nes miestai tampa vis tankiau apgyvendinti.

Gamyba : Analizuojant didelius duomenis gamybos pramonėje, galima sumažinti komponentų defektus, pagerinti produktų kokybę, padidinti efektyvumą ir sutaupyti laiko bei pinigų.

Paieškos kokybė : Kiekvieną kartą, kai išgauname informaciją iš „Google“, tuo pačiu metu generuojame jai duomenis. „Google“ saugo šiuos duomenis ir naudoja juos paieškos kokybei gerinti.

Kažkas teisingai pasakė: 'Ne viskas sode yra rožinė!' . Iki šiol šioje „Big Data“ pamokoje ką tik parodžiau rožinį „Big Data“ paveikslėlį. Bet jei taip lengva panaudoti didelius duomenis, ar nemanote, kad visos organizacijos į juos investuotų? Leiskite jums pasakyti iš anksto, taip nėra. Kai dirbate su „Big Data“, iškyla keletas iššūkių.

Dabar, kai esate susipažinę su „Big Data“ ir įvairiomis jų funkcijomis, kitame šio „Big Data“ mokymo dienoraščio skyriuje bus paaiškinta keletas pagrindinių problemų, su kuriomis susiduria „Big Data“.

Iššūkiai su dideliais duomenimis

Leiskite man pasakyti keletą iššūkių, susijusių su „Big Data“:

Duomenų kokybė - Čia problema yra 4^tūkstV t. Tikrumas. Duomenys čia labai netvarkingi, nenuoseklūs ir neišsamūs. Nešvarūs duomenys JAV įmonėms kasmet kainuoja 600 mlrd. USD.

Atradimas - „Big Data“ įžvalgų radimas yra tarsi adata šieno kupetoje. Labai sunku analizuoti petabaitus duomenų, naudojant itin galingus algoritmus, kad būtų galima rasti modelius ir įžvalgas.

Sandėliavimas - Kuo daugiau duomenų turi organizacija, tuo sudėtingesnės gali tapti jų valdymo problemos. Čia kyla klausimas „Kur jį laikyti?“. Mums reikalinga saugojimo sistema, kuri pagal poreikį gali lengvai padidinti ar sumažinti.

„Analytics“ - „Big Data“ atveju dažniausiai nežinome, kokio tipo duomenis turime, todėl analizuoti tuos duomenis yra dar sunkiau.

Saugumas - Kadangi duomenys yra didžiuliai, jų saugumas yra dar vienas iššūkis. Tai apima vartotojo autentifikavimą, prieigos ribojimą pagal vartotoją, duomenų prieigos istorijų įrašymą, tinkamą duomenų šifravimo naudojimą ir kt.

Talento trūkumas - Pagrindinėse organizacijose yra daug „Big Data“ projektų, tačiau sudėtinga kūrėjų, duomenų mokslininkų ir analitikų komanda, kuri taip pat turi pakankamai žinių apie domeną, vis dar yra iššūkis.

Hadoopas į gelbėjimą

Mes turime gelbėtoją, kad galėtume susidoroti su „Big Data“ iššūkiais Hadoopas . „Hadoop“ yra atviro kodo „Java“ pagrindu sukurta programavimo sistema, palaikanti itin didelių duomenų rinkinių saugojimą ir apdorojimą paskirstytoje skaičiavimo aplinkoje. Tai yra „Apache“ projekto, kurį remia „Apache Software Foundation“, dalis.

kaip sustabdyti Java programą

„Hadoop“ su paskirstytu apdorojimu efektyviai tvarko didelę struktūrizuotų ir nestruktūruotų duomenų kiekį nei tradicinis įmonės duomenų saugykla. „Hadoop“ leidžia paleisti programas sistemose, kuriose yra tūkstančiai prekių aparatūros mazgų, ir tvarkyti tūkstančius terabaitų duomenų. Organizacijos priima „Hadoop“, nes tai yra atviro kodo programinė įranga ir gali veikti su prekės aparatūra (jūsų asmeniniu kompiuteriu).Pradinis išlaidų taupymas yra dramatiškas, nes prekių aparatūra yra labai pigi. Didėjant organizaciniams duomenims, norėdami juos laikyti, turite pridėti daugiau ir daugiau prekių aparatinės įrangos, taigi Hadoopas yra ekonomiškas.Be to, „Hadoop“ turi tvirtą „Apache“ bendruomenę, kuri ir toliau prisideda prie jos tobulėjimo.

Kaip žadėta anksčiau, per šį „Big Data Tutorial“ tinklaraštį pateikiau maksimalų įžvalgą apie „Big Data“. Tai „Big Data Tutorial“ pabaiga. Kitas žingsnis į priekį - pažinti ir išmokti Hadoopą. Mes turime „Hadoop“ mokymo programos serija tinklaraščiai, kurie išsamiai suteiks žinių apie visą Hadoopo ekosistemą.

Viso gero, laimingo Hadoopingo!

Dabar, kai supratote, kas yra didieji duomenys, patikrinkite sukūrė „Edureka“ - patikima internetinė mokymosi įmonė, turinti daugiau nei 250 000 patenkintų besimokančiųjų tinklą. „Edureka Big Data Hadoop“ sertifikavimo mokymo kursai padeda besimokantiesiems tapti HDFS, verpalų, „MapReduce“, „Pig“, „Hive“, „HBase“, „Oozie“, „Flume“ ir „Sqoop“ ekspertais, naudojant realaus laiko naudojimo atvejus mažmeninės prekybos, socialinės žiniasklaidos, aviacijos, turizmo, finansų srityse.

Turite mums klausimą? Prašau paminėti tai komentarų skiltyje ir mes su jumis susisieksime.

Susijusios žinutės:

„Big Data“ mokymo programa: viskas, ką reikia žinoti apie „Big Data“!

Šis „Big Data Tutorial“ tinklaraštis suteikia jums pilną „Big Data“ apžvalgą, jų ypatybes, programas ir „Big Data“ iššūkius.