Duomenų mokslo pamoka - sužinokite duomenų mokslą iš „Scratch“!



Ši duomenų mokslo pamoka idealiai tinka tiems, kurie ieško perėjimo prie duomenų mokslo srities. Tai apima visus duomenų mokslo pagrindus, susijusius su karjera.

Norite pradėti savo duomenų mokslininko karjerą, bet nežinote nuo ko pradėti? Jūs esate tinkamoje vietoje! Ei, vaikinai, sveiki apsilankę šiame nuostabiame „Data Science Tutorial“ tinklaraštyje, tai suteiks jums startą į duomenų mokslo pasaulį. Norėdami gauti išsamių žinių apie duomenų mokslą, galite užsiregistruoti tiesiogiai sukūrė „Edureka“ su parą visą parą ir visą gyvenimą. Pažvelkime į tai, ko mokysimės šiandien:

    1. Kodėl duomenų mokslas?
    2. Kas yra duomenų mokslas?
    3. Kas yra duomenų mokslininkas?
    4. Darbo tendencijos
    5. Kaip išspręsti duomenų mokslo problemą?
    6. Duomenų mokslo komponentai
    7. Duomenų mokslininko darbo vaidmenys



Kodėl duomenų mokslas?

Buvo sakoma, kad „Data Scientist“ yra „seksualiausias XXI amžiaus darbas“. Kodėl? Nes per pastaruosius kelerius metus įmonės saugojo savo duomenis. Tai daro kiekviena įmonė, todėl staiga įvyko duomenų sprogimas. Duomenys tapo gausiausiu dalyku šiandien.

Bet ką darysite su šiais duomenimis? Supraskime tai naudodami pavyzdį:



Tarkime, turite įmonę, kuri gamina mobiliuosius telefonus. Išleidote savo pirmąjį produktą, ir jis tapo didžiuliu hitu. Kiekviena technologija turi savo gyvenimą, tiesa? Taigi, atėjo laikas sugalvoti ką nors naujo. Bet jūs nežinote, ką reikėtų atnaujinti, kad patenkintumėte vartotojų, kurie nekantriai laukia jūsų kito leidimo, lūkesčius?

Kažkas jūsų įmonėje sugalvoja naudoti vartotojų sugeneruotus atsiliepimus ir pasirinkti dalykus, kurių, mūsų manymu, vartotojai tikisi kitame leidime.

Kalbant apie duomenų mokslą, jūs pritaikote įvairias duomenų gavybos technologijas, tokias kaip nuotaikos analizė ir kt., Ir gaunate norimus rezultatus.



Tai ne tik tai, jūs galite priimti geresnius sprendimus, jūs galite sumažinti savo gamybos išlaidas, pasirenkant efektyvius būdus, ir suteikti savo klientams tai, ko jie iš tikrųjų nori!

Tokiu būdu yra daugybė privalumų, kuriuos gali suteikti „Data Science“, todėl tapo absoliučiai būtina, kad jūsų įmonė turėtų duomenų mokslo komandą.Tokie reikalavimai paskatino „Duomenų mokslą“ kaip dalyką šiandien, todėl mes rašome šį tinklaraštį Duomenų mokslo pamokoje. :)

Duomenų mokslo pamoka: kas yra duomenų mokslas?

Duomenų mokslo terminas atsirado neseniai, vystantis matematinei statistikai ir duomenų analizei. Kelionė buvo nuostabi, šiandien tiek daug nuveikėme duomenų mokslo srityje.

Per ateinančius kelerius metus galėsime nuspėti ateitį, kaip teigė MIT tyrėjai. Atlikdami savo nuostabius tyrimus, jie jau pasiekė ateities prognozavimo etapą. Dabar jie su savo mašina gali nuspėti, kas nutiks kitoje filmo scenoje! Kaip? Na, jums gali būti šiek tiek sudėtinga suprasti dabar, tačiau nesijaudinkite iki šio tinklaraščio pabaigos, taip pat turėsite atsakymą.

Grįžtant, mes kalbėjome apie duomenų mokslą, jis taip pat žinomas kaip duomenų valdomas mokslas, kuris naudoja mokslinius metodus, procesus ir sistemas, kad išgautų žinias ar įžvalgas iš įvairių formų duomenų, ty struktūrizuotų arba nestruktūruotų.

Kokie yra šie metodai ir procesai, apie tai šiandien diskutuosime šioje duomenų mokslo pamokoje.

Kas eina į priekį, kas visa tai smegenimis šturmuoja, ar kas praktikuoja duomenų mokslą? A Duomenų mokslininkas .

Kas yra duomenų mokslininkas?

Kaip matote paveikslėlyje, duomenų mokslininkas yra visų amatų meistras! Jis turėtų mokėti matematikos, jis turėtų rūpintis verslo sritimi ir turėti puikių informatikos įgūdžių. Išsigandote? Nebūk. Nors tu turi būti geras visose šiose srityse, bet net jei tu ne, tu ne vienas! „Visiško duomenų mokslininko“ nėra. Jei kalbėsime apie darbą korporacinėje aplinkoje, darbas paskirstomas komandoms, kuriose kiekviena komanda turi savo kompetenciją. Bet reikalas yra tas, kad turėtumėte mokėti bent vieną iš šių laukų. Be to, net jei šie įgūdžiai jums yra nauji, atsipalaiduokite! Tai gali užtrukti, tačiau šiuos įgūdžius galima lavinti ir patikėkite, kad būtų verta laiko, kurį investuosite. Kodėl? Na, pažvelkime į darbo tendencijas.

paieškos transformacija informatikos pavyzdyje

Duomenų mokslininko darbo tendencijos

Na, grafike viskas pasakyta, ne tik yra daugybė duomenų mokslininko darbo vietų, bet ir gerai apmokami darbai! Ir ne, mūsų tinklaraštyje nebus pateikti atlyginimų skaičiai, eikite į google!

Na, mes dabar žinome, kad duomenų mokslo mokymasis iš tikrųjų yra prasmingas ne tik todėl, kad jis yra labai naudingas, bet ir artimiausiu metu jame turite didžiulę karjerą.

Pradėkime savo kelią mokytis duomenų dabar ir pradėkime nuo

Kaip išspręsti duomenų mokslo problemą?

Taigi dabar aptarkime, kaip reikėtų kreiptis į problemą ir ją išspręsti naudojant duomenų mokslą. Duomenų mokslo problemos sprendžiamos naudojant algoritmus. Tačiau didžiausias vertinimas yra tai, kurį algoritmą ir kada naudoti?

Iš esmės yra 5 rūšių problemos, su kuriomis galite susidurti duomenų moksle.

Išnagrinėkime kiekvieną iš šių klausimų ir susijusius algoritmus po vieną:

Ar tai A, ar B?

Šiuo klausimu mes kalbame apie problemas, į kurias atsakymas yra kategoriškas, nes problemoms, kurios turi fiksuotą sprendimą, atsakymas gali būti „taip“ arba „ne“, 1 arba 0, suinteresuotas, gal ir ne.

Pavyzdžiui:

K. Ką turėsite arbatos ar kavos?

Čia negalima sakyti, kad norėtumėte kokso! Kadangi klausime siūloma tik arbata ar kava, galite atsakyti tik į vieną iš jų.

Kai turime tik dviejų tipų atsakymus, t. Y. Taip arba ne, 1 arba 0, tai vadinama 2 klasių klasifikacija. Turint daugiau nei dvi parinktis, tai vadinama kelių klasių klasifikacija.

Pabaigoje, kai tik susiduriate su klausimais, į kuriuos atsakymas yra kategoriškas, programoje „Data Science“ šias problemas išspręsite naudodami klasifikavimo algoritmus.

Kita šio duomenų mokslo mokymo programos problema, su kuria galite susidurti, galbūt kažkas panašaus į tai,

Ar tai keista?

Tokie klausimai yra susiję su modeliais ir juos galima išspręsti naudojant anomalijų aptikimo algoritmus.

Pavyzdžiui:

Pabandykite susieti problemą „ar tai keista?“ pagal šią diagramą,

Kas keista pagal pirmiau pateiktą modelį? Raudonas vaikinas, ar ne?

Kai yra modelio pertrauka, algoritmas pažymi tą konkretų įvykį, kad galėtume jį peržiūrėti. Kredito kortelių kompanijos realiai pritaikė šį algoritmą, kai bet kokia neįprasta vartotojo operacija yra pažymėta peržiūrėti. Taigi įgyvendinamas saugumas ir sumažinamos žmonių pastangos stebint.

Pažvelkime į kitą šios duomenų mokslo pamokos problemą, neišsigąskite, nagrinėjame matematiką!

Kiek ar kiek?

Tie, kurie nemėgsta matematikos, palengvės! Regresijos algoritmai yra čia!

Taigi, kai iškyla problema, kuriai gali prireikti skaičių ar skaitinių reikšmių, mes ją išsprendžiame naudodami regresijos algoritmus.

Pavyzdžiui:

Kokia bus rytoj temperatūra?

Kadangi atsakydami į šią problemą tikimės skaitinės vertės, ją išspręsime naudodami regresijos algoritmus.

Judėdami toliau šioje duomenų mokslo pamokoje aptarkime kitą algoritmą,

Kaip tai organizuota?

Tarkime, kad turite šiek tiek duomenų, o dabar neturite idėjos, kaip iš šių duomenų būtų prasminga. Taigi kyla klausimas, kaip tai organizuojama?

Na, galite tai išspręsti naudodami klasterizavimo algoritmus. Kaip jie išsprendžia šias problemas? Pažiūrėkime:

Grupavimo algoritmai grupuoja duomenis pagal bendras charakteristikas. Pavyzdžiui, aukščiau pateiktoje diagramoje taškai yra išdėstyti pagal spalvas. Panašiai, nesvarbu, ar tai būtų duomenys, grupavimo algoritmai bando suvokti, kas yra bendro tarp jų, taigi kartu juos „grupuoja“.

Kita ir paskutinė šio duomenų mokslo mokymo programos problema, su kuria galite susidurti, yra

Ką turėčiau daryti toliau?

Kai susiduriate su problema, kai jūsų kompiuteris turi priimti sprendimą pagal jums suteiktą mokymą, tai apima sustiprinimo algoritmus.

Pavyzdžiui:

Jūsų temperatūros reguliavimo sistema, kai ji turi nuspręsti, ar ji turėtų sumažinti kambario temperatūrą, ar ją padidinti.

Kaip veikia šie algoritmai?

Šie algoritmai yra pagrįsti žmogaus psichologija. Mums patinka būti vertinamiems, tiesa? Kompiuteriai įgyvendina šiuos algoritmus ir tikisi, kad bus įvertinti, kai bus mokomi. Kaip? Pažiūrėkime.

Užuot mokę kompiuterį, ką daryti, jūs leidžiate jam nuspręsti, ką daryti, o šio veiksmo pabaigoje jūs pateikiate teigiamą arba neigiamą atsiliepimą. Taigi, užuot apibrėžę, kas yra teisinga ir kas neteisinga jūsų sistemoje, jūs leidžiate sistemai „nuspręsti“, ką daryti, ir galų gale pateikite atsiliepimą.

Tai tiesiog kaip treniruoti savo šunį. Jūs negalite kontroliuoti, ką daro jūsų šuo, tiesa? Bet tu gali jį barti, kai jis elgiasi neteisingai. Panašiai gal paplekšnoja jam per nugarą, kai jis daro tai, ko tikimasi.

Taikykime šį supratimą aukščiau pateiktame pavyzdyje, įsivaizduokite, kad mokote temperatūros reguliavimo sistemą, taigi, kai ne. žmonių kambaryje padaugėja, turi būti atliktas sistemos veiksmas. Arba sumažinkite temperatūrą, arba padidinkite ją. Kadangi mūsų sistema nieko nesupranta, ji priima atsitiktinį sprendimą, tarkime, tai padidina temperatūrą. Todėl jūs pateikiate neigiamą atsiliepimą. Tokiu būdu kompiuteris supranta, kai kambaryje padidėja žmonių skaičius, niekada nepadidina temperatūros.

Panašiai apie kitus veiksmus turite pateikti atsiliepimą.Su kiekvienu grįžtamuoju ryšiu jūsų sistema mokosi ir todėl tampa tikslesnė priimant kitą sprendimą, ši mokymosi rūšis vadinama mokymosi sustiprinimu.

Algoritmai, kuriuos išmokome aukščiau šioje duomenų mokslo pamokoje, apima bendrą „mokymosi praktiką“. Mes verčiame mašiną mokytis teisingai?

Kas yra mašininis mokymasis?

Tai yra dirbtinio intelekto rūšis, leidžianti kompiuteriams mokytis savarankiškai, t. Y. Be aiškaus programavimo. Mokydamiesi mašinomis, mašinos gali atnaujinti savo kodą, kai tik susiduria su nauja situacija.

Baigdami šią duomenų mokslo pamoką, dabar žinome, kad duomenų mokslą palaiko mašininis mokymasis ir jo analizės algoritmai. Kaip mes atliekame analizę, kur mes tai darome. Duomenų mokslas taip pat turi keletą komponentų, kurie padeda mums spręsti visus šiuos klausimus.

Prieš tai leiskite man atsakyti, kaip MIT gali nuspėti ateitį, nes, manau, jūs, vaikinai, galėtumėte tai susieti dabar. Taigi, MIT tyrėjai mokė savo modelį filmais, o kompiuteriai sužinojo, kaip žmonės reaguoja arba kaip jie elgiasi prieš atlikdami veiksmą.

Pavyzdžiui, kai ketinate paspausti ranką kam nors, ištraukite ranką iš kišenės, o gal atsiremkite į asmenį. Iš esmės prie kiekvieno veiksmo pridedamas „išankstinis veiksmas“. Kompiuteris su filmų pagalba buvo išmokytas atlikti šiuos „išankstinius veiksmus“. Stebėdami vis daugiau filmų, jų kompiuteriai galėjo nuspėti, koks gali būti kitas veikėjo veiksmas.

Lengva, ar ne? Leiskite man išmesti dar vieną klausimą jums tada šioje duomenų mokslo pamokoje! Kurį mašininio mokymosi algoritmą jie turi tai įgyvendinti?

Duomenų mokslo komponentai

1. Duomenų rinkiniai

Ką analizuosite? Duomenys, tiesa? Jums reikia daug duomenų, kuriuos galima analizuoti, šie duomenys pateikiami jūsų algoritmams ar analitinėms priemonėms. Šiuos duomenis gaunate iš įvairių praeityje atliktų tyrimų.

2. R studija

R yra atvirojo kodo programavimo kalba ir programinės įrangos aplinka statistiniam skaičiavimui ir grafikai, kurią palaiko R fondas. R kalba naudojama IDE, vadinamoje „R Studio“.

Kodėl jis vartojamas?

  • Programavimo ir statistinė kalba
    • Be to, kad jis naudojamas kaip statistinė kalba, jis taip pat gali būti naudojamas programavimo kalba analizės tikslais.
  • Duomenų analizė ir vizualizavimas
    • Be to, kad R yra vienas populiariausių analizės įrankių, jis taip pat yra vienas iš populiariausių įrankių, naudojamų duomenų vizualizavimui.
  • Paprasta ir lengva išmokti
    • R yra paprastas ir lengvai išmokstamas, skaitomas ir rašomas

c c # c ++
  • Laisvas ir atviras šaltinis
    • R yra FLOSS („Free / Libre“ ir „Open Source Software“) pavyzdys, kuris reiškia, kad galima laisvai platinti šios programinės įrangos kopijas, skaityti jos šaltinio kodą, modifikuoti ir pan.

„R Studio“ pakako analizei, kol mūsų duomenų rinkiniai tapo didžiuliai, taip pat nestruktūruoti tuo pačiu metu. Šio tipo duomenys buvo vadinami didžiaisiais duomenimis.

3. Dideli duomenys

Didieji duomenys - tai toks didelis ir sudėtingas duomenų rinkinių terminas, kurį tampa sunku apdoroti naudojant duomenų bazių valdymo įrankius ar tradicines duomenų apdorojimo programas.

Dabar, norėdami sutramdyti šiuos duomenis, turėjome sugalvoti įrankį, nes jokia tradicinė programinė įranga negalėjo apdoroti tokio pobūdžio duomenų, todėl mes sugalvojome „Hadoop“.

4. Hadoopas

„Hadoop“ yra sistema, kuri mums padeda parduotuvė ir procesą didelius duomenų rinkinius lygiagrečiai ir platinimo būdu.

Susitelkime į „Hadoop“ parduotuvę ir dalį jos.

Parduotuvė

„Hadoop“ saugojimo dalį tvarko HDFS, ty „Hadoop“ paskirstyta failų sistema. Tai užtikrina gerą prieinamumą visoje paskirstytoje ekosistemoje. Tai, kaip ji veikia, suskirsto gaunamą informaciją į dalis ir paskirsto ją į skirtingus klasterio mazgus, leidžiančius paskirstytą saugyklą.

Procesas

„MapReduce“ yra „Hadoop“ apdorojimo širdis. Algoritmai atlieka dvi svarbias užduotis: susieja ir sumažina. Žemėlapiai suskaido užduotį į mažesnes užduotis, kurios apdorojamos lygiagrečiai. Kartą visi kartografai atlieka savo dalį darbo, jie apibendrina savo rezultatus, o tada redukavimo procese šie rezultatai sumažėja iki paprastesnės vertės. Norėdami sužinoti daugiau apie „Hadoop“, galite pereiti prie mūsų .

Jei „Data Science“ saugyklą naudojame „Hadoop“, sunku apdoroti įvestį naudojant „R Studio“, nes jos nesugeba gerai veikti paskirstytoje aplinkoje, taigi turime „Spark R“.

5. Kibirkštis R

Tai R paketas, kuris suteikia lengvą būdą naudoti „Apache Spark“ su R. Kodėl jį naudosite per tradicines R programas? Kadangi tai suteikia paskirstytą duomenų rėmų įgyvendinimą, kuris palaiko operacijas, tokias kaip pasirinkimas, filtravimas, kaupimas ir tt, bet dideliuose duomenų rinkiniuose.

Atsikvėpkite dabar! Atlikome techninę šios duomenų mokslo pamokos dalį. Pažvelkime į tai iš savo darbo perspektyvos. Manau, kad jūs jau būtumėte peržvelgę ​​duomenų mokslininko atlyginimus, bet vis tiek aptarkime jūsų, kaip duomenų mokslininko, pareigas.

Duomenų mokslininko darbo vaidmenys

Keletas žinomų „Data Scientist“ pareigybių yra:

  • Duomenų mokslininkas
  • Duomenų inžinierius
  • Duomenų architektas
  • Duomenų administratorius
  • Duomenų analitikas
  • Verslo analitikas
  • Duomenų / „Analytics“ tvarkyklė
  • Verslo žvalgybos vadovas

Žemiau pateiktoje „Data Science Tutorial“ pateiktoje „Payscale.com“ diagramoje parodytas vidutinis duomenų mokslininko atlyginimas pagal įgūdžius JAV ir Indijoje.

Atėjo laikas tobulinti duomenų mokslo ir didelių duomenų analizės įgūdžius, kad galėtumėte pasinaudoti savo duomenų mokslo karjeros galimybėmis. Taip pateksime į „Data Science“ mokymo tinklaraščio pabaigą. Tikiuosi, kad šis tinklaraštis buvo informatyvus ir suteikė jums pridėtinės vertės. Dabar pats laikas patekti į duomenų mokslo pasaulį ir tapti sėkmingu duomenų mokslininku.

„Edureka“ turi specialiai kuruotą Tai padeda įgyti mašininio mokymosi algoritmų, tokių kaip „K-Means Clustering“, „Sprendimų medžiai“, „Random Forest“, „Naive Bayes“, patirtį. Sužinosite ir statistikos, laiko eilučių, teksto gavybos sąvokas ir įvadą į giluminį mokymąsi. Netrukus prasidės naujos šio kurso partijos !!

Turite mums klausimų duomenų mokslo pamokoje? Prašau paminėti tai komentarų skiltyje ir mes su jumis susisieksime.