Mašininio mokymosi statistika: vadovas pradedantiesiems

Šis straipsnis apie mašininio mokymosi statistiką yra išsamus įvairių statistikos sąvokų vadovas su pavyzdžiais.

Suprasti duomenis ir sugebėti iš jų sukurti vertę yra dešimtmečio įgūdis. Mašininis mokymasis yra vienas pagrindinių įgūdžių, padedančių įmonėms jį įgyvendinti. Tačiau norint pradėti, reikia teisingai susikurti savo pamatus. Taigi šiame straipsnyje aptarsiu keletą pagrindinių sąvokų ir pateiksiu gaires, kaip pradėti kelionę mašininio mokymosi srityje. Taigi šiame straipsnyje apie mašininio mokymosi statistiką bus aptariamos šios temos:

  1. Tikimybė
  2. Statistika
  3. Tiesinė algebra

Mašininio mokymosi tikimybė ir statistika:





Kas yra tikimybė?

Tikimybė apskaičiuoja įvykio tikimybę. Pvz., Jei jūs sukite teisingą, neobjektyvų štampą, tada tikimybė vienas pasisukti yra 1/6 . Dabar, jei jums įdomu, wai? Tada atsakymas yra gana paprastas!

Taip yra todėl, kad yra šešios galimybės ir visos yra vienodai tikėtinos („fair die“). Todėl galime pridėti 1 + 1 + 1 + 1 + 1 + 1 = 6. Bet kadangi mus domina įvykis, kuriame pasirodo 1 . Yra įvykis gali įvykti tik vienu būdu. Todėl,



Tikimybė, kad 1 pasisuks = 1/6

Panašiai yra ir su visais kitais skaičiais, nes visi įvykiai yra vienodai tikėtini. Paprasta, tiesa?

Na, dažnas šio pavyzdžio tikimybės apibrėžimas nuskambėtų taip: 1 apsisukimo tikimybė yra 1 apsisukimo skaičiaus ir viso štampo valcavimo kartų santykis, jei štampas buvo suvyniotas be galo laikai.Kaip tai prasminga?



Padarykime tai įdomiau. Apsvarstykite du atvejus - 5 kartus sukiojote teisingą štangą. Vienu atveju pasisukusių skaičių seka yra [1,4,2,6,4,3]. Kitu atveju gauname - [2,2,2,2,2,2]. Kaip manote, kuris iš jų yra labiau tikėtinas?

Abu yra vienodai tikėtini. Atrodo keista, tiesa?

Dabar apsvarstykite kitą atvejį, kai visi 5 ritiniai kiekvienu atveju yra nepriklausomas . Reiškia, vienas ritinys neturi įtakos kitam. Pirmuoju atveju, kai pasirodo 6, ji nė nenumanė, kad prieš jį pasirodė 2. Taigi visi 5 ritiniai yra vienodai tikėtini.

Panašiai tiesūs 2 antruoju atveju gali būti suprantami kaip nepriklausomų įvykių seka. Ir visi šie įvykiai yra vienodai tikėtini. Apskritai, kadangi turime tuos pačius kauliukus, tikimybė, kad konkretus skaičius pasirodys tuo atveju, jei vienas yra toks pats kaip antrasis. Toliau šiame straipsnyje apie mašininio mokymosi statistiką supraskime šį terminą Nepriklausomybė.

Nepriklausomybė

Du renginiai Sakoma, kad A ir B yra nepriklausomi, jei A įvykis neturi įtakos B įvykiui . Pavyzdžiui, jei mesiate monetą ir ridenate štampą, štangos rezultatas neturi jokios įtakos, ar moneta rodo galvas, ar uodegas. Be to, už du nepriklausomi įvykiai A ir B , tikimybė, kad A ir B gali atsirasti kartu . Pavyzdžiui, jei norite tikimybės, kad moneta rodo galvas, o mirtis - 3.

P (A ir B) = P (A) * P (B)

Todėl P = & frac12 (tikimybė, kad galvos pasisuks) * ⅙ (tikimybė, kad 3 apsisuks) = 1/12

Ankstesniame pavyzdyje abiem atvejais P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Dabar pakalbėkime apie įvykius, kurie nėra nepriklausomi. Apsvarstykite šią lentelę:

Nutukę Ne nutukę
Širdies problemosKeturi, penkipenkiolika
Širdies problemų nėra1030

Buvo atlikta 100 žmonių apklausa. 60 turėjo širdies problemų, 40 - ne. Iš 60, turinčių širdies problemų, 45 buvo nutukę. Iš 40, neturinčių širdies problemų, 10 buvo nutukę. Jei kas nors jūsų paklaus -

  1. Kokia tikimybė turėti širdies problemų?
  2. Kokia tikimybė turėti širdies problemų ir nenutukti?

Atsakymas į pirmuosius klausimus yra lengvas - 60/100. Antram - 15/100. Dabar apsvarstykite trečiąjį klausimą - žmogus buvo pasirinktas atsitiktinai. Buvo nustatyta, kad jis serga širdies liga. Kokia tikimybė, kad jis nutukęs?

Dabar pagalvokite apie jums suteiktą informaciją. Yra žinoma, kad jis serga širdies liga. Todėl jis negali būti iš 40, kurie neturi širdies ligų. Galimi tik 60 variantų (viršutinė lentelės eilutė). Tarp šių sumažintų galimybių tikimybė, kad jis nutukęs, yra 45/60. Dabar, kai žinote, kas yra nepriklausomi įvykiai, toliau šiame straipsnyje apie mašininio mokymosi statistiką, leiskite mums suprasti sąlygines tikimybes.

Sąlyginės tikimybės

Norėdami suprasti sąlygines tikimybes, tęskime diskusiją aukščiau pateiktu pavyzdžiu. Nutukimo būsena ir širdies sutrikimų būklė nėra nepriklausomi. Jei nutukimas neturėjo įtakos širdies problemoms, nutukusių ir nutukusių žmonių, turinčių širdies problemų, skaičius būtų toks pats.

Be to, mums buvo duota, kad asmuo turi širdies problemų, ir mes turėjome išsiaiškinti tikimybę, kad jis yra nutukęs. Taigi šiuo atveju tikimybė priklauso nuo to, kad jis turi širdies problemų. Jei įvykio A tikimybė yra sąlygojama įvykio B, mes jį vaizduojame kaip

kas yra paketai java

P (A | B)

Dabar yra teorema, padedanti apskaičiuoti šią sąlyginę tikimybę. Tai vadinama Bayeso taisyklė .

P (A | B) = P (A ir B) / P (B)

Galite patikrinti šią teoremą, prijungdami ką tik aptartą pavyzdį. Jei iki šiol supratote, galite pradėti nuo šių veiksmų - Naivusis Bayesas . Jis naudoja sąlygines tikimybes, kad klasifikuotų, ar el. Paštas yra šlamštas, ar ne. Jis gali atlikti daugybę kitų klasifikavimo užduočių. Tačiau iš esmės svarbiausia yra sąlyginė tikimybė .

Statistika:

Statistika yra naudojamas apibendrinant ir darant išvadas apie daugybę duomenų taškų. Duomenų mokslo ir mašininio mokymosi srityje dažnai susiduriate su tokia terminologija

  • Centralizavimo priemonės
  • Paskirstymai (ypač normalūs)

Centralizavimo priemonės ir kainų skirtumai

Vidutinis:

Vidutinis yra tik skaičių vidurkis . Norėdami sužinoti vidurkį, turite susumuoti skaičius ir padalyti jį iš skaičių skaičiaus. Pavyzdžiui, [1,2,3,4,5] vidurkis yra 15/5 = 3.

mean-statistics-for-machine-learning

Mediana:

Mediana yra vidurinis skaičių aibės elementas kai jie išdėstyti didėjimo tvarka. Pavyzdžiui, skaičiai [1,2,4,3,5] yra išdėstyti didėjimo tvarka [1,2,3,4,5]. Vidutinis jų yra 3. Todėl mediana yra 3. Bet ką daryti, jei skaičių skaičius yra lyginis ir todėl neturi vidurio skaičiaus? Tokiu atveju imsite dviejų labiausiai viduryje esančių skaičių vidurkį. 2n skaičių sekai didėjančia tvarka n-ąjį ir (n + 1) vidurkįtūkstnumeris, kad gautų medianą. Pavyzdys - [1,2,3,4,5,6] mediana (3 + 4) / 2 = 3,5

Režimas:

Režimas yra tiesiog dažniausias skaičius skaičių rinkinyje . Pavyzdžiui, [1,2,3,3,4,5,5,5] režimas yra 5.

Dispersija:

Dispersija nėra centrinis matas. Tai matuoja kaip jūsų duomenys skleidžiami per vidurkį . Jis kiekybiškai įvertinamas kaip

xyra N skaičių vidurkis. Imate tašką, atimkite vidurkį, paimkite šio skirtumo kvadratą. Atlikite tai visiems N skaičiams ir jų vidurkiui. Kvadratinė dispersijos šaknis vadinama standartiniu nuokrypiu. Toliau šiame straipsnyje apie mašininio mokymosi statistiką supraskime įprastą paskirstymą.

Normalus skirstinys

Platinimas mums padeda suprasti, kaip skleidžiami mūsų duomenys . Pavyzdžiui, amžiaus grupėje jaunų žmonių gali būti daugiau nei vyresnių suaugusiųjų, taigi mažesnės amžiaus vertės yra daugiau nei didesnės. Bet kaip apibrėžti skirstinį? Apsvarstykite toliau pateiktą pavyzdį

Y ašis rodo tankį. Šio pasiskirstymo būdas yra 30, nes jis yra didžiausias ir todėl dažniausiai. Mes taip pat galime nustatyti medianą. Mediana yra x ašies taške, kur padengta pusė kreivės ploto. Bet kurio normalaus pasiskirstymo plotas yra 1, nes visų įvykių tikimybių suma yra 1. Pavyzdžiui,

Mediana aukščiau nurodytu atveju yra maždaug 4. Tai reiškia, kad plotas po kreive prieš 4 yra toks pat kaip ir po 4. Apsvarstykite kitą pavyzdį

Matome tris normalius skirstinius. Mėlynos ir raudonos spalvos reiškia tą patį. Raudonasis turi didesnę dispersiją. Vadinasi, jis yra labiau išplitęs nei mėlynas. Kadangi plotas turi būti 1, raudonos kreivės smailė yra trumpesnė už mėlyną, kad plotas būtų pastovus.

Tikiuosi, kad supratote pagrindinę statistiką ir įprastus pasiskirstymus. Dabar, šiame straipsnyje apie mašininio mokymosi statistiką, sužinokime apie tiesinę algebrą.

Tiesinė algebra

Šiuolaikinis dirbtinis intelektas nebūtų įmanomas be linijinės algebros. Ji sudaro pagrindą Gilus mokymasis ir buvo naudojamas net tokiuose paprastuose algoritmuose kaip . Nedelsdami pradėkime.

kas yra paketas java

Jūs turite būti susipažinę su vektoriais. Jie yra tam tikri geometriniai vaizdai erdvėje. Pavyzdžiui, vektorius [3,4] turi 3 vienetus išilgai x ašies ir 4 vienetus išilgai y ašies. Apsvarstykite šį vaizdą -

Vektoriaus d1 x ašyje yra 0,707 vienetai, o y ašyje - 0,707 vienetai. Vektorius turi 1 dimensiją. Tai būtinai turi dydį ir kryptį. Pavyzdžiui,

Aukščiau pateiktame paveikslėlyje yra vektorius (4,3). Jo dydis yra 5, o ašies ašimi ji siekia 36,9 laipsnius.

Kas yra matrica? Matrica yra daugialypė skaičių masyvas. Kam jis naudojamas? Pamatysime į priekį. Bet pirmiausia pažiūrėkime, kaip jis naudojamas.

Matrica

Matrica gali turėti daug dimensijų. Panagrinėkime dvimatę matricą. Jame yra eilutės (m) ir stulpeliai (n). Todėl jis turi m * n elementų.

Pavyzdžiui,

Šioje matricoje yra 5 eilutės ir 5 stulpeliai. Pavadinkime tai A. Todėl A (2,3) yra įrašas antroje eilutėje ir trečiame stulpelyje, kuris yra 8.

Dabar, kai žinote, kas yra matrica, leiskite mums pažvelgti į skirtingas matricos operacijas.

Matricos operacijos

Matricų pridėjimas

Dvi matricos tas pats matmenis galima pridėti. Papildymas vyksta elementariai.

Skaliarinis dauginimas

Matricą galima padauginti iš skaliarinio dydžio. Toks dauginimas lemia, kad kiekvienas matricos įrašas padauginamas iš skaliariaus. Skalaras yra tik skaičius

Matricos perkėlimas

Matricos perkėlimas yra paprastas. Matricai A (m, n) tegul A ’yra jos transpozicija. Tada

A '(i, j) = A (j, i)

Pavyzdžiui,

Matricos daugyba

Tai tikriausiai šiek tiek keblu nei kitos operacijos. Prieš pasinerdami į tai, apibrėžkime taškų sandaugą tarp dviejų vektorių.

Apsvarstykite vektorių X = [1,4,6,0] ir vektorių Y = [2,3,4,5]. Tada taškų sandauga tarp X ir Y apibrėžiama kaip

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

yra atomas geras pitonui

Taigi, tai yra elementinis dauginimas ir pridėjimas. Dabar,panagrinėkime dvi matricas A (m, n) ir B (n, k), kur m, n, k yra matmenys ir taigi sveiki skaičiai. Matricos dauginimą apibrėžiame kaip

Pirmiau pateiktame pavyzdyje pirmasis produkto (44) elementas gaunamas iš kairės matricos pirmos eilės taško sandaugos su dešiniojo matricos pirmuoju stulpeliu. Panašiai 72 gaunamas iš kairiosios matricos pirmosios eilės taško sandaugos su dešiniojo matricos antruoju stulpeliu.

Atkreipkite dėmesį, kad kairiosios matricos stulpelių skaičius turėtų būti lygus dešiniojo stulpelio eilučių skaičiui. Mūsų atveju produktas AB yra, bet ne BA, nes m nėra lygus k. Dviejų matricų A (m, n) ir B (n, k) atveju apibrėžtas produktas AB, o produkto matmuo yra (m, k) (išoriniai labiausiai matmenys (m, n), (n, k) )). Bet BA nėra apibrėžta, nebent m = k.

Tuo mes baigėme šį straipsnį apie mašininio mokymosi statistiką. Tikiuosi, kad jūs kai kuriuos supratote apie mašininio mokymosi žargoną. Vis dėlto čia viskas nesibaigia. Norėdami įsitikinti, kad esate pasirengęs pramonei, galite peržiūrėti „Edureka“ kursus apie duomenų mokslą ir dirbtinį intelektą. Jų galima rasti