Sumišimo matrica mašininiame mokyme: jūsų vieno langelio sprendimas

Šiame straipsnyje daugiausia dėmesio skiriama painiavos matricai, kuri yra vienas iš svarbiausių bet kurio mašininio mokymosi algoritmo, naudojamo jo tikslumui įvertinti, aspektų.

Į , mes paprastai turime 2 skirtingus naudojimo atvejus, ir problema. „Confusion Matrix“ padeda apskaičiuoti klasifikavimo modelio tikslumą, kuris netiesiogiai padeda apibūdinti klasifikavimo modelio našumą. Tai yra svarbiausias žingsnis vertinant modelį. Šiame straipsnyje aptarsiu šias temas:

1. Kas yra painiavos matrica?





2. Painiavos matricos tikslumas ir komponentai

3. Tikslumas, atšaukimas ir „F-Measure“



4. Sukurti painiavos matricą naudojant „Python“ ir „Sklearn“

Kas yra painiavos matrica?

Sumišimo matrica yra prognozuojamų rezultatų ir faktinių rezultatų palyginimo santrauka bet kuriuo klasifikavimo problemos naudojimo atveju. Palyginimo santrauka yra labai reikalinga norint nustatyti modelio našumą po to, kai jis mokomas naudojant tam tikrus mokymo duomenis. Accuracy-Confusion-MatrixDvejetainės klasifikacijos naudojimo atveju supainiojimo matrica yra 2 × 2 matrica, kuri parodyta žemiau
Numatoma 1 klasės vertė EG: 1 Numatoma 2 klasės vertė EG: 0
Faktinė 1 klasės vertė

EG: 1

TP (tikras teigiamas) FN (klaidingai neigiamas)
Faktinė 2 klasės vertė



EG: 0

FP (klaidingai teigiamas) TN (tikras neigiamas)

Iš aukščiau pateikto paveikslo:
Mes turime,

lentelė, kaip sujungti duomenis
  • Faktinė 1 klasės vertė = 1, panaši į teigiamą vertę dvejetainiu rezultatu.
  • Faktinė 2 klasės vertė = 0, kuri yra panaši į neigiamą dvejetainio rezultato vertę.

Kairiojoje painiavos matricos rodyklėje iš esmės nurodomos faktinės vertės, o viršutiniame stulpelyje - numatomos vertės.

Kuriant painiavos matricą egzistuoja įvairūs komponentai. Komponentai yra paminėti žemiau

Teigiamas (P): Numatomas rezultatas yra teigiamas (pavyzdys: vaizdas yra katė)

Neigiamas (N): numatomas rezultatas yra neigiamas (pavyzdys: vaizdai nėra katė)

Tikras teigiamas (TP): Čia TP iš esmės nurodo numatomą, o faktinės vertės yra 1 (tiesa)

Tikras neigiamas (TN): Čia TN rodo numatomą, o faktinė vertė yra 0 (klaidinga)

Klaidingai neigiamas (FN): Čia FN rodo, kad numatoma vertė yra 0 (neigiama), o faktinė vertė yra 1. Čia abi reikšmės nesutampa. Taigi jis yra klaidingai neigiamas.

Klaidingai teigiamas (FP): Čia FP nurodo, kad numatoma vertė yra 1 (teigiama), o faktinė vertė yra 0. Čia vėlgi abi reikšmės nesutampa. Taigi jis yra klaidingai teigiamas.

Painiavos matricos tikslumas ir komponentai

Sukūrus painiavos matricą ir nustačius visas komponentų reikšmes, mums tampa gana lengva apskaičiuoti tikslumą. Taigi, pažvelkime į komponentus, kad tai geriau suprastume.
  • Klasifikavimo tikslumas

Pagal pirmiau pateiktą formulę TP (tikras teigiamas) ir TN (tikras neigiamas) suma yra teisingi prognozuojami rezultatai. Taigi, norėdami apskaičiuoti tikslumą procentais, mes padalijame su visais kitais komponentais. Tačiau yra keletas tikslumo problemų ir mes negalime nuo to visiškai priklausyti.

Pagalvokime, kad mūsų duomenų rinkinys nėra visiškai disbalansuotas. Šiame scenarijuje 98% tikslumas gali būti geras arba blogas, remiantis problemos teiginiu. Taigi turime dar keletą pagrindinių terminų, kurie padės mums būti tikri dėl apskaičiuoto tikslumo. Sąlygos pateiktos žemiau:

  • TPR (tikras teigiamas rodiklis) arba jautrumas:

Tikrasis teigiamas rodiklis, kuris taip pat žinomas kaip „Jautrumas“, matuoja tikrosios teigiamos vertės procentą, palyginti su visais faktiniais teigiamais rezultatais, nurodytą (TP + FN)

Numatoma 1 klasės vertė EG: 1 Numatoma 2 klasės vertė EG: 0 Iš viso
Faktinė 1 klasės vertė

EG: 1

TP (tikras teigiamas) FN (klaidingai neigiamas) Iš viso faktinių teigiamų rezultatų
Faktinė 2 klasės vertė

EG: 0

FP (klaidingai teigiamas)TN (tikras neigiamas)Iš viso faktinių neigiamų rezultatų
TPR = tikras teigiamas / (tikras teigiamas + klaidingas neigiamas
  • TNR (tikroji neigiama norma) arba specifiškumas:

Tikras neigiamas rodiklis arba specifiškumas matuoja faktinių neigiamų rodiklių dalį, palyginti su bendru neigiamų rodiklių skaičiumi

Numatoma 1 klasės vertė EG: 1 Numatoma 2 klasės vertė EG: 0 Iš viso
Faktinė 1 klasės vertė

EG: 1

TP (tikras teigiamas)FN (klaidingai neigiamas)Iš viso faktinių teigiamų rezultatų
Faktinė 2 klasės vertė

EG: 0

FP (klaidingai teigiamas) TN (tikras neigiamas) Iš viso faktinių neigiamų rezultatų

TNR = tikras neigiamas / (tikras neigiamas + klaidingai teigiamas)

  • Klaidingai teigiamas rodiklis (FPR):

Klaidingai teigiamas procentas yra numatomo klaidingo teigiamo procento (FP) procentas nuo viso numatomų teigiamų rezultatų skaičiaus (TP + FP).

Numatoma 1 klasės vertė EG: 1 Numatoma 2 klasės vertė EG: 0
Faktinė 1 klasės vertė EG: 1 TP (tikras teigiamas) FN (klaidingai neigiamas)
Faktinė 2 klasės vertė EG: 0 FP (klaidingai teigiamas) TN (tikras neigiamas)
Viso numatomo teigiamo rezultato suma Viso numatomo neigiamo sumos suma
FPR = klaidingai teigiamas / (tikras teigiamas + klaidingas teigiamas)
  • Klaidingas neigiamas rodiklis (FNR):

Klaidingai neigiamas rodiklis yra prognozuojamo klaidingo neigiamo (FP) procentas nuo viso numatomų neigiamų rezultatų skaičiaus (TN + FN).

Numatoma 1 klasės vertė EG: 1 Numatoma 2 klasės vertė EG: 0
Faktinė 1 klasės vertė EG: 1TP (tikras teigiamas) FN (klaidingai neigiamas)
Faktinė 2 klasės vertė EG: 0FP (klaidingai teigiamas) TN (tikras neigiamas)
Viso numatomo teigiamo rezultato suma Viso numatomo neigiamo sumos suma
FNR = klaidingas neigiamas / (klaidingas neigiamas + tikras neigiamas)

Tikslumas, atšaukimas ir „F-Measure“

  • Prisiminkite:

Prisiminimas yra panašus į tikrąjį teigiamą rodiklį ir tai yra teisingai prognozuotų teigiamų verčių (TP) bendro skaičiaus ir visų teigiamų verčių santykis.

  • Tikslumas:

Tikslumas iš esmės nurodo visus taškus, kuriuos modelis prognozavo kaip teigiamus, ir kiek procentų jų iš tikrųjų yra teigiami.

kaip padaryti galias java

„Precision“ ir „Recall“ yra metrikos rezultatai, daugiausia dėmesio skiriant teigiamai klasei, kaip parodyta aukščiau pateiktose formulėse.

  • F matas

Taigi „F-Measure“ yra technika, derinanti tiek „Precision“, tiek „Recall“ techniką, ir vietoje įprasto aritmetinio vidurkio naudojama harmoninė vidurkis, dėl kurio baudžiamos kraštutinės vertės. F matas taip pat vadinamas F1 balu ir yra pateiktas pagal šią formulę.

Panagrinėkime pavyzdį ir pažiūrėkime, kaip galime apskaičiuoti tikslumą, tikslumą, atšaukimą ir F1 balą.

N = 165 Numatoma TAIP Prognozuojamas NE
Faktinis TAIP TP = 150 FN = 10
Dabartinis NE FP = 20 TN = 100
    • Tikslumas = (TP + TN) / (TP + TN + FP + FN) = (150 + 100) / (150 + 100 + 20 + 10) = 0,89
    • Prisiminti = TP / (TP + FN) = 150 / (150 + 10) = 0,93
    • Tikslumas: TP / (TP + FP) = 150 / (150 + 20) = 0.88

  • F matas = (2 * Prisiminti * Tikslumas) / (Prisiminti + Presision) = (2 * 0,93 * 0,88) / (0,93 + 0,88) = 0,90

Sukurti painiavos matricą naudojant „Python“ ir „Sklearn“

Dabar pamatysime pavyzdį, kaip mes galime sukurti painiavos matricą naudodami „Python“ kartu su „sklearn“ biblioteka.

vienas. Iš pradžių mes sukursime tam tikrą faktinių duomenų sąrašą ir numatysime tikrinti tikslumą, kaip parodyta žemiau

# Python scenarijus painiavos matricos kūrimui. faktiniai_duomenys = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1,0,1] numatomi duomenys = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1]

2. Turime importuoti painiavos matricą iš „sklearn“ bibliotekos, kaip parodyta žemiau:

iš sklearn.metrics importuoti confusion_matrix

3. Tada sukursime painiavos matricą, kaip parodyta žemiau:

galutiniai_rezultatai = sumišimo_matrica (faktiniai_duomenys, numatomi_duomenys)

Keturi. Dabar galime tęsti ir apskaičiuoti tikslumą importuodami biblioteką, kaip parodyta žemiau:

iš sklearn.metrics importo tikslumo_vartojimo tikslumas = tikslumo_vertas (faktiniai_duomenys, numatomi_duomenys)

5. Galiausiai apskaičiuojame F1 balą arba F matą, kaip parodyta žemiau:

iš sklearn.metrics importuoti klasifikacijos ataskaitos ataskaitą = klasifikacijos ataskaitą (faktiniai duomenys, numatomi duomenys)

Žemiau yra visas kodas:

faktiniai_duomenys = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1,0,1] numatomi duomenys = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1] iš sklearn.metrics importuoti confusion_matrix galutiniai_rezultatai = confusion_matrix (faktiniai_duomenys, prognozuojami_duomenys) spausdinti (final_results) iš sklearn.metrics importuoti tikslumo_score tikslumas = tikslumo_score (faktiniai_duomenys, numatomi_duomenys) iš sklearn.metrics importuoti klasifikacijos_atskaitomybės ataskaita = klasifikacijos_atskaitymas ( faktiniai_duomenys, numatomi_duomenys) spausdinimas (tikslumas) spausdinimas (ataskaita)

matrix

Taigi, tuo mes baigėme šį straipsnį. Tikiuosi, kad visa jūsų painiava dėl painiavos matricos bus išspręsta.

„Edureka“ padeda jums įgyti įvairių mašininio mokymosi algoritmų, tokių kaip regresija, grupavimas, sprendimų medžiai, atsitiktinis miškas, Naivieji Bajesas ir „Q-Learning“, patirtį. Šis mašininis mokymasis naudojant „Python“ mokymą atskleidžia statistikos, laiko eilučių ir skirtingų mašininio mokymosi algoritmų klasių, pvz., Prižiūrimų, neprižiūrimų ir sustiprintų algoritmų, sąvokas. Duomenų mokslo sertifikavimo kurso metu spręsite realaus gyvenimo atvejų analizę žiniasklaidos, sveikatos priežiūros, socialinės žiniasklaidos, aviacijos, personalo srityse.