mitä on Ylimitoitus Koneoppimisessa ja miten sitä voi välttää?

Koneoppimismallin rakentamisessa ei ole kyse vain datan syöttämisestä, vaan on paljon puutteita, jotka vaikuttavat minkä tahansa mallin tarkkuuteen. Koneoppimisen ylilyönti on yksi tällainen koneoppimisen puute, joka haittaa mallin tarkkuutta ja suorituskykyä. Tässä artikkelissa käsitellään seuraavia aiheita:

  • mitä on liikakäyttö Koneoppimisessa?
  • Examples Of Overfitting
  • Signal vs Noise
  • What is Underfitting?
  • miten Ylikuntoutuminen havaitaan?
  • miten välttää ylilyöntejä Koneoppimisessa
  • mitä on hyvyys kunnossa?
  • harhan ja varianssin välinen vaihtokauppa

mitä on Ylimitoitus Koneoppimisessa?

tilastollisen mallin sanotaan olevan ylimitoitettu, kun syötämme sille paljon enemmän dataa kuin on tarpeen. Jotta se olisi samaistuttava, kuvittele yrittäväsi mahtua ylisuuriin vaatteisiin.

overfitting in machine learning - edureka

kun malliin mahtuu enemmän dataa kuin se todellisuudessa tarvitsee, se alkaa saada kiinni datan äänekkäitä tietoja ja epätarkkoja arvoja. Tämän seurauksena mallin tehokkuus ja tarkkuus heikkenevät. Tarkastelkaamme muutamia esimerkkejä ylituotannosta ymmärtääksemme, miten se todella tapahtuu.

Examples Of Overfitting

examples of Overfitting

Example 1

Jos otamme esimerkin yksinkertaisesta lineaarisesta regressiosta, tietojen kouluttamisessa on kyse minimikustannusten selvittämisestä parhaan istuvuuden linjan ja datapisteiden välillä. Se käy läpi useita iteraatioita selvittää optimaalinen parhaiten sopiva, minimoimalla kustannukset. Tässä kohtaa kuvaan astuu ylilyönti.

lineaarinen regressio - overfitting in machine learning - edureka

yllä olevassa kuvassa näkyvä viiva voi antaa erittäin tehokkaan lopputuloksen uudelle datapisteelle. Kun kyseessä on overfitting, kun suoritamme koulutusalgoritmin datajoukossa, annamme kustannusten vähentää jokaisen iteraation määrän.

tämän algoritmin käyttäminen liian pitkään tarkoittaa kustannusten alenemista, mutta se sopii myös datajoukon meluisaan dataan. Tulos näyttäisi suunnilleen samalta kuin alla olevassa graafissa.

overfitting in machine learning - edureka

Tämä saattaa näyttää tehokkaalta, mutta ei ole oikeasti. Lineaarisen regression kaltaisen algoritmin päätavoitteena on löytää hallitseva trendi ja sovittaa datapisteet sen mukaisesti. Mutta tässä tapauksessa viiva sopii kaikkiin datapisteisiin, mikä on yhdentekevää mallin tehokkuuden kannalta uusien syöttötietopisteiden optimaalisten tulosten ennustamisessa.

Tarkastellaanpa nyt kuvaavampaa esimerkkiä ongelmalauseen avulla.

Esimerkki 2

Ongelmalauseke: Katsotaanpa haluamme ennustaa, jos jalkapalloilija saa paikan tier 1 jalkapalloseura perustuu hänen/hänen nykyinen suorituskyky tier 2 liiga.

nyt kuvitellaan, treenataan ja sovitellaan mallia, jossa on 10 000 tällaista pelaajaa, joilla on tuloksia. Kun yritämme ennustaa tuloksen alkuperäisillä tiedoilla, sanotaan, että saimme 99% tarkkuuden. Mutta eri tietojen tarkkuus on noin 50 prosenttia. Tämä tarkoittaa sitä, että malli ei yleisty hyvin meidän koulutustietojen ja näkymättömän datan perusteella.

tältä näyttää ylilyönti. Se on hyvin yleinen ongelma Koneoppimisessa ja jopa datatieteessä. Ymmärtäkäämme nyt signaali ja melu.

signaali vs kohina

ennakoivassa mallinnuksessa signaali viittaa todelliseen taustalla olevaan kuvioon, joka auttaa mallia oppimaan tietoja. Toisaalta melu on epäolennaista ja satunnaista dataa aineistossa. Jotta ymmärtäisimme melun ja signaalin käsitteen, ottakaamme tosielämän esimerkki.

olettakaamme, että haluamme mallintaa iän vs lukutaidon aikuisten keskuudessa. Jos otamme hyvin suuren osan väestöstä, löydämme selkeän suhteen. Tämä on signaali, kun taas melu häiritsee signaalia. Jos teemme saman paikalliselle väestölle, suhteesta tulee mutainen. Siihen vaikuttaisivat poikkeamat ja satunnaisuus, sillä esimerkiksi yksi aikuinen meni kouluun aikaisin tai jollain aikuisella ei ollut varaa koulutukseen jne.

puhuessaan melusta ja signaalista koneoppimisen kannalta hyvä koneoppimisen algoritmi erottaa signaalit automaattisesti kohinasta. Jos algoritmi on liian monimutkainen tai tehoton, se voi oppia myös kohinaa. Siksi malli on ylimitoitettu. Ymmärtäkäämme alisuoriutumista myös Koneoppimisessa.

mikä on alivoima?

ylilentojen välttämiseksi harjoittelun voisi lopettaa jo aiemmin. Mutta se voi myös johtaa siihen, että malli ei pysty oppimaan harjoitusdatasta tarpeeksi, että hallitsevan trendin hahmottaminen voi olla vaikeaa. Tätä kutsutaan alisuoriutumiseksi. Tulos on sama kuin ylilyönti, tehottomuus tulosten ennustamisessa.

underfitting - overfitting in machine learning - edureka

nyt kun olemme ymmärtäneet, mitä alifitting ja overfitting in Machine Learning todella on, yrittäkäämme ymmärtää, miten voimme havaita overfittingin Koneoppimisessa.

miten liikakalastus havaitaan?

suurin haaste ylilämmityksessä on arvioida mallimme suorituskyvyn tarkkuutta uusilla tiedoilla. Emme pystyisi arvioimaan tarkkuutta ennen kuin testaisimme sitä.

tämän ongelman ratkaisemiseksi voimme jakaa lähtötiedot erillisiin koulutus-ja testitietoihin. Tällä tekniikalla voimme itse asiassa arvioida, kuinka hyvin mallimme suoriutuu uusilla tiedoilla.

Ymmärtäkäämme tämä esimerkillä, kuvitelkaamme, että saamme 90+ prosentin tarkkuuden harjoitussarjaan ja 50 prosentin tarkkuuden testisarjaan. Silloin se olisi automaattisesti punainen lippu mallille.

toinen tapa havaita ylilyönti on aloittaa pelkistetyllä mallilla, joka toimii vertailukohtana.

tällä lähestymistavalla, jos kokeilet monimutkaisempia algoritmeja, pystyt ymmärtämään, onko ylimääräinen monimutkaisuus edes mallin kannalta kannattavaa vai ei. Se tunnetaan myös nimellä Occamin partahöylätesti, se periaatteessa valitsee pelkistetyn mallin, jos suorituskyky on vertailukelpoinen kahden mallin tapauksessa. Vaikka ylilentojen havaitseminen on hyvä käytäntö, on olemassa useita tekniikoita myös ylilentojen estämiseksi. Katsokaamme, miten voimme estää koneoppimisen liikakäytön.

miten Koneoppimisessa voi välttyä ylilyönneiltä?

alla on lueteltu useita tekniikoita, joilla Koneoppimisessa voidaan välttää ylilyönti.

Ristiinvalidointi

harjoittelu, jossa on enemmän tietoa

poistamalla ominaisuudet

varhainen lopettaminen

järjestely

1. Ristivalidointi

yksi tehokkaimmista ominaisuuksista, joilla voidaan välttää / estää ylilatausta, on ristivalidointi. Ajatuksena on käyttää alustavia harjoitustietoja mini train-test-spagaattien tuottamiseen ja sitten käyttää näitä spagaatteja mallisi virittämiseen.

tavallisessa k-kertaisessa validoinnissa tiedot jaetaan k-osajoukkoihin, joita kutsutaan myös taitoksiksi. Tämän jälkeen algoritmia koulutetaan iteratiivisesti k-1-taitoksilla ja käytetään jäljellä olevia taitoksia testijoukkona, joka tunnetaan myös nimellä holdout fold.

cross-validation - overfitting in machine learning - edurekacross-validation auttaa meitä virittämään hyperparametrit vain alkuperäisellä koulutussarjalla. Se periaatteessa pitää testijoukon erikseen todellisena näkymättömänä tietojoukkona lopullisen mallin valintaa varten. Siksi on vältettävä ylensyömistä kokonaan.

2. Koulutus enemmän tietoa

tämä tekniikka ei välttämättä toimi joka kerta, kuten olemme käsitelleet myös yllä olevassa esimerkissä, jossa koulutus merkittävällä väkimäärällä auttaa mallissa. Se periaatteessa auttaa mallia tunnistamaan signaalin paremmin.

mutta joissain tapauksissa lisääntynyt tieto voi tarkoittaa myös sitä, että malliin syötetään lisää melua. Kun koulutamme mallia enemmän dataa, meidän on varmistettava, että tiedot ovat puhtaita ja vailla satunnaisuutta ja epäjohdonmukaisuuksia.

3. Poistaminen ominaisuudet

vaikka joissakin algoritmeissa on automaattinen valinta ominaisuuksia. Merkittävälle määrälle niistä, joilla ei ole sisäänrakennettua ominaisuusvalintaa, voimme manuaalisesti poistaa syöteominaisuuksista muutaman epäolennaisen ominaisuuden yleistyksen parantamiseksi.

yksi tapa tehdä se on tehdä johtopäätös siitä, miten jokin ominaisuus sopii malliin. Se on melko samanlainen kuin koodin vianetsintä rivi riviltä.

Jos jokin ominaisuus ei pysty selittämään mallin relevanssia, voimme yksinkertaisesti tunnistaa nämä ominaisuudet. Voimme jopa käyttää muutamia ominaisuus valinta heuristics hyvä lähtökohta.

4. Varhainen lopettaminen

kun malli harjoittelee, voidaan itse asiassa mitata, kuinka hyvin malli suoriutuu jokaisen iteraation perusteella. Voimme tehdä tätä, kunnes iteraatiot parantavat mallin suorituskykyä. Tämän jälkeen malli ylittää harjoitustiedot yleistyksen heiketessä jokaisen iteraation jälkeen.

early stopping - overfitting in machine learning - edureka

joten periaatteessa varhainen pysähtyminen tarkoittaa koulutusprosessin pysäyttämistä ennen kuin malli ohittaa pisteen, jossa malli alkaa ylittää koulutustietoja. Tätä tekniikkaa käytetään enimmäkseen syväoppimisessa.

5. Regularisointi

se tarkoittaa käytännössä sitä, että mallisi pakotetaan keinotekoisesti yksinkertaisemmaksi käyttämällä laajempaa tekniikkaa. Se riippuu täysin siitä, millaista oppijaa käytämme. Voimme esimerkiksi karsia päätöspuun, käyttää keskeyttämistä neuroverkossa tai lisätä regressiossa kustannusfunktioon rangaistusparametrin.

melko usein regularisaatio on myös hyperparametri. Se tarkoittaa, että se voidaan virittää myös ristivalvonnan kautta.

6. Ryhmittely

tämä tekniikka käytännössä yhdistää eri Koneoppimismallien ennustuksia. Seuraavassa on lueteltu kaksi yleisintä kokoonpanomenetelmää:

  • Pussitusyritykset, joilla pyritään vähentämään mallien ylikorostumisen mahdollisuutta

  • Tehostamisyritykset yksinkertaisempien mallien ennakoivan joustavuuden parantamiseksi

vaikka ne ovat molemmat yhtyemenetelmiä, lähestymistapa lähtee täysin vastakkaisista suunnista. Pussitus käyttää monimutkaisia perusmalleja ja yrittää tasoittaa niiden ennusteita, kun taas tehostaminen käyttää yksinkertaisia perusmalleja ja pyrkii lisäämään sen kokonaiskompleksisuutta.

mitä on hyvyys kunnossa?

tilastollisessa mallinnuksessa fit: n hyvyydellä tarkoitetaan sitä, kuinka tarkasti tulokset tai ennustetut arvot vastaavat havaittuja tai todellisia arvoja. Malli, joka on oppinut melua sijaan signaali on ylitäytetty, koska se sopii koulutustietojen mutta on huonompi hyötysuhde uuden datan.

Biasin ja varianssin välinen vaihtokauppa

sekä varianssi että bias ovat koneoppimisen ennustevirheen muotoja. Korkean varianssin ja korkean Biasin välinen kompromissi on erittäin tärkeä käsite tilastoissa ja Koneoppimisessa. Tämä on yksi käsite, joka vaikuttaa kaikkiin valvottuihin Koneoppimisalgoritmeihin.

biasvarianssivaihtelulla on erittäin merkittävä vaikutus minkä tahansa Koneoppimismallin monimutkaisuuden, alimitoituksen ja ylimitoituksen määrittämiseen.

harha

se ei ole mitään muuta kuin ennustettujen arvojen ja mallin todellisten tai todellisten arvojen ero. Mallin ei ole aina helppoa oppia melko monimutkaisista signaaleista.

Kuvitellaanpa lineaarisen regression sovittamista malliin, jossa on epälineaarisia tietoja. Vaikka malli oppisi havainnot kuinka tehokkaasti, se ei mallintaa käyriä tehokkaasti. Sitä kutsutaan alisuoriutumiseksi.

varianssi

sillä tarkoitetaan koulutustietojen mallin herkkyyttä tietyille sarjoille. Korkean varianssin algoritmi tuottaa oudon mallin, joka poikkeaa rajusti harjoitussarjasta.

kuvitelkaa rajoittamattomaan ja superjoustavaan malliin sopiva algoritmi, se ottaa myös opikseen liikakiloja aiheuttavasta harjoitusjoukon melusta.

Bias-Varianssivaihtelu

Koneoppimisalgoritmia ei voida pitää kertamenetelmänä mallin kouluttamiseen, vaan se on toistuva prosessi.

Matala varianssi-korkea vinouma-algoritmit ovat yksinkertaisempia ja rakenteeltaan jäykkiä.

  • he kouluttavat malleja, jotka ovat yhdenmukaisia, mutta keskimäärin epätarkkoja.

  • näitä ovat lineaariset tai parametriset algoritmit, kuten regressio, naiivi Bayes jne.

suuri varianssi-matala vinouma-algoritmit ovat yleensä monimutkaisempia, ja niiden rakenne on joustava.

  • he kouluttavat malleja, jotka ovat keskimäärin epäjohdonmukaisia mutta tarkkoja.

  • näitä ovat epälineaariset tai ei-parametriset algoritmit, kuten ratkaisupuut, lähin naapuri jne.

tästä päästään tämän artikkelin loppuun, jossa on opittu ylilyöntejä Koneoppimisessa ja erilaisista tekniikoista sen välttämiseksi. Toivon, että olet selkeä kaikki, mitä on jaettu teille tässä opetusohjelmassa.

Jos pidit tätä artikkelia ”Overfitting in Machine Learning” relevanttina, tutustu Edureka Machine Learning Certification Trainingiin, joka on luotettava verkko-oppimisyritys, jolla on yli 250 000 tyytyväistä opiskelijaa ympäri maailmaa.

olemme täällä auttamassa sinua matkan jokaisessa vaiheessa ja keksimässä opetussuunnitelman, joka on suunniteltu koneoppimisen insinööriksi haluaville opiskelijoille ja ammattilaisille. Kurssi on suunniteltu antamaan sinulle etumatkaa Python-ohjelmointiin ja kouluttaa sinua sekä ydin-että edistyneisiin Python-konsepteihin sekä erilaisiin koneoppimisen algoritmeihin, kuten SVM, Decision Tree jne.

Vastaa

Sähköpostiosoitettasi ei julkaista.