Vreće (agregacija Bootstrapa) - pregled, kako to funkcionira, prednosti

Ansambl strojno učenje može se uglavnom kategorizirati u pakiranje i pojačavanje. Tehnika vrećanja korisna je i za regresiju i za statističku klasifikaciju. Vreće se koristi sa stablima odluka, gdje značajno povećava stabilnost modela u smanjenju varijance i poboljšanju točnosti, što eliminira izazov prekomjerne opreme.

Pakiranje

Slika 1. Protok vreće (Bootstrap Aggregation). Izvor

Spajanje u strojnom učenju ansambla zahtijeva nekoliko slabih modela, prikupljajući predviđanja za odabir najboljeg predviđanja. Slabi modeli specijalizirali su se za zasebne odjeljke prostora značajki, što omogućuje predviđanje utjecaja vreća iz svakog modela da bi postigli krajnju svrhu.

Brzo Su mmary

  • Dvosmjerno povezivanje i pojačavanje dvije su glavne metode strojnog učenja u ansamblu.
  • Vreće je skupna metoda koja se može koristiti u regresiji i klasifikaciji.
  • Poznato je i pod nazivom bootstrap agregacija, koja tvori dvije klasifikacije vreća.

Što je Bootstrapping?

Vreće se sastoji od dva dijela: agregacije i bootstrappinga. Bootstrapping je metoda uzorkovanja, gdje se uzorak odabire iz skupa, primjenom zamjenske metode. Zatim se algoritam učenja pokreće na odabranim uzorcima.

Tehnika bootstrappinga koristi uzorkovanje s zamjenama kako bi postupak odabira bio potpuno slučajan. Kada se odabere uzorak bez zamjene, sljedeći odabir varijabli uvijek ovisi o prethodnim odabirima, pa kriteriji postaju ne slučajni.

Što je agregacija?

Predviđanja modela podvrgavaju se agregaciji kako bi se kombinirala za konačno predviđanje kako bi se razmotrili svi ishodi mogući. Skupljanje se može izvršiti na temelju ukupnog broja ishoda ili na vjerojatnosti predviđanja izvedenih iz pokretanja svakog modela u postupku.

Što je ansambl metoda?

I pakiranje i pojačavanje čine najistaknutije tehnike ansambla. Ansambl metoda je platforma za strojno učenje koja pomaže više modela u treningu korištenjem istog algoritma učenja. Ansambl metoda je sudionik veće skupine multi-klasifikatora.

Multi-klasifikatori su skupina višestrukog učenika koji nailazi na tisuće, sa zajedničkim ciljem koji može spojiti i riješiti zajednički problem. Druga kategorija multi-klasifikatora su hibridne metode. Hibridne metode koriste skup učenika, ali za razliku od multi-klasifikatora, mogu koristiti različite metode učenja.

Učenje se suočava s višestrukim izazovima, poput pogrešaka koje su uglavnom posljedica pristranosti, buke i varijanse. Preciznost i stabilnost strojnog učenja zajamčene su ansambl metodama kao što su pakiranje i pojačavanje. Više kombinacija klasifikatora smanjuje odstupanje, posebno tamo gdje su klasifikatori nestabilni i važni su za predstavljanje pouzdanijih rezultata od pojedinog klasifikatora.

Primjena vreća ili pojačanja zahtijeva prvo odabir osnovnog algoritma za učenike. Na primjer, ako se odabere stablo klasifikacije, pojačavanje i stavljanje u vreće bilo bi skup drveća veličine jednake korisnikovim željama.

Prednosti i nedostaci vrećica

Slučajna šuma Slučajna šuma Slučajna šuma je tehnika koja se koristi za modeliranje predviđanja i analize ponašanja i izgrađena je na stablima odluka. Slučajna šuma sadrži mnoštvo stabala odlučivanja jedan je od najpopularnijih algoritama za vreće. Torbarenje nudi prednost omogućavanja mnogim slabim učenicima da kombiniraju napore kako bi nadmašili jednog jedinog jakog učenika. Također pomaže u smanjenju varijance, stoga uklanjajući prekomjerno prilagođavanje Prekomjerno opremanje izraz je koji se koristi u statistici koji se odnosi na pogrešku u modeliranju koja se javlja kada funkcija preusko odgovara određenom skupu podataka modela u postupku.

Jedan od nedostataka vrećica je što dovodi do gubitka interpretabilnosti modela. Rezultatni model može doživjeti puno pristranosti kada se zanemari odgovarajući postupak. Unatoč tome što su vreće vrlo precizne, računski mogu biti skupe i to u nekim slučajevima može obeshrabriti njegovu upotrebu.

Baging vs. Pojačavanje

Najbolja tehnika koju treba koristiti između pakiranja i pojačanja ovisi o raspoloživim podacima, simulaciji i svim postojećim okolnostima u to vrijeme. Varijansa procjene značajno se smanjuje tehnikama pakiranja i pojačavanja tijekom postupka kombiniranja, čime se povećava točnost. Stoga dobiveni rezultati pokazuju veću stabilnost od pojedinačnih rezultata.

Kada događaj predstavlja izazov slabih performansi, tehnika spakiranja neće rezultirati boljom pristranošću. Međutim, tehnika pojačavanja generira jedinstveni model s manjim pogreškama jer se koncentrira na optimizaciju prednosti i smanjenje nedostataka u jednom modelu.

Kada je izazov u pojedinom modelu prekomjerno opremanje, metoda vrećanja djeluje bolje od tehnike pojačavanja. Pojačanje se suočava s izazovom rukovanja prekomjernim uklapanjem, jer dolazi s prekomjernim uklapanjem samo po sebi.

Povezana čitanja

Finance nudi financijsko modeliranje i vrednovanje analitičara (FMVA) ™ FMVA® certificiranje Pridružite se 350.600+ učenika koji rade u tvrtkama poput Amazona, JP Morgana i Ferrari certifikacijskog programa za one koji žele svoju karijeru podići na višu razinu. Da biste nastavili učiti i razvijati svoju bazu znanja, istražite dodatne relevantne financijske resurse u nastavku:

  • Uzorkovanje klastera Uzorkovanje klastera U statistikama, klaster uzorkovanje je metoda uzorkovanja u kojoj se cijela populacija studije dijeli na vanjske homogene, ali interno
  • Pristrasnost prekomjernog samopouzdanja Prekomjerna pristranost pristranosti prekomjerna je samopouzdanja procjena naših vještina, intelekta ili talenta. Ukratko, egoistično je uvjerenje da smo bolji nego što zapravo jesmo. To može biti opasna pristranost i vrlo je plodno u financiranju ponašanja i tržištima kapitala.
  • Regresijska analiza Regresijska analiza Regresijska analiza skup je statističkih metoda koje se koriste za procjenu odnosa između ovisne varijable i jedne ili više neovisnih varijabli. Može se koristiti za procjenu snage odnosa između varijabli i za modeliranje budućeg odnosa između njih.
  • Analiza podataka vremenskih serija Analiza podataka vremenskih serija Analiza podataka vremenskih serija je analiza skupova podataka koji se mijenjaju u određenom vremenskom razdoblju. Skupovi podataka vremenskih serija bilježe opažanja iste varijable tijekom različitih vremenskih točaka. Financijski analitičari koriste podatke vremenskih serija, poput kretanja cijena dionica ili prodaje tvrtke tijekom vremena