Faktor napuhavanja varijance (VIF) - Pregled, formula, primjene

Faktor varijacije inflacije (VIF) mjeri ozbiljnost multikolinearnosti u regresijskoj analizi. Regresijska analiza Regresijska analiza skup je statističkih metoda korištenih za procjenu odnosa između ovisne varijable i jedne ili više neovisnih varijabli. Može se koristiti za procjenu snage odnosa između varijabli i za modeliranje budućeg odnosa između njih. . To je statistički koncept koji ukazuje na povećanje varijance koeficijenta regresije kao rezultat kolinearnosti.

Faktor napuhavanja varijance

Sažetak

  • Faktor napuhavanja varijance (VIF) koristi se za otkrivanje ozbiljnosti multikolinearnosti u regresijskoj analizi običnog najmanjeg kvadrata (OLS).
  • Multikolinearnost napuhuje varijancu i pogrešku tipa II. Čini koeficijent varijable dosljednim, ali nepouzdanim.
  • VIF mjeri broj napuhanih varijansi uzrokovanih multikolinearnošću.

Faktor varijacije inflacije i multikolinearnost

U uobičajenoj regresijskoj analizi najmanje kvadrata (OLS), multikolinearnost postoji kada su dvije ili više neovisnih varijabli Neovisna varijabla Neovisna varijabla ulaz, pretpostavka ili pokretač koji se mijenja kako bi se procijenio njezin utjecaj na ovisnu varijablu (ishod) . pokazuju linearni odnos među njima. Na primjer, za analizu odnosa veličina i prihoda poduzeća s cijenama dionica u regresijskom modelu, tržišna kapitalizacija i prihodi su neovisne varijable.

Tržišna kapitalizacija tvrtke Tržišna kapitalizacija Tržišna kapitalizacija (tržišna kapitalizacija) najnovija je tržišna vrijednost izdanih dionica tvrtke. Tržišna kapitalizacija jednaka je trenutnoj cijeni dionice pomnoženoj s brojem izdanih dionica. Investicijska zajednica često koristi vrijednost tržišne kapitalizacije za rangiranje tvrtki i njezin ukupni prihod snažno je povezan. Kako tvrtka zarađuje sve veće prihode, ona također raste u veličini. To dovodi do problema multikolinearnosti u OLS regresijskoj analizi. Ako neovisne varijable u regresijskom modelu pokazuju savršeno predvidljiv linearni odnos, to je poznato kao savršena multikolinearnost.

S multikolinearnošću, regresijski koeficijenti i dalje su dosljedni, ali više nisu pouzdani jer su standardne pogreške napuhane. To znači da prediktivna snaga modela nije smanjena, ali koeficijenti možda neće biti statistički značajni s pogreškom tipa II Pogreška tipa II U statističkom testiranju hipoteza, pogreška tipa II je situacija u kojoj test hipoteze ne uspijeva odbiti nultu hipotezu da je lažno. U drugom .

Stoga, ako koeficijenti varijabli nisu pojedinačno značajni - ne mogu se odbiti u t-testu, - ali mogu zajedno objasniti varijansu zavisne varijable odbacivanjem u F-testu i visokim koeficijentom utvrđivanja (R2), multikolinearnost bi mogla postojati. To je jedna od metoda za otkrivanje multikolinearnosti.

VIF je još jedan često korišten alat za otkrivanje postojanja multikolinearnosti u regresionom modelu. Mjeri se koliko je varijansa (ili standardna pogreška) procijenjenog koeficijenta regresije napuhana zbog kolinearnosti.

Upotreba faktora varijance inflacije

VIF se može izračunati prema donjoj formuli:

Faktor napuhavanja varijance - formula

Gdje R i 2 predstavlja neprilagođeni koeficijent determinacije za regresiranje i-te neovisne varijable na preostale. Uzajamnost VIF-a poznata je kao tolerancija . Za otkrivanje multikolinearnosti mogu se koristiti ili VIF ili tolerancija, ovisno o osobnim željama.

Ako je R i 2 jednako 0, varijansu preostalih neovisnih varijabli nije moguće predvidjeti iz i-te neovisne varijable. Stoga, kada je VIF ili tolerancija jednaka 1, i-ta neovisna varijabla nije u korelaciji s preostalim, što znači da u ovom regresijskom modelu ne postoji multikolinearnost. U ovom slučaju, varijansa i-tog koeficijenta regresije nije napuhana.

Općenito, VIF iznad 4 ili tolerancija ispod 0,25 ukazuje na mogućnost postojanja multikolinearnosti, pa je potrebno daljnje istraživanje. Kada je VIF veći od 10 ili je tolerancija manja od 0,1, postoji značajna multikolinearnost koju treba ispraviti.

Međutim, postoje i situacije u kojima se visoki VFI mogu sigurno ignorirati bez patnje od multikolinearnosti. Slijede tri takve situacije:

1. Visoki VIF postoje samo u kontrolnim varijablama, ali ne i u varijablama od interesa. U ovom slučaju, varijable od interesa nisu kolinearne jedna prema drugoj ili kontrolne varijable. Na koeficijente regresije to ne utječe.

2. Kada su visoki VIF uzrokovani kao rezultat uključivanja proizvoda ili moći drugih varijabli, multikolinearnost ne uzrokuje negativne utjecaje. Na primjer, regresijski model uključuje i x i x2 kao svoje neovisne varijable.

3. Kada lažna varijabla koja predstavlja više od dvije kategorije ima visoki VIF, multikolinearnost ne mora nužno postojati. Varijable će uvijek imati visoke VIF-ove ako postoji mali dio slučajeva u kategoriji, bez obzira na to jesu li kategorijske varijable povezane s drugim varijablama.

Ispravak multikolinearnosti

Budući da multikolinearnost napuhava varijancu koeficijenata i uzrokuje pogreške tipa II, bitno je otkriti je i ispraviti. Postoje dva jednostavna i često korištena načina ispravljanja multikolinearnosti, kako su navedeni u nastavku:

1. Prva je uklanjanje jedne (ili više) visoko koreliranih varijabli. Budući da su informacije koje pružaju varijable suvišne, uklanjanjem neće biti znatno narušen koeficijent utvrđenosti.

2. Druga metoda je uporaba analize glavnih komponenata (PCA) ili djelomične najmanje kvadratne regresije (PLS) umjesto OLS regresije. PLS regresija može smanjiti varijable na manji skup bez međusobne korelacije. U PCA se stvaraju nove nekorelirane varijable. Minimizira gubitak informacija i poboljšava predvidljivost modela.

Više resursa

Finance je službeni davatelj usluga globalnog certificiranog bankarskog i kreditnog analitičara (CBCA) ™ CBCA ™ certificiranje Akreditacija certificiranog bankarskog i kreditnog analitičara (CBCA) ™ globalni je standard za kreditne analitičare koji pokriva financije, računovodstvo, kreditnu analizu, analizu novčanog toka , modeliranje saveza, otplata zajma i još mnogo toga. program certificiranja, osmišljen kako bi pomogao svima da postanu financijski analitičari svjetske klase. Da biste nastavili napredovati u karijeri, bit će vam korisni dodatni resursi u nastavku:

  • Osnovni pojmovi o statistici u financijama Osnovni pojmovi o statistici za financije Čvrsto razumijevanje statistike od presudne je važnosti za bolje razumijevanje financija. Štoviše, koncepti statistike mogu pomoći ulagačima u praćenju
  • Metode predviđanja Metode predviđanja Top metode prognoziranja. U ovom ćemo članku objasniti četiri vrste metoda predviđanja prihoda koje financijski analitičari koriste za predviđanje budućih prihoda.
  • Višestruka linearna regresija Višestruka linearna regresija Višestruka linearna regresija odnosi se na statističku tehniku ​​koja se koristi za predviđanje ishoda ovisne varijable na temelju vrijednosti neovisnih varijabli
  • Slučajna varijabla Slučajna varijabla Slučajna varijabla (stohastička varijabla) vrsta je varijable u statistici čije moguće vrijednosti ovise o ishodima određene slučajne pojave