Vzorčenje, uteževanje in ocenjevanje v anketni metodologiji

Stefan Zins in Matthias Sand (foto: Irena Vipavc Brvar)

V ponedeljek in torek, 24. in 25. aprila 2017, je v okviru projekta SERISS na Fakulteti za družbene vede potekalo usposabljanje na temo vzorčenja, uteževanja in ocenjevanja v anketni metodologij (SERISS training course “Sampling, Weighting and Estimation in Survey Methodology), ki sva se ga iz ADP udeležili Ana Slavec in Irena Vipavc Brvar. Predavala sta nam Stefan Zins in Matthias Sand z inštituta GESIS v Nemčiji.

Dogodek je bil razdeljen na pradavanja in vaje. Prvi dan sta se odvili predavanji Uvod v sklepanje na podlagi vzorcev (Introduction to design based inference) in Kompleksno vzorčenje (Complex sampling designs). Predavatelja sta predstavila koncept reprezentativnega vzorčenja (representative sampling), kar pomeni, da vzorec čim bolje predstavlja proučevano populacijo, kar je predpogoj za točne analize. Najpreprostejše je enostavno slučajno vzorčenje (SRS – simple random sampling), vendar se v praksi pogosteje uporabljajo kompleksnejši vzorčni načrti, kot so stratificirano vzročenje (stratified sampling), vzorčenje v skupinah (cluster sampling) in večstopenjsko vzorčenje (multistage sampling), ki imajo določene prednosti: s stratifikacijo zmanjšamo varianco in izboljšamo reprezentativnost, z vzročenjem v skupinah pa znižamo stroške. Vendar uporaba kompleksnejših vzorčnih načrtov povzroči določen vzorčni učinek (deff – design effect), ki ga izračunamo kot kvocient variance izbranega vzorčnega načrta in variance ob predpostavki enostavnega slučajnega vzorčenja. Uporablja se za primerjavo natančnosti cenilk, pri čemer njegova vrednost izraža izboljšanje (manjša od 1) oziroma  poslabšanje (večja od 1) natančnosti vzorčnega načrta v primerjavi z enostavnim slučajnim vzorcem (SRS).

Večstopenjsko vzorčenje je pogosto v velikih mednarodnih študijah, kot je Evropska družboslovna raziskava (ESS), ki smo jo uporabili v okviru vaj, kjer smo z R paketom “Survey” analizirali podatke za Švedsko za leto 2010. Na koncu prvega dne smo izvedli Vajo 1: Uvod v analizo vzorčnih anket s programom R (Introduction to the Analysis of Sample Surveys with R).

Drugi dan usposabljanja smo poslušali predavanje o kalibracijskih utežeh (Calibration weights). Uvodoma je bil predstavljen koncept anketne napake (survey error), pri katerem smo se osredotočili predvsem na napako neodgovora (nonresponse). Manjkajoče podatke (missing data) se obravnava bodisi s postopki uteževanja (weighting procedures), s katerimi vzorčne uteži prilagodimo tako, da kompenzirajo pristranskost bodisi s postopki imputacije, ki je lahko enojna (single imputation) ali multipla (multiple imputation). V predavanju smo se osredotočili predvsem na uteževanje. Podatki lahko manjkajo popolnoma naključno (MCAR – missing completely at random), naključno (MAR – missing at random) ali nenaključno (MNAR – missing not at random). Najpogosteje predpostavimo popolno naključnost.

V nadaljevanju so bili predstavljeni trije postopki uteževanja: post-stratifikacija, raking in kalibracija z GREG (General Regression Estimator) cenilko. Post-stratifikacijo uporabljamo, če imamo kategorične kontrolne spremenljivke in popolno kontrolno tabelo za vse kategorije vseh spremenljivk za uteževanje. Pri rakingu potrebujemo manj podatkov, saj zadostujejo le robne frekvence in ne popolna tabela. Pri GREG kalibraciji pa gre za posplošitev post-stratifikacije in rakinga s kalibracijo vzorca glede na robne frekvence spremenljivk v linearnem regresijskem modelu.

Sledili sta dve vaji. V okviru Vaje 2 smo poiskali ESS podatke za Švedsko in Dansko (2010) ter primerjali porazdelitvi spremenljivke gledanje televizije v obeh državah ter ocenili skupino porazdelitev obeh držav, v Vaji 3 pa smo na podatkih za Nemčijo (2010) ocenili vzorčni učinek cenilke za večstopenjsko vzorčenje.

Dogodka se je udeležilo 25 udeležencev iz različnih evropskih držav, ki pri svojem delu uporabljajo podatke in že imajo določeno predznanje s področja statistike. Usposabljanje je namreč presegalo začetniško stopnjo in zahtevalo tudi predznanje uporabe statističnega programa R. Dogodek je bil koristen za tiste, ki so se želeli naučiti oziroma nadgraditi svoje znanje o vzorčenju in uteževanju. Kakovosten vzorčni načrt je namreč bistveni element vsake kvantitativne raziskave, uteževanje pa je postopek, s katerim lahko po zbiranju podatkov kompenziramo določene vrste anketnih napak.

V ADP se zaposleni stalno metodološko izobražujemo, da znamo bolje svetovati tako raziskovalcem, ki predajajo raziskovalna gradiva, kot tudi uporabnikom podatkov ADP. Način vzorčenja in uporaba uteži sta pomembna metapodatka, ki ju zbiramo ob prevzemu raziskave in sta vključena v opis raziskave, ki je objavljen na spletu.

Prejšnji članek

Srečanje CESSDA SaW v Lizboni

Naslednji članek

Ustvarjanje in uporaba jezikovnih virov z družbenih omrežij

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja