Kako izboljšati ponovno uporabljivost raziskovalnih podatkov

Piše: Janez Štebe

Naša predstavitev na 11ICSSM: 11TH INTERNATIONAL CONFERENCE ON SOCIAL SCIENCE METHODOLOGY mednarodnega sociološkega združenja  septembra 2025  Neaplju je bila razprava o ukrepih, ki jih za izboljšanje vsestranske uporabnosti podatkov z uvajanjem načel FAIR lahko podvzamemo raziskovalci in podatkovni strokovnjaki v arhivih podatkov. Npr. tako, da sklope podatkov na najpodrobnejši ravni dokumentiramo z vsebinskimi oznakami konceptualnega pomena.

Poleg tega, da tako označene podatke lažje najdemo (F v FAIR – Findable, Najdljiv), s tem izpolnjujemo zlasti I – Interoperabilnostne lastnosti podatkov. Iz seznama kriterijev FAIR so ti:

  •  Podatki zajemajo prikazovanje znanja izraženega v standardnem formatu
  •  Podatki zajemajo strojno-razumljivo prikazovanje znanja
  •  Podatki zajemajo besednjake ki so ustrezni FAIR načelom
  • Podatki vključujejo reference na druge podatke

Prikazovanje znanja (knowledge representation), ki je vsebovano v določenem pomensko določljivem sklopu podatkov , ki je človeško in strojno razumljivo, omogočajo področne ontologije. Ugotavljamo, da iz različnih razlogov v družboslovju ni uveljavljenih in splošno sprejetih ontologij. Eden od problemov je tudi neustaljenost terminologije in sistematične uporabe konceptov ter njihovih ustreznic, kar ovira praktično uporabnost in kumulativnost spoznanj. Ob vedno večjem kopičenju (proliferaciji) podatkov in objavljenih raziskovalnih izsledkov (publikacij) se tudi specialisti za določeno področje ne znajdejo več in ne morejo slediti novostim. Zato se pojavljajo pozivi k gradnji ontologij  za različna področja družboslovja, da bi bilo tovrstnih problemov manj. 

V predstavitvi, ki je bila v sekciji Raziskovalne infrastrukturne podpore za odprto znanost, so bili kot primeri omenjeni še nekateri prijemi in pripomočki za izboljšanje ponovne uporabljivosti podatkov: uvajanje standardne demografije; uporaba ustaljenih oznak za entitete z imeni kot so naselja, ljudje, organizacije; ter vzpostavljanje referenc na konceptualno opredeljene obstoječe merske konstrukte, npr. ustaljene psihološke lestvice v repozitoriju REPOPSI,  ali pa baterije anketnih vprašanj, kakor so zabeležene v zbirkah European Question Bank (EQB) skupaj z oznakami iz besednjaka ELSST.

Označevanje izsekov iz literature in povezava na podrobno raven podatkov ter obratno

Problem lahko zajamemo z naslednjim razmislekom. Koncepti se vsebinsko artikulirajo v znanstveni literaturi. Označevanje  v literaturi predstavljenih rezultatov na poenoten način z v ontologiji vsebovani značnicami olajša iskanje in pregled rezultatov z določenega področja. Nadalje pa je na najnižji ravni granularnosti podatkov podan tudi konstrukt, to je, informacija o tem, kateri segment podatkov je bil uporabljen in na kakšen način.  Po načelu recipročnosti in ekvivalence lahko v tem smislu uporabljenim podatkom pripišemo konceptualno oznako.

Ilustracija navedenega je lahko povezava med konkretnim opisom konstruktov v zbirki APA PsyTes in uporabo v člankih, zajetih v APA PsycArticles, le da tu manjka del navezave na določen segment podatkov in spremljajoče računalniško programje, ki je generiralo rezultate. Rezultate iz literature namreč lahko dodatno nadgradimo s proceduralno informacijo o tem, kako so bili ustvarjeni. Ta korak je najbolje zajet v skupaj z rezultatom deljeni kodi, kar ustreza načelom replikabilnosti. Povezava bi bila informativna tudi v obratni smeri, se pravi, na vso različno literaturo, ki se sklicuje na iste podrobno označene podatke. Tako bi omogočili neposredno primerjavo razultatov, dobljenih na določenih podatkih.

Uporabljeni podatki lahko s svojimi karakteristikami metode (ali gre za eksperiment, etnografsko metodo, anketno ipd.) dodatno osvetlijo poseben pomen koncepta, kolikor je povezan z uporabljeno metodo. Označevanje metod je predmet posebnih nadzorovanih besednjakov,  povezanih s polji za opis podatkov v metapodatkovnem standardu DDI. Vir predstavlja nastavek za ontologijo s področja opisa raziskovalnih podatkov, kjer so poleg vsebinskih lastnosti zabeležene okoliščine nastanka podatkov. Tu so koncepti, povezani s posameznimi polji v strukturi sheme DDI: tip vzorca, enota analize, tip instrumenta…

Je pa s tega vidika zanimiv tudi na isti omenjeni sekciji predstavljen prispevek Marie Carmele Catone, ki iz objavljene literature analitično sintetizira vzorce in skupke pojavljanja vsebinskih oznak. Eden od tako identificiranih skupkov kaže na sovpadanje tematik odprte znanosti s praktičnimi in relevantnimi izzivi družboslovne raziskovalne skupnosti glede uporabe metod in raziskovalnih postopkov, npr. glede kakovosti podatkov, replikabilnosti in kriterijev za ocenjevanje. 

Maria Carmela Catone (Foto: Janez Štebe)

Preizkusi ekvivalence merjenja

Koncepti in z njimi povezani konstrukti in viri podatkov so omenjali tudi na drugih sekcijah konference. Vsemu nismo mogli slediti, ker se jih je veliko odvijalo vporedno. Na sekcij za Mersko ekvivalenco anketnih instrumentov so bili tako prestavljeni uveljavljeni pristopi k potrjevanju in testiranju baterij anketnih vprašanj v mednarodnih anketah kot je Evropska družboslovna anketa (European Social Survey – ESS).  Prisotna je ustaljena terminologija konceptov, čeprav ne brez težav opredeljevanja pojavov kot je populizem, nadalje razdeljenega na anti-alitizem in ljudskost (povzetek, objava). Pri tem primeru vsaj nam bi z nekaj truda uspelo identificirati uporabljene podatke in spremenljivke, čeprav bi bili viri in spremenljivke povezani samo preko imen spremenljivk. Pri ESS npr. hranijo dokumentacijo predlogov vsebinskih modulov, ki vsebujejo tako vsebinsko opredelitev kot operacionalizacijo (npr. Modul 10 glede populizma). Seveda pa že samo testiranje merske ekvivalence izhaja iz domneve, da je kontekst pomemben. V kolikor se izkaže, da je statistično potrjena ekvivalenca konstruktov med državami (strukturna običajno je, skalarna skoraj vedno izostane), lahko zagotavljamo statistično primerljivost analiz.

Primeri uporabe različnih indikatorjev in vrst podatkov

Iz konference v Neaplju (2025) razbiramo resnično raznolikost pristopov k družboslovnim tematikam, tudi če se omejimo samo na merske vidike.

Dostopnost socialne infrastrukture (SI) v mestu kot indikator integracije imigrantov z uporabo prostorskih mer na zemljevidu avtorjev Ricardo Iglesias-Pascual, Raymond Lagonigro in Joan Carles Martori (povzetek). Na isti sekciji (nadnaslovljeni Mesto, ljudje, prostor) so Rosaria Simone, Federico Benassi in Julien Randon-Furling podali predloge za podrobnejše merjenje in ugotavljanje segregacije z uporabo različnih matematičnih in analitičnih orodij, upoštevajo kompleksnosti in pojavljanja na različnih nivojih (povzetek).

Povezava med podatki in koncepti postane kompleksnejša z uporabo obstoječih podatkov v digitalnem okolju, prikazane npr. na Sekciji v torek, ‘The 3 P’s, tools and techniques based on Big Data and Social Network Analysis for measuring political polarization, populism and post-truth in social media’. Začenši s prikazom, kako medijske vsebine in medijska uporaba pri razlikovanju tradicionalnih (TV) in socialnih medijev vodi k polarizaciji med volivci različnih strank in kandidatov v Romuniji. Za našo razpravo je zanimivo, da je prej omenjeni koncept populizma pri predstavitvah v tej sekciji določen z detekcijo določenih vsebin in tudi čustveno obarvanega podajanja v medijskih sporočilih in reakcijah nanje. Dva navedka iz povzetkov na tej sekciji za ilustracijo: Our conceptual framework defines populism as a strategic discourse characterized by anti-elitist rhetoric, an idealized vision of the people, and a commitment to popular sovereignty, requiring at least one of the latter two elements alongside anti-elitism for classification as populist.’ In ‘(…) elements of populist communication, such as appeals to emotions, simplification of complex issues, construction of antagonistic identities (‘us versus them’)’.

Nadaljnje opažanje konferenčnih sekcij lahko izpostavi zelo angažirane pristope uporabe Queer metode, upoštevanje čustev, autoetnografske in druge metode raziskovanja in analize izpostavljajo vlogo raziskovalčeve osebe in skupnosti, posameznikov v kritičnem dialogu, kjer se pomeni (de)konstruirajo, ali pa se pomen spreminja skozi čas in odvisno od različnih kontekstov. Tu so v zvezi z ontologijami verjetno bolj na mestu oznake metod in načinov, zlasti pa pripovedi o tem, kako so določeni pojmi družbeno obremenjeni. Tu tradicionalne kategorije predstavljajo predmet kritike, kakor je tudi samo družboslovno znanje spremenljivo v interakciji z družbenimi inovacijami kot so novi načini komuniciranja in različni raziskovalni pristopi k proučevanju in prikazu vsebin.

Zaključek

Obisk konference v Neaplju je bil tako priložnost za srečanje z italijanskimi kolegi italijanskega arhiva družboslovnih podatkov DASSI, ki je tako kot ADP za Slovenijo izvajalec storitev CESSDA. V pozno popoldanskih urah so bila na sporedu plenarna predavanja uglednih raziskovalcev kot sta Mike Savage in Sophie Woodward, prvi z izpostavljanjem pomena za javnost učinkovitega prikazovanja očitnega, kar raziskovalci razbirajo iz uradnih podatkov o obstoju neenakosti v sodobnih družbah, druga s pozivom gojenju sociološke domišljije, etnološkemu ali, lahko bi rekli tudi, arheološkemu raziskovanju predmetov v vsakdanjem svetu slehernika in spominov, ki jih shranjeni predmeti zbujajo iz pozabe.    


Prejšnji članek

Zaupnost in zaščita podatkov v kvalitativnem raziskovanju

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja