Repozitorij jezikovnih podatkov CLARIN.SI

Avtor: Tomaž Erjavec

Datum: 3. februar 2016

Če iščemo po registru repozitorijev raziskovalnih podatkov re3data.org, v njem trenutno najdemo dva slovenska. Arhiv družboslovnih podatkov je bil registriran že leta 2013, na začetku leta 2016 pa se mu je pridružila še infrastruktura CLARIN.SI. V nasprotju z ADP poslanstvo CLARIN.SI niso pretežno numerični družboslovni podatki, pač pa jeziko(slo)vni podatki, seveda predvsem o slovenščini.

CLARIN.SI je od 2015 član evropske infrastrukture CLARIN ERIC (Common Language Resources and Technology Infrastructure / European Research Infrastructure Consortium), ki zdaj povezuje že 15 držav članic. Skoraj vse so že vzpostavile enega ali več nacionalnih repozitorijev. Slovenskemu repozitoriju je januarja 2016 CLARIN ERIC podelil certifikat, za kar je bilo treba izpolniti vrsto administrativnih, proceduralnih in tehničnih zahtev, kot so eksplicitna politika pridobivanja in distribucije podatkov, podpora različnim licencam za distribucijo, sistem stalnih spletnih identifikatorjev za deponirane podatke, podpora prijavi v repozitorij prek infrastrukture za avtentikacijo in avtorizacijo (AAI) itd.Clarin-SI-logo

V primerjavi z ADP ima CLARIN.SI še malo vnosov, trenutno nekaj čez 20, vendar so ti tipično velike podatkovne množice, primerne predvsem za razvoj jezikovnih tehnologij ali raziskovanje slovenskega jezika, pri čemer so skoraj v vseh primerih odprto dostopne pod katero izmed licenc Creative Commons. Tako na repozitoriju najdemo korpus ccGigafida, referenčni korpus slovenščine velikosti sto milijonov besed, oblikoslovni leksikon Sloleks s sto tisoč gesli in skoraj tremi milijoni besednih oblik, korpus starejše slovenščine IMP z več kot 17 milijoni besed itd. Repozitorij vsebuje tudi vire za druge jezike, npr. večjezične vire MULTEXT-East, ki pokrivajo 16 jezikov (med njimi vse slovanske), in korpus japonskih spletnih strani jpWaC s štiristo milijoni besed.

Poleg repozitorija ponuja CLARIN.SI tudi spletne servise za raziskovanje ali obdelavo slovenščine, npr. spletni konkordančnik za iskanje po korpusih, na katerem je dostopnih več kot trideset korpusov. Naše članstvo v CLARIN ERIC je slovenskim raziskovalcem omogočilo tudi dostop do vsebin repozitorijev in spletnih storitev vseh drugih centrov CLARIN po Evropi. Svoj delež k uresničitvi vizije vseevropske raziskovalne infrastrukture bomo prispevali tudi tako, da se bomo vključevali v razvoj teh storitev s prispevanjem modulov za delo s slovenskimi besedili.

CLARIN.SI je organiziran kot konzorcij z dvanajstimi partnerji, ki ga sestavljajo vse štiri slovenske univerze, trije raziskovalni inštituti, dve podjetji, dve društvi in en javni zavod. Nosilec infrastrukture je Institut »Jožef Stefan«, kjer pri vzdrževanju in razvoju infrastrukture sodelujejo Odsek za tehnologije znanja, Laboratorij za umetno inteligenco in Center za mrežno infrastrukturo.

Prejšnji članek

Delavnica o ravnanju z raziskovalnimi podatki in odprtem dostopu

Naslednji članek

Sestanek projekta CESSDA SaW WP3 v Ljubljani

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja