{"id":4063,"date":"2016-02-03T09:53:14","date_gmt":"2016-02-03T08:53:14","guid":{"rendered":"http:\/\/www.adp.fdv.uni-lj.si\/blog\/?p=4063"},"modified":"2017-02-27T12:24:22","modified_gmt":"2017-02-27T11:24:22","slug":"repozitorij-jezikovnih-podatkov-clarin-si","status":"publish","type":"post","link":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/2016\/02\/03\/repozitorij-jezikovnih-podatkov-clarin-si\/","title":{"rendered":"Repozitorij jezikovnih podatkov CLARIN.SI"},"content":{"rendered":"<p>Avtor: Toma\u017e Erjavec<\/p>\n<p>Datum: 3. februar 2016<\/p>\n<p>\u010ce i\u0161\u010demo po registru repozitorijev raziskovalnih podatkov <a href=\"http:\/\/www.re3data.org\/\">re3data.org<\/a>, v njem trenutno najdemo dva slovenska. <a href=\"http:\/\/doi.org\/10.17616\/R3SG7D\">Arhiv dru\u017eboslovnih podatkov<\/a> je bil registriran \u017ee leta 2013, na za\u010detku leta 2016 pa se mu je pridru\u017eila \u0161e infrastruktura CLARIN.SI. V nasprotju z ADP poslanstvo CLARIN.SI niso prete\u017eno numeri\u010dni dru\u017eboslovni podatki, pa\u010d pa jeziko(slo)vni podatki, seveda predvsem o sloven\u0161\u010dini.<\/p>\n<p><a href=\"http:\/\/www.clarin.si\/\">CLARIN.SI<\/a> je od 2015 \u010dlan evropske infrastrukture CLARIN ERIC (Common Language Resources and Technology Infrastructure \/ European Research Infrastructure Consortium), ki zdaj povezuje \u017ee 15 dr\u017eav \u010dlanic. Skoraj vse so \u017ee vzpostavile enega ali ve\u010d nacionalnih repozitorijev. Slovenskemu repozitoriju je januarja 2016 CLARIN ERIC podelil certifikat, za kar je bilo treba izpolniti vrsto administrativnih, proceduralnih in tehni\u010dnih zahtev, kot so eksplicitna politika pridobivanja in distribucije podatkov, podpora razli\u010dnim licencam za distribucijo, sistem stalnih spletnih identifikatorjev za deponirane podatke, podpora prijavi v repozitorij prek infrastrukture za avtentikacijo in avtorizacijo (AAI) itd.<a href=\"http:\/\/www.clarin.si\/ \" target=\"_blank\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright size-medium wp-image-4067\" src=\"http:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-content\/uploads\/2016\/02\/Clarin-SI-logo-300x125.png\" alt=\"Clarin-SI-logo\" width=\"300\" height=\"125\" srcset=\"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-content\/uploads\/2016\/02\/Clarin-SI-logo-300x125.png 300w, https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-content\/uploads\/2016\/02\/Clarin-SI-logo.png 359w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p>V primerjavi z ADP ima CLARIN.SI \u0161e malo vnosov, trenutno nekaj \u010dez 20, vendar so ti tipi\u010dno velike podatkovne mno\u017eice, primerne predvsem za razvoj jezikovnih tehnologij ali raziskovanje slovenskega jezika, pri \u010demer so skoraj v vseh primerih odprto dostopne pod katero izmed licenc Creative Commons. Tako na repozitoriju najdemo korpus ccGigafida, referen\u010dni korpus sloven\u0161\u010dine velikosti sto milijonov besed, oblikoslovni leksikon Sloleks s sto tiso\u010d gesli in skoraj tremi milijoni besednih oblik, korpus starej\u0161e sloven\u0161\u010dine IMP z ve\u010d kot 17 milijoni besed itd. Repozitorij vsebuje tudi vire za druge jezike, npr. ve\u010djezi\u010dne vire MULTEXT-East, ki pokrivajo 16 jezikov (med njimi vse slovanske), in korpus japonskih spletnih strani jpWaC s \u0161tiristo milijoni besed.<\/p>\n<p>Poleg repozitorija ponuja CLARIN.SI tudi spletne servise za raziskovanje ali obdelavo sloven\u0161\u010dine, npr. spletni konkordan\u010dnik za iskanje po korpusih, na katerem je dostopnih ve\u010d kot trideset korpusov. Na\u0161e \u010dlanstvo v CLARIN ERIC je slovenskim raziskovalcem omogo\u010dilo tudi dostop do vsebin repozitorijev in spletnih storitev vseh drugih centrov CLARIN po Evropi. Svoj dele\u017e k uresni\u010ditvi vizije vseevropske raziskovalne infrastrukture bomo prispevali tudi tako, da se bomo vklju\u010devali v razvoj teh storitev s prispevanjem modulov za delo s slovenskimi besedili.<\/p>\n<p>CLARIN.SI je organiziran kot konzorcij z <a href=\"http:\/\/www.clarin.si\/info\/o-projektu\/partnerji\/\">dvanajstimi partnerji<\/a>, ki ga sestavljajo vse \u0161tiri slovenske univerze, trije raziskovalni in\u0161tituti, dve podjetji, dve dru\u0161tvi in en javni zavod. Nosilec infrastrukture je Institut \u00bbJo\u017eef Stefan\u00ab, kjer pri vzdr\u017eevanju in razvoju infrastrukture sodelujejo <a href=\"http:\/\/kt.ijs.si\/\">Odsek za tehnologije znanja<\/a>, <a href=\"http:\/\/ailab.ijs.si\/\">Laboratorij za umetno inteligenco<\/a> in <a href=\"https:\/\/www.ijs.si\/ijsw\/Center%20za%20mre%C5%BEno%20infrastrukturo\">Center za mre\u017eno infrastrukturo<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>CLARIN.SI je podatkovna infrastruktura, ki doma\u010dim in tujim raziskovalcem omogo\u010da dostop do slovenskih podatkovnih virov. Raziskovalni skupnosti so na voljo jeziko(slo)vni podatki, seveda predvsem o sloven\u0161\u010dini. Ve\u010d o CLARIN.SI v nadaljevanju pi\u0161e Toma\u017e Erjavec. <\/p>\n","protected":false},"author":1,"featured_media":4067,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[15,1],"tags":[88,58,13,12],"class_list":["post-4063","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog","category-neuvrsceni","tag-clarin","tag-odprti-dostop","tag-odprti-podatki","tag-podatki"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/posts\/4063","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/comments?post=4063"}],"version-history":[{"count":7,"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/posts\/4063\/revisions"}],"predecessor-version":[{"id":4524,"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/posts\/4063\/revisions\/4524"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/media\/4067"}],"wp:attachment":[{"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/media?parent=4063"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/categories?post=4063"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.adp.fdv.uni-lj.si\/blog\/wp-json\/wp\/v2\/tags?post=4063"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}