Predstavitve


Janez Štebe
Arhiv družboslovnih podatkov

Napredne tehnologije za vzpostavitev raziskovalne podatkovne infrastrukture v Sloveniji

Arhiv družboslovnih podatkov pripravlja v okviru projekta Odprti podatki akcijski načrt za vzpostavitev sistema odprtega dostopa do raziskovalnih podatkov, financiranih z javnimi sredstvi. Na tokratni delavnici, ki je že tretja po vrsti, bodo vabljeni govorci predstavili napredne tehnološke rešitve s področja vzpostavljanja dostopa do podatkov in njihovega izkoriščanja, potenciale GRID-a, semantičnih orodij ... Cilj delavnice je izpostaviti pomen tehnoloških rešitev kot vmesne opreme, ki lahko olajša izmenjavo podatkov med raziskovalci- ustvarjalci podatkov, ponudniki podatkovnih storitev in raziskovalci- uporabniki podatkov. Delavnica je del projekta Odprti podatki, katerega naročnik sta MIZŠ in ARRS. Namenjena je povezovanju in sodelovanju pri iskanju rešitev za vzpostavitev sistema odprtega dostopa do raziskovalnih podatkov.



Milan Ojsteršek
Laboratorij za heterogene računalniške sisteme
Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru

Predstavitev možnosti vključitve raziskovalnih podatkov v nacionalno infrastrukturo odprtega dostopa

Konzorcij štirih univerz izvaja projekt pilotne vzpostavitve nacionalne infrastrukture odprtega dostopa do zaključnih del študija in objav raziskovalcev. Poleg obstoječega repozitorija "Digitalne knjižnice Univerze v Mariboru" bodo vzpostavljeni OpenAIRE kompatibilni repozitoriji univerz v Ljubljani, na Primorskem in v Novi Gorici. Z vzpostavitvijo repozitorijev bomo omogočili zainteresirani javnosti doma in v tujini dostop do intelektualne produkcije štirih univerz. Pilotni nacionalni portal za odprt dostop do celotnih besedil bo za potrebe skupnega iskalnika, priporočilnega sistema in detektorja plagiatov agregiral vsebine iz univerzitetnih repozitorijev in bo v okolju odprtega dostopa v Sloveniji dopolnil že vzpostavljeno nacionalno informacijsko spletno mesto za odprti dostop "openaccess.si". Nacionalni portal in univerzitetni repozitoriji bodo omogočali dostop v slovenskem in angleškem jeziku preko spletnih brskalnikov, prenosnih naprav in mobilnih telefonov. Repozitoriji bodo povezani z evropskim portalom znanstvenih objav (OpenAIRE), zaključnih del študija (DART-Europe) in registri odprtega dostopa (ROAR, OpenDOAR in BASE). Infrastruktura odprtega dostopa bo zaposlenim in študentom sodelujočih univerz omogočala oddajo in objavo njihovih del. Vzpostavljena bo tudi interoperabilnost repozitorijev z informacijskima sistemom COBISS.SI. Pomembna funkcionalnost infrastrukture bo možnost zaznavanja plagiatorstva v slovenskem visokošolskem prostoru, saj bo s sprotnim oddajanjem zaključnih del študija v repozitorije univerz za primerjave na voljo vedno večji korpus besedil. Na predstavitvi bodo predstavljene možnosti vključitve raziskovalnih podatkov v nacionalno infrastrukturo odprtega dostopa.



Branko Čermelj
Nacionalni inštitut za biologijo
Morska biološka postaja Piran

Seadatanet: Upravljanje z oceanografskimi in morskimi podatki v okviru pan-evropske infrastrukture

Vse od leta 2002 (prvotno še kot "Sea Search") upravlja Seadatanet pan-evropsko infrastrukturo z "morskimi" podatki , ki jih trenutno prispeva 83 podatkovnih centrov iz 35 evropskih obalnih držav. V tem obdobju smo razvili skupne standarde, šifrante, formate za meta podatkovno in podatkovno izmenjavo. Postavili smo skupne kataloge/zbirke spremljajočih podatkov "morskih" organizacij (European Directory of Marine Organisations -EDMO) v Evropi, ki sodelujejo v različnih projektih (European Directory of Marine Environmental Research Projects - EDMERP), upravljajo z velikimi podatkovnimi zbirkami (European Directory of Marine Environmental Data sets - EDMED) in pridobivajo podatke z raziskovalnimi plovili (Cruise Summary Reports - CSR) ali opazovalnimi sistemi (European Directory of the initial Ocean-observing Systems - EDIOS) v okviru najrazličnejših programov monitoringa morskega okolja. Partnerji na projektu - nacionalni podatkovni centri za morje (NODC), skrbijo za vnos informacij na nacionalni ravni. Zbirke so sicer samostojne, vendar usklajene med seboj ob uporabi skupne semantike in izdelanih orodij za posodabljanje metapodatkov. Kljub 10 letom ostajajo cilji še vedno enaki: nenehno izboljšanje kvalitete produktov, nadgradnja in usklajevanje z najnovejšimi standardi v evropskem (direktiva INSPIRE) in svetovnem merilu (OGC ISO in W3C standardi) na področju morskih podatkov in oceanografije.



Rok Papež
ARNES

Enotna prijava in napredni avtentikacijski sistemi




Tomaž Erjavec
Odsek za tehnologije znanja
Institut "Jožef Stefan"

Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne infrastrukture

Strežnik nl.ijs.si zagotavlja infrastrukturo za področje jezikovnih virov že skoraj 20 let: pod tem naslovom najdemo vrsto prosto dostopnih jezikovnih korpusov, digitalnih knjižnic in slovarjev za slovenščino, pa tudi za nekatere druge jezike. Namen teh virov je po eni strani ponuditi podatkovne množice za razvoj jezikovnih tehnologij, po drugi strani pa spodbujati razvoj področja digitalne humanistike in jezikoslovja pri nas.
Po kratki predstavitvi vsebine strežnika se v predavanju osredotočimo na odprtokodne rešitve, ki to infrastrukturo omogočajo. Osnovno programsko opremo predstavljajo operacijski sistem Linux, strežnik spletnih dokumentov Apache, programski jezik Perl ter podatkovna baza mySQL. Računalniški zapis zelo raznovrstnih besedil, od slovenskega biografskega leksikona do korpusa tvitov, temelji na XML in drugih standardih W3C oz. ISO, sheme in besedišča oznak pa definirajo priporočila za zapis besedil TEI. Dostopnost do izvornih TEI materialov tipično urejajo licence Creative Commons, za branje oz. pregledovanje pa so ponujeni na več načinov, odvisno od zvrsti besedila. Digitalne knjižnice so statične (in s tem naslovljive) strani HTML, ki so bile avtomatsko pretvorjene iz kanoničnega zapisa v TEI. Digitalne knjižnice, predvsem pa leksikoni in registri, so na voljo tudi pod platformo za delo z vsebinami Fedora Commons, ki omogoča strukturirano iskanje po besedilih in njihovo ustrezno predstavitev na spletu, npr. prikaz faksimilov rokopisov ali geselskih člankov biografskega leksikona. Velike zbirke jezikoslovno označenih besedil, jezikovne korpuse, pa se lahko raziskuje skozi konkordančnike, pri čemer sta na strežniku na voljo dva: CUWI in noSketchEngine.
Vsi podporni programi, kodiranja besedil in programi za dostop do njih kot tudi dostop do materialov v izvornem zapisu TEI temeljijo na ideji odprtosti. Tak pristop ponuja brezplačno programsko opremo, jasen, dobro dokumentiran, od implementacije neodvisen in trajen način zapisa besedil, ter enostavno in predvsem čim širšo nadaljnjo uporabo razvitih (jezikovnih) virov.



Matija Marolt
Laboratorij za računalniško grafiko in multimedije
Fakulteta za računalništvo in informatiko, Univerza v Ljubljani

Iskanje po multimedijskih podatkih: primer na arhivu EtnoMuza

Sodobni arhivi vsebujejo vse večjo količino multimedijskega gradiva v obliki slik, grafik, zvočnih posnetkov in drugih glasbenih predstavitev, videa, animacij in teksta. Gradivo je po naravi bogato z informacijami, ki pa jih pripadajoči metapodatki, po katerih poteka iskanje, navadno le slabo zajamejo. Razvoj tehnik, ki omogočajo avtomatsko izločanje opisov in iskanje po multimedijskih gradivih, je zato ključnega pomena za njihovo dobro razumevanje in uporabnost tovrstnih arhivov. Predstavili bomo kako tovrstne probleme rešujemo v arhivu EtnoMuza Glasbenonarodopisnega inštituta ZRC SAZU. Dotaknili se bomo širšega področja pridobivanja informacij iz glasbe (music information retrieval) in opisali raziskave, ki jih izvajamo s ciljem povečanja dostopnosti podatkov v arhivu.



Jan Jona Javoršek
Institut "Jožef Stefan" in SLING

Slovenska infrastruktura in omrežja evropskega raziskovalnega prostora

Od ustanovitve zavoda ARNES, ki je lani praznoval 20 let, v Sloveniji poteka organiziran razvoj digitalnih omrežij za raziskovanje in razvoj. Vse od prihoda interneta in svetovnega spleta je bila Slovenija v špici evropskih držav na področju uvajanja novih digitalnih tehnologij in mnogokrat se nam je to obrestovalo. V zadnjih letih tako uvajamo nova omrežja in storitve, ki se vključujejo v računalniške platforme evropskega skupnega raziskovalnega prostora.
Na prvem mestu bomo predstavili omrežje za razpršeno obdelavo in hranjenje podatkov grid, njegov ustroj in delovanje. Okrog tega omrežja, ki se preko evropskega omrežja EGI povezuje v 33 držav, na stotine računskih centrov in na milijone računalnikov, je začelo rasti omrežje slovenskih superračunalniških centrov, ki ponujajo poganjanje računskih nalog za obdelavo podatkov, hrambo podatkov in gostovanje aplikacij. Različni načini upravljanja z računalniškimi kapacitetami preko omrežja se hitro razvijajo in v slovenski iniciativi SLING skušamo slovenskim raziskovalcem ponuditi enotno in dostopno platformo za njihove večje računalniške potrebe, ki bi omogočala na enak način upravljati z računskimi nalogami, digitalnimi shrambami dokumentov, podatkovnimi bazami in virtualiziranimi storitvami.
Na obstoječih platformah se hkrati razvijajo različni sistemi za trajno hranjenje in javni dostop do digitalnih podatkov. Ti sistemi so sprva služili predvsem podpori digitalne humanistike, kmalu pa je ostalo jasno, da je treba na enak način obravnavati podatke s področja drugih znanstvenih disciplin, sicer eksperimenti niso ponovljivi in izsledki niso preverljivi. Digitalni arhivi so tako v zadnjih letih dobili priznanje kot eden nujnih stebrov evropske digitalne infrastrukture skupnega raziskovalnega prostora. Prihaja do sinergije med sistemi za hrambo in replikacijo velikih količin podatkov (omrežja grid in superračunalniški podatkovni centri) ter podatkovnimi tehnologijami digitalnih repozitorijev. Sledilo bo nekaj primerov, ki kažejo možnosti enotnega infrastrukturnega omrežja za hrambo in obdelavo odprtih podatkov.