Prevod tezavra ELSST v slovenščino

Tezaver ELSST danes obsega več kot 3300 ključnih besed s področja družboslovja. Zasnovali so ga leta 2000 v okviru projekta LIMBER, v katerem je sodelovalo pet nacionalnih arhivov družboslovnih podatkov iz Velike Britanije, Nemčije, Grčije, Francije in Norveške.

Izvorno je tezaver obsegal nabor angleških besed, sčasoma pa so ga prevedli v vse več evropskih jezikov. Septembra 2017 smo kot trinajsti jezik dodali  slovenščino (Translating ELSST into Slovenian).

Prevod smo pripravili v Arhivu družboslovnih podatkov v sodelovanju s Centrom za jezikovne vire in tehnologije Univerze v Ljubljani, ki je del slovenske raziskovalne infrastrukture za jezikovne vire in tehnologije CLARIN.SI. V prvem koraku so strokovnjaki za jezikovne tehnologije pripravili avtomatiziran prevod terminov. V naslednjem koraku smo nato sodelavci ADP ročno pregledali pripravljene prevode in izbrali najustreznejše, pri čemer so se posvetovali tako z jezikoslovci kot z raziskovalci, področnimi strokovnjaki.

Prevajalski projekt smo pričeli z identificiranjem prevajalskih virov, ki so jih nato jezikovni tehnologi uporabili v procesu avtomatiziranega prevoda. Uporabili smo naslednje vire: Veliki angleško-slovenski slovar; IATE – večjezična terminološka zbirka EU; Evroterm – večjezična terminološka zbirka; seznam slovensko-angleških ključnih besed, ki ga je pripravila Osrednja družboslovna knjižnica Jožeta Goričarja, EuroVoc – večjezični tezaver Evropske unije in standardne klasifikacije Statističnega urada Republike Slovenije.

Pred pričetkom prevajanja smo morali vse zbrane termine in prevode iz različnih virov uskladiti. Termini v tezavru ELSST so zapisani z velikimi črkami in pogosto v množinski obliki – to odločitev je sprejela ekipa, ki je izdelala izvorno angleško slovarsko bazo. Priprava je tako vključevala zapis prevodov iz vseh virov z velikimi črkami in odločanje, kdaj pri slovenskih prevodih uporabiti edninsko ali množinsko obliko.

Rezultat avtomatizirane prve faze prevajanja je bil najmanj en prevod za vsak posamezni termin, pri čemer smo razlikovali med polnimi in sestavljenimi prevodi. Avtomatsko orodje je v prevajalskih virih poiskalo enega ali več prevodov za iskane termine. V primeru večbesednih terminov je orodje termin razdelilo na besede oziroma sklope besed, nato pa za vsak posamezen del poiskalo prevod. Prevodi po delih so bili nato združeni v sestavljen prevod termina.

Beseda well-being iz tezarva ELSST (Vir: elsst.ukdataservice.ac.uk)

Postopek prevajanja je pri sestavljenih prevodih bolj zapleten in vključuje zaporedje algoritmov, ki nato privedejo do končne prevajalske rešitve. Večbesednega termina namreč ni smiselno zgolj razbiti na posamezne besede, ki ga sestavljajo, temveč je v izhodišču ideja, da najdemo najdaljši (več)besedni del termina, za katerega lahko dobimo polni prevod. Pri tem je treba upoštevati še morebitne razlike v edninskih in množinskih oblikah ter pri prevodu poskrbeti za ustrezno slovnično obliko (ujemanje pridevnikov in samostalnikov).

Ob koncu avtomatskega prevajalskega postopka je vsak termin iz angleškega tezavra vključeval najmanj en slovenski prevod, večinoma pa več prevodov, ter oznako, iz katerega prevajalskega vira prevod prihaja. V naslednjem koraku smo v ADP pregledali vse avtomatsko pripravljene prevode in za vsak termin izbrali najustreznejšega. Postopek pregleda, preverjanja in morebitnega urejanja oziroma popravljanja je potekal ročno. Vključeval je pet nalog:

  • izbor najustreznejše možnosti prevoda za posamezni termin izmed predlaganih;
  • preverjanje in izbor terminov s potencialno problematičnimi prevodi (npr. več možnih izbir prevoda, manjkajoči ustrezni prevod);
  • pri odločitvi za ustrezen prevod smo si pomagali še s t.i. »Scope notes«, s katerimi ELSST dodatno pojasni pomen posameznega termina;
  • posvetovanje s strokovnjaki na posameznih raziskovalnih področjih, kjer so bili zaznani potencialno problematični prevodi;
  • posvetovanje s strokovnjakinjo za terminologijo korpusno jezikoslovje;
  • potrjevanje končnega seznama prevodov.

Pol-avtomatizirani prevod tezavra ELSST v slovenščino je prvi primer takega pristopa k prevodu in predstavlja novost v projektni skupini ELSST, ki deluje v okviru konzorcija evropskih družboslovnih arhivov CESSDA.

V ADP smo si prizadevali, da bi v sodelovanju s CLARIN.SI pripravili čim boljši prevod tezavra v slovenski jezik, obenem pa smo kot eden manjših arhivov tak pristop izbrali tudi zaradi omejenih kadrovskih kapacitet.

 

Prejšnji članek

S knjižničarji o novem spletnem učbeniku na temo NRRP

Naslednji članek

Predstavitev knjige Societal Enlightenment in Turbulent Times

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja