Eesti keele elektroonilised ressursid I ja II

oktoober 29, 2007

18.10.2007 Tartu Ülikooli peahoone auditooriumis 139

PILLE ESLON Õppijakeelekorpused ja keeleõpe (vt ettekande slaide)
JAAK VILO Keeletehnoloogia viimine uurimistööst arvutikasutaja teenistusse
KADRI MUISCHNEK Eesti keele elektroonilised tekstikogud (vt ettekande slaide)
MARGIT LANGEMETS EKI elektrooniline keelevara (vt ettekande slaide)

29.10.2007 Tallinnas EKI suures saalis

ASTA ÕIM
Eesti kõnekäändude ja fraseologismide andmebaas: seis ja perspektiivid
LIINA LINDSTRÖM Eesti murrete korpusest (vt ettekande slaide)
ANDRIELA RääBIS Tartu Ülikooli Eesti suulise keele korpus ja dialoogikorpus (vt ettekande slaide)
KÜLLI HABICHT Tartu Ülikooli vana kirjakeele korpus(t)est (vt ettekande slaide)

vt Keel ja Kirjandus 2008, nr 4, lk 305-307

Annika Hussar. “Emakeele Seltsis”. Keel ja Kirjandus, 4, 2008, lk 305—307.

Pille Esloni ettekande teemaks oli „Õppijakeele korpused ja keeleõpe”. Ettekandja andis ülevaate õppijakeele korpustest mujal maailmas ning nende kasutamisest. Lähemalt tutvustas P. Eslon Tallinna ülikooli vahekeele korpust. See on loodud uurimistöö ning eesti keele kui teise keele / võõrkeele õppe eesmärgil. Korpus on praegu vene emakeelega keeleõppijate kirjalike tekstide kogu, mida on kavas täiendada suulise kõne näidetega ning samuti muu emakeelega keeleõppijate keelekasutusnäidetega. Kõneleja rääkis lähemalt tekstide märgendamisest ning sellega seotud vealiikide probleemistikust.

Jaak Vilo ettekande pealkirjaks oli „Keeletehnoloogia viimine uurimistööst arvutikasutaja teenistusse”. Esineja andis ülevaate keeletehnoloogia sihtprogrammist ning selle oodatavatest tulemustest. Keeletehnoloogia raames tuleb tegelda kõnetuvastuse, kõnesünteesi, masintõlke, inimese-masina dialoogisüsteemide, infootsingu lahendustega. Selleks on vajalikud mitmesugused alusuuringud, koostada kirjaliku ja suulise keele korpusi jne, millest kõneleja ka ülevaate andis.

Kadri Muischnek rääkis teemal „Tänapäeva kirjaliku eesti keele korpused Tartu Ülikoolis”. Esineja esitas ideaalina korpust kui polüfunktsionaalset elektroonilisel kujul olevat tekstikogu, millesse kuuluvad tekstid on valitud eesmärgipäraselt, nii et nendest koosnev tervik annaks tõepärase pildi kogu keelest, selle hetkeseisust või muutumisest. Selliseid korpusi on raske koostada, jääb küsimus, kas need annavad ülevaate kogu keelest – mis on neis esindatud, mis jääb kõrvale. 80ndate aastate korpuse koostamispõhimõtted (kirjalikud tekstid, proosa, täiskasvanute kirjutatud tekstid, lugemiseks kirjutatud tekstid jne) tähendavad, et see korpus annab ülevaate eeskätt haritumate keelekasutajate korrigeeritud keelest. Läbilõikekorpus aastatest 1890–1990 on representatiivne sinna valitud tekstiklasside – ajalehetekstide ja ilukirjandustekstide – osas. Eesti keele koondkorpus sisaldab ajalehtede ja ajakirjade tekste, ilukirjandus-, seadus- ja teadustekste, Riigikogu stenogramme, jututubade tekste. Valmiv tasakaalus korpus sisaldab võrdses mahus ajalehe-, ilukirjandus- ja teaduskeelt ning võimaldab võrrelda kirjaliku keelekasutuse kolme tähtsamat tekstiklassi.

Margit Langemets andis ülevaate Eesti Keele Instituudi elektroonilisest keelevarast, selle mitmekülgsusest ning rohketest olemasolevatest ja tulevastest kasutusvõimalustest. Võimaliku esituskujuna nimetas kõneleja e-teksti, digitaalseid helilinte, andmebaase, sõnastikusüsteeme jne. M. Langemets vaatles keelekihiti elektroonilise keelevara kujunemist ja olukorda. Murdeid ja sugulaskeeli on helilindistatud, EKI veebileheküljel saab kasutada sõnastikke, leidub ka e-tekste. Keelenõu andmebaasi põhjal on sündinud avalik, laialt kasutatav keelenõuvakk, kättesaadavad on vajalikud keelehooldeallikad. Loodud on leksikograafi töökeskkonna tuum, sõnastike haldussüsteem EELex.

Asta Õim tutvustas oma ettekandes eesti kõnekäändude ja fraseologismide andmebaasi, selle seisu ja perpektiive. Andmebaas on Interneti-põhine; baas on loodud eri arhiivide materjalide alusel ning esindab põhiliselt vanema keele väljendeid. Andmebaas sisaldab 160 000 kõnekäänukirjet, millest väike osa on suure sagedusega (nt nagu hane selga vesi), suure hulga kohta on aga vaid üks üleskirjutus (nt aeg luubis). Päringuid saab esitada eri sõnade esinemise kohta, tüübi, sisu, aja jms järgi. See võimaldab näiteks jälgida ka väljendite tähenduse muutumist ajas.

Liina Lindström andis ülevaate eesti murrete korpusest. Eesti murrete korpus on sündinud Tartu Ülikooli ja Eesti Keele Instituudi koostöös ning eesmärgiks on teha murdematerjalid uurijale elektrooniliselt kättesaadavaks. Korpus koosneb murdelindistustest, foneetilises ja lihtsustatud transkriptsioonis murdetekstidest, morfoloogiliselt märgendatud tekstidest jne. Tekste on kõigist murretest. Korpusele toetudes saab uurida sagedasi nähtusi, teksti kasutuskontekstis, võrrelda eri murdeid jne.

Andriela Rääbise ettekanne kandis pealkirja „Tartu Ülikooli Eesti suulise keele korpus ja dialoogikorpus”. Suulise keele korpusesse on materjali kogutud 1997. aastast alates. Korpus on liigendatud kolmelt aluselt: argi- ja institutsionaalne suhtlus; dialoogid ja monoloogid; silmast silma, telefoni- ja meediasuhtlus. Korpusesse ei koguta kindlate situatsioonitüüpide materjali, põhiliselt on audiolindistused, videosid on vähe. Tekstid on transkribeeritud, näidatud on mitmesugused suhtlushäälitsused, kõne omadused, pealerääkimised jne. Eesti dialoogikorpus EDiC on loodud kahel eesmärgil: uurida inimestevahelist suhtlust; modelleerida inimese ja arvuti vahelist suhtlust.

Külli Habicht rääkis Tartu Ülikooli vana kirjakeele korpus(t)est. Vanast kirjakeelest on talletatud läbilõige peaaegu 400-aastasest keele- ja kultuuriloost, 16. sajandist 19. sajandi keskpaigani. Vana kirjakeele eripära on teiste uurimisobjektidega võrreldes K. Habichti sõnutsi selle tõlgendamise keerukus ning ainese suur keeleline varieeruvus. Korpus pakub uurimisvõimalusi etümoloogidele, piiblitõlke ajaloo uurijatele, grammatika- ja leksikauurijatele jne. Esialgu on võimalikud päringud vaid märgendamata tekstist, loomisel on päringusüsteem märgendatud tekstist.