Keeletehnoloogid üle ilma sõitsid Tartusse

Ülemaailme keeletehnoloogide konverents, mille peateema on mõistelised arvutisõnastikud, on tänavu Tartus. Konverentsi korraldaja ja Eesti Wordneti ehk mõistelise arvutisõnastiku projektijuht Heili Orav näitab Keeleveebist leitavat Eesti Wordneti, mis sisaldab juba 65 500 mõistet. Sama palju mõisteid on veel lisamisel.

FOTO: Margus Ansu

Neljakümne riigi keeletehnoloogid, lingvistid ja informaatikud arutavad Tartus mõisteliste arvutisõnastike ehk wordnet’ide üle. Need on sõnastikud, mis peegeldavad, kuidas sõnad asetsevad meie peas ja kuidas sõnad on omavahel seotud.

Konverentsi korraldaja ja Eesti Wordneti projektijuht Heili Orav rääkis, et eesti keeles ei ole pärast Andrus Saareste 1978. aastal paguluses välja antud mõistelise sõnaraamatu ühtegi  sarnast ilmunud.

See aga ei tähenda, et eestlased oleksid mõisteliste sõnaraamatute loomisel vaeslapse rollis. Pigem tähendab see, et mõisteliste sõnaraamatute paberile trükkimist ei peeta enam otstarbekaks ja käes on arvutisõnastike aeg.

Eesti hoopis esirinnas

Mõisteliste arvutisõnastike koostamisel on Eesti aga esirinnas, kuuludes kaheksa esimese riigi hulka, kes hakkasid sellist tüüpi sõnastikke omavahel ühendama, muutes selle mitmekeelseks keeleressursiks. Kuigi Eesti Wordnet on kasutajatele vabalt kättesaadav juba mitu aastat, lisatakse sinna aina uusi mõisteid.

Mõistelisi arvutisõnastikke eristab teistest sõnastikest see, et sõnade asemel kasutavad nad mõisteid. «Kui me räägime keelest, siis me räägime sõnadest. Kui me räägime mõtlemisest, siis me räägime mõistetest. Keeles on sõnad, peas on mõisted ja need mõisted ei ripu meie peas juhuslikult ja üksinda, vaid on alati teistega seotud,» rääkis Heili Orav.

«Esimene wordnet ehk sõnavõrgustik loodi Ameerikas Princetoni ülikoolis professor George Milleri juhtimisel 1980. aastatel,» lausus Orav. «Kõik sõnad on omavahel assotsiatiivselt seotud. See tähendab, et me jõuame alati ühe sõna või mõiste juurest teise juurde. Kuna Miller tahtis luua mentaalse leksikoni mudelit ja tegi palju uuringuid, sai ta tüüpilisemad seosed välja tuua ja selle põhjal hakkaski ta wordnet’i üles ehitama,» lisas ta.  

Praegu on wordnet’ide olulisemaks rakenduseks sõnatähenduste automaatne kindlakstegemine tekstis. Näiteks peab arvutiprogramm aru saama, et «pank» tähendab mõnes kontekstis finantsasutust ja teises kallast. Kuid wordnet’e saab kasutada ka infootsingusüsteemides, keeleõppeprogrammides ja masintõlkes.

Masintõlge vajab arendamist

Eestikeelset masintõlkeprogrammi masintolge.ut.ee on Tartu ülikoolis arendatud juba viimased seitse aastat.

Erinevalt Google’i tõlkeprogrammist, mis arvestab ainult statistilisi mudeleid, arvestab Tartu ülikooli masintõlge statistika kõrval ka eesti keele reegleid ja tõlgib seetõttu mõnevõrra paremini.

Kuigi kumbki programm ei suuda tekste veel päris täpselt tõlkida, usub Eesti Wordneti projektijuht Heili Orav, et word-net’ide arendamisel ja nende lisamisel tõlkeprogrammidele luuakse peagi ka masintõlkijad, mille tõlkeid pole meil piinlik kasutada.   

Just mõisteliste arvutisõnastike võimalustele ja rakendustele tänavune rahvusvaheline keeletehnoloogide konverents keskendubki.

Kõik keele- ja arvutihuvilised võivad aga homme, 28. jaanuari hommikul kell 9.30 minna Jakobi 2 ringauditooriumisse kuulama Pisa ülikooli professori Ales­sandro Lenci avalikku loengut.

Tagasi üles
Back