Skip to footer
Päevatoimetaja:
Jüri Saar
+372 739 0358
Saada vihje

Tehisintellekt aitab rahvusarhiivis vanu dokumente lahti harutada

Perelooliste andmete uurijad rõõmustavad kindlasti õigeusu koguduste sünnimeetrikate masinloetavale kujule jõudmise üle, usub rahvusarhiivi Tartu kasutusosakonna asejuhataja Sven Lepa.

Arhiivisügavustes on peidus palju põnevat, milleni pole alati lihtne jõuda. Tõsi, digimine on materjalides tuhnimise palju lihtsamaks muutnud.

Eile avaldas rahvusarhiiv oma veebilehel aga otsingumootori, mis juhatab huvilise just selle infokilluni, mida tal parasjagu vaja on, ilma et peaks selle leidmiseks kogu materjali otsast lõpuni läbi lugema. Piisab vaid otsingusõna sisestamisest.

Kolm allikakogu

Selliselt töödeldavaks on saanud kolm suuremahulist allikakogu: Tartu linnavolikogu protokollid ajavahemikust 1902 –1940, õigeusu koguduste sünnimeetrikad aastaist 1838–1917 ja rootsiaegsed Eestimaa kindralkubernerile saadetud kaebekirjad 17. sajandist.

«Tere tulemast rahvusarhiivi kogude täistekstotsingusse! Siit lehelt leiad allikakogusid, mille sisu on automaatselt tuvastatud Transkribuse-nimelise tarkvara abil,» seisab rahvusarhiivi veebilehel. See Austrias Innsbrucki ülikoolis loodud tarkvara võimaldab igaühel arvutit käsikirjalisi dokumente «lugema õpetada».

See tähendab seda, et kõigepealt on vaja arvutile ette anda piisavas koguses korrektselt lahti kirjutatud teksti, mille põhjal suudab tarkvara juba ka käsikirjalist materjali tuvastada. Rahvusarhiivis on sellega tegeletud oma neli aastat.

Oma pere- ja koduloo uurijaid on palju, aga neid, kes kahe sajandi tagust kirillitsat lugeda mõistaks, ilmselt hulgi ei ole.

Tulemus on täitsa korralik, ütles rahvusarhiivi Tartu kasutusosakonna asejuhataja Sven Lepa. «Mingid vead jäävad sisse, seda me endale teadvustame, aga aja jooksul saab ka neid parandada.» Kui on valida, kas tekst pole üldse leitav või tuleb ikka enam-vähem sõnaga otsides välja, on etem kindlasti see teine variant, lisas ta.

Lepa usub, et enim hakkavad inimestele huvi pakkuma õigeusu sünnimeetrikad – kogud, kuhu kanti kõigi koguduses ristitud laste nimed ja ka need, kes täiskasvanueas usku vahetasid. Oma pere- ja koduloo uurijaid on palju, aga neid, kes kahe sajandi tagust kirillitsat lugeda mõistaks, ilmselt hulgi ei ole.

Ka Tartu linnavolikogu protokollidest võiksid paljud huvituda. Teada saab kasvõi linna ajaloost, sellest, kuidas tänavaid ümber nimetati, uusi linnaosi loodi või mida teha taheti, aga elluviimata jäi. 1923. aasta protokollidest tuleb muu hulgas välja, et Kuperjanovi tänav taheti esialgu nimetada Kuperjaani tänavaks, see oleks olnud eestipärasem.

«1918. aasta dokumendist loeme, et üks linnavolikogu koosolek katkes järsku, sest Tartusse ilmus Saksa sõjavägi ning linnavolikogu läks seda tervitama,» tõi Lepa näite.

Hõlbustab uurimist

Seda, kuidas arvuti kultuuripärandist teksti eristamisega hakkama saab, ei mõista Lepa isegi täielikult. Tehisintellekt on tema jaoks pisut kui maagia.

See maagia aga lihtsustab oluliselt Eesti ajaloo ja kultuuri uurimist laiemalt, ütles Tallinna ülikooli meediainnovatsiooni professor Indrek Ibrus. «Inimese jaoks on tõlgendamine ja välja lugemine ikka väga vaevarikas töö,» lausus ta.

Siiski jääb tehisintellekt veel inimesele alla. Või siis mitte? «Ei pruugi,» arvas Ibrus. «Oskuslik arhiivitöötaja on võib-olla sama võimekas kui tehisintellekt, aga tavainimene jääb sellele juba alla.»

Kogude täistekstotsing on huvilistele kättesaadav rahvusarhiivi veebilehel www.ra.ee/transkribus.

Kommentaarid
Tagasi üles