Inimene või masin? Mida WMT25 (masintõlke konverentsi) raport tegelikult ütleb?
Osalesime väga huvitavas keeleprojektis, kus hinnati 30 keelepaari tõlkekvaliteeti. Tõlked olid tehtud nii inimeste kui AI poolt. Meie Luisas hindasime inglise-eesti keelesuuna tõlkeid ja tegime ka lisaks tõlkeid, mida omakorda hindas AI.
Kui vajad tõlketeenust, on kõige segasem küsimus, kas piisab masintõlkest või peaks tellima inimtõlke?
WMT25 (masintõlke konverentsi) raport aitab sellele päris ausalt vastata, sest tõlkeid testiti keerulisemates oludes kui varem ja neid hindasid professionaalsete tõlkijad ja toimetajad.

Mis see WMT25 test üldse oli ja miks peaks see sind huvitama?
- Testiti 30 keelepaari, neist umbes poolele tehti inimhindamine.
- Tekstid ei olnud ilusad üksiklaused, vaid pigem terved tekstid otse elust:
- uudised (inglise keele puhul isegi arvamuslood, et oleks raskem),
- sotsiaalmeedia lõimed (Mastodon),
- kõne (YouTube + automaatne kõnetuvastus/ASR),
- ilukirjandus,
- haridustekstid,
- dialoogid (rõhk sugu/viisakus, sidusus).
- NB! Testimisekse ei võetud suvalisi tekste, vaid valiti teadlikult raskemad, kasutades allikateksti-põhist raskusastme ennustajat sentinel-src-25 (nn difficulty sampling, lähedane quality prediction without reference ideele), et masintõlke süsteeme korralikult proovile panna.
Mida see sinu jaoks tähendab? Kui mõni teenusepakkuja ütleb, et „meie masintõlge on juba peaaegu inimtõlkega samal tasemel”, siis WMT25 näitab, et see võib olla tõsi mõnes olukorras, kuid mitte alati.
Kuidas hinnati? Masin vs inimene
1) Inimhindamine (mida peetakse standardiks)
Enamikus suundades kasutati ESA-protokolli:
- professionaalsed tõlkijad märgivad vead (väike/suur)
- ja annavad tõlkele skoori 0–100 (tavaliselt lõigu kohta).
Kahel suunal kasutati MQM-i (veel detailsem veakategooriate süsteem).
2) Automaatne hindamine (kiire, kuid võib eksida)
Enne inimhindamist tehti automaatne järjestus mitme mõõdikuga (nt MetricX, XCOMET, CometKiwi, GEMBA-ESA kui „LLM kohtunik”).
Raport hoiatab selgelt – automaatne järjestus ei kattunud alati inimeste hinnanguga! Mõõdikud võivad olla kallutatud ja treenitavad (mudel võib õppida mõõdikule meeldima).
Tavaline järeldus: kui teenusepakkuja põhjendab kvaliteeti ainult ühe automaatnumbriga, ei ole see piisav.
Suur pilt tulemustest ilma liigse tehnoloogiakeeleta
Tippmudelid on väga head, kuid kindlat võitu ei ole
- Raport ütleb, et parim süsteem inimeste hinnangul (Gemini 2.5 Pro) oli tipptasemel 14/16 hinnatud suunal.
- Samal ajal inimtõlge ei olnud automaatselt alati parim – inimeste tehtud tõlge oli tipptasemel vaid 6/15 (juhul, kus inimtõlge üldse olemas oli).
Inimtõlge võib sisaldada väga erinevaid nüansse – tõlkija kogemus, toimetamine, kontekst, kvaliteedikontroll. WMT raport toob esile, et isegi professionaalsed tõlked võivad sisaldada vigu ja need ei pruugi olla võrreldavad kõrgeima panusega ehk “avaldamiseks valmis” tõlkega, milles osaleb mitmeid inimspetsialiste (üks või enam tõlkijat, 1 või enam keeletoimetajat, termininõustaja, väljastuskontrolli tegija jms).
Kõige riskantsem valdkond oli kõne/ASR
Kõne tõlkimine oli kõige raskem (ASR vigu ja kõnekeelsust on palju).
Tõlge audio/transkripti pealt, kus masin teeb küll kiirelt, kuid võib tähendada ka, et masin paneb sisuliselt mööda.
Keelepaarid, kus inimene oli selgelt masinast parem (WMT25 järgi)
Kui sul on vaja tõlkida just selliseid keelesuundi, tasub inimtõlget eriti tõsiselt kaaluda:
- EN→ET (inglise → eesti, tõlked tehtud Luisa Keelelahendused tõlkijate poolt): Human 83.1, parim masin 78.8 (Gemini 2.5 Pro).
- EN→AR (inglise → Egiptuse araabia): Human 78.5, parim masin 77.0 (GPT-4.1).
- EN→IS (inglise → islandi): Human 87.5, parim masin 77.6.
- EN→JA (inglise → jaapani): Human 89.2, parim masin 85.8.
Märkus. See ei tähenda, et masin oleks halb, vaid inimene sai nendes testimisoludes ja antud tekstidega parema tulemuse.
Praktiline otsus ja lihtne juhis – millal valida inimene, millal masin
Vali inimtõlge (või tugev toimetus), kui
- tekst läheb avalikku kasutusse (veebileht, leping, pressiteade, juhend, arstiinfo, hinnakiri),
- eksimusel on rahaline/maine/õiguslik risk,
- sul on keelesuunaks EN→ET ja ootad avaldamiseks valmis tõlget (WMT25 järgi on inimene siin endiselt tugev).
- tekst on kõnest (video/podcast/intervjuu) või on allikas slängirohke ja kuuldavus kehv (mh poolikud laused, ASR).
- vaja on stiili, tooni ja brändikeelt, mitte ainult sisutõlget.
Vali masin + järeltoimetus, kui
- tekst on keskmise riskiga (tootekirjeldused, klienditugi, sisekommunikatsioon),
- eesmärk on kiirus ja maht, aga kvaliteeti kontrollib inimene,
- sul on olemas terminid/stiilireeglid (muidu kipub tulemus kõikuma).
Vali „toortõlge” (ilma toimetuseta) ainult siis, kui
- vajad mõttest aru saamist, mitte publitseerimist,
- aktsepteerid, et mõni nüanss võib kaduda või muutuda.
Kuidas tõlketeenuse pakkujat valida? Küsi neid küsimusi:
- Kas see on masintõlge, MT+toimetamine või puhas inimtõlge?
- Kes toimetab ja mis tasemel? (Kas on eraldi toimetaja, kas tehakse terminoloogia- ja numbrikontrolli)
- Kas saate teha suuremale tööle proovitõlke (100–200 sõna) minu tekstist?
- Kuidas te käsitlete konteksti? WMT25 liikus dokumenditasemele põhjusega, et kontekstita läheb tähendus kergemini paigast.
- Kvaliteedikontroll – kaskontrollite üle nimed, numbrid, tühikud, viited jms?
WMT25 kinnitab, et masinad on väga tugevad, kuid kvaliteet sõltub keelepaarist ja sisendi keerukusest; eriti inglise-eesti suunal. Jutustavate ja igapäevatekstide (nt kõne/ASR, sotsiaalmeedia) puhul on mõistlik valida inimene või vähemalt inimeste poolt tehtud järeltoimetamine.
Igal juhul küsi kõiki keele- ja tõlketeemalisi küsimusi meilt ja anname head nõu!
Meie klientide hulka kuulub 30 000 äriklienti ja riigiasutust ning üle 5000 erakliendi




