INTERVJUO

Tradukiloj pliboniĝas

Monato intervjuis Eckhard Bick, fakulon pri komputa lingvoscienco kaj prizorganton de la sistemo WikiTrans, kiu aŭtomate tradukas la anglan Vikipedion al Esperanto.

MONATO: Kiel okazis, ke vi okupiĝas pri komputa lingvoscienco?

Bick: Miaj originaj fakoj estis medicino, la angla kaj la hispana, kiujn mi studis en Bonn kaj Londono. Poste, jam kuracisto en Danio, mi aldonis skandinavistikon/nordistikon kaj la portugalan, kun fina disertaĵo pri leksikografio. Nur laste venis lingvistiko, pri kiu mi doktoriĝis en 2000 kun specialiĝo ĝuste pri komputa lingvistiko: aŭtomata gramatika analizo de la portugala. Miaj plej fruaj komputlingvistikaj projektoj, fine de la okdekaj jaroj, estis dan-esperanta maŝintradukado kaj portugala leksikografio. Poste venis projektoj pri multaj aliaj lingvoj kaj temoj. Kaj ĉe la Universitato de Suda Danio en Odense kaj kiel privata entreprenisto mi laboras pri preskaŭ ĉiuj ĝermanaj kaj latinidaj lingvoj, konstruante analizilojn. Aplikaĵoj estas ekzemple pedagogiaj iloj por instrui gramatikon, maŝintradukiloj, ortografiaj kaj gramatikaj kontroliloj ktp. Aktuale mi laboras unuflanke pri komo-kontrolilo, aliflanke kun granda dan-germana tekstokolekto el Facebook kaj Twitter en projekto pri malama lingvouzo kontraŭ minoritatoj.

MONATO: Oni komencis jam eksperimenti pri perkomputila tradukado, kiam aperis la unuaj komputiloj. Intertempe la sistemoj pliboniĝis ĝis tia grado, ke ili eĉ estas utilaj. Ĉu tiu progreso okazis per subitaj saltoj, aŭ ĉu okazis nur laŭgrada pliboniĝo?

Bick: Ambaŭ! En la unuopaj teknologioj uzataj por MT (maŝintradukado) okazis laŭgrada evoluo, sed alvenis ankaŭ tute novaj teknologioj. En la unua fazo, en la 70aj ĝis 90aj jaroj, oni provis bazi MT sur generajn analizojn, sed – eble pro manko de sufiĉe fortaj komputiloj – la rezultoj estis malbonaj, kaj multaj opiniis, ke neniam eblos bone traduki per komputilo. Tamen ekzistis grandaj projektoj kiel DLT (kun Esperanto kiel pontlingvo) kaj la germana Verbmobil, kiuj montris, ke la afero ne estas tute malebla. Eĉ antaŭ nelonge oni provis kun simila aliro (LFG-gramatiko) en granda norvegia projekto, LOGON, sed ankaŭ tiu projekto ne bone sukcesis.

Mi mem uzis novan paradigmon, dependecajn gramatikojn kaj kuntekstlimigan gramatikon (constraint grammar), kiu same bazas MT sur lingvistikan analizon kaj leksikojn, sed uzas pli fortikajn gramatikojn, kiuj ne fiaskas ĉe teksteraroj kaj tro varia lingvouzo. En 2007 mi lanĉis dan-anglan sistemon, kiu tiam estis la sola rete havebla sistemo, kaj eĉ post la apero de Google Translate longe restis pli bona ol tiu lasta.

La tria metodo-fazo, kiun uzas ĝuste Google ekde 2008, temas pri statistikaj metodoj, per kiuj oni maŝinlernas traduki grupojn de vortoj el dulingvaj fontoj, ekzemple retpaĝoj, kaj kombinas tiujn tradukerojn laŭ iliaj verŝajnecoj. Tion helpis la konstruado de grandaj tekstaroj plurlingvaj, nelaste el EU-fontoj (transskriboj de parlamentaj diskutoj). La nova metodo estis iom post iom plibonigita kaj havis la avantaĝon esti malmultekosta, ĉar necesas nur datenoj, ne lingvistoj por krei leksikojn kaj gramatikojn.

Kvara etapo ekis antaŭ nur malmultaj jaroj, kun la alveno de neŭronaj retoj. Tiuj ekzistis jam en la 80aj jaroj, sed nur antaŭ nelonge komputiloj sufiĉe fortiĝis por ebligi verajn aplikaĵojn. La evoluo antaŭeniris pro projektoj pri bild- kaj vizaĝ-rekono, kaj pri akustika kompreno de parolata lingvo, sed eblis uzi similajn algoritmojn por MT. Tiel Google atingis MT-nivelon, kun kiu nun estas malfacile konkurenci lingvistike, simple ĉar estus tro da laboro. Kaj firmaoj kiel DeepL, kiuj kombinas tiun metodon kun lingvistike bonaj datenoj, estas eĉ pli sukcesaj ol Google, kvankam nur en tiuj lingvoparoj, por kiuj ili havas la bonajn lingvistikajn rimedojn.

MONATO: En 2012 Esperanto aldoniĝis al la lingvoj traktataj de la Google-Tradukilo (https://translate.google.com). Tio okazis nelonge post la apero de via sistemo WikiTrans, kiu tradukas de la angla al Esperanto. Ĉu ekzistas ia rilato inter tiuj sistemoj?

Bick: WikiTrans uzas lingvistikan MT-sistemon kaj enhavas verŝajne la plej grandan esperantan vortaron iam kreitan. Google, kiel dirite, tiam trejnis siajn MT-ilojn statistike kaj por tio bezonis dulingvajn tekstojn. Por Esperanto ekzistis tre malmulte da tiaj, kaj ne en cifereca formo, do malfacilis uzi tiun metodon. Do eble ĝuste la alveno de WikiTrans, kun grandega dulingva tekstokvanto havebla en la reto, fine ebligis al Google apliki sian statistikan metodon. Miascie neniu ricevis respondon pri tio de Google, do dume estas nur interesa penso. Sed fakto estas, ke Google dum longa tempo ne lanĉis esperantan MT-sistemon, sed ja preskaŭ tuj post la apero de WikiTrans.

MONATO: Do WikiTrans kaj la Google-Tradukilo uzas malsamajn teknikojn. Ĉu tio montriĝas per la eligaĵo de tiuj sistemoj? Ĉu ili faras malsamajn erarojn?

Bick: Jes. La erarojn de lingvistika sistemo oni povas analizi, kaj tial korekti. Tipe ili estas kaŭzataj de truoj en la vortaro, aŭ de gramatika misanalizo. Oni klare vidas la erarojn en la teksto. Male, statistika sistemo, kiu kombinas vortgrupojn en la cellingvo, ofte kreas tute glatan frazon, kiu povas tamen havi malĝustan signifon, sed ne eblas vidi la eraron sen koni la fontlingvan frazon. Ekzemple, tia sistemo povus traduki dolarojn per eŭroj, aŭ unu koloron per alia, nur ĉar la vortoj aperas statistike en similaj kuntekstoj.

MONATO: Kiam oni pritaksas tradukilon, kiel oni mezuras la kvaliton de traduko?

Bick: En sciencaj artikoloj oni ofte uzas la mezuron nomatan „BLEU”. Por tiu metodo oni bezonas unu aŭ plurajn „orajn” (homajn) tradukojn de frazo kaj nombras, kiom da 1-, 2-, 3- kaj 4-vortaj grupoj samas inter tiuj kaj la komputila traduko. La problemo estas, ke tiu metodo venas el la statistika paradigmo kaj donas avantaĝon al tiuj sistemoj, kiuj konstruis la tradukon ĝuste per kunmeto de tiaj vortgrupoj, dum ĝi punas lingvistikan sistemon, kiu ekzemple ŝanĝas la vortordon aŭ uzas sinonimon seneraran sed statistike malpli oftan. Alia metodo, sen tiu problemo, sed labore multe pli kosta, estas homa inspekto kaj kvalitordigo (rangigo) de la tradukoj: iu devas diri, kiu estas la plej bona, 2a, 3a ktp, tiel trovante rangon por la MT-sistemo testata kompare kun aliaj kaj homaj tradukoj.

MONATO: Kion oni povas diri pri la relativa kvalito de angla-esperanta traduko farita per Google aŭ per WikiTrans?

Bick: Mi opinias, ke tiu de WikiTrans estas pli bona. Ĝi certe estis komence, sed neniu faris freŝdatan, sciencan komparon. Ĉiuokaze en WikiTrans estas diversaj mekanismoj por trakti vortojn nekonatajn al la sistemo, trakti erarojn aŭ malglataĵojn en la angla originalo ktp, kiuj kreas fortikecon ne facile haveblan en maŝinlerna sistemo. Krome eblas pli facile adapti lingvistikan sistemon al nova ĝenro, dum maŝinlerna sistemo bezonas novajn lerndatenojn por nova ĝenro. Mi jam faris tion, analizoflanke, por diversaj ĝenroj. Tial WikiTrans miaopinie havus avantaĝojn, se oni uzus ĝin ekzemple por traduki retmesaĝojn, kiuj ja ne ekzistas dulingve en la reto, tiel ke Google ne povas krei apartan trejnkorpuson por tiu ĝenro.

MONATO: Kvankam pro sia Gmail, kiun uzas multaj homoj, Google ja disponas iom grandan kolekton da unulingvaj retmesaĝoj; eĉ malneto de ĉi tiu intervjuo pasis tra ĝiaj serviloj! Ĉu WikiTrans kaj Google-Tradukilo ankoraŭ evoluas? Kiel?

Bick: Jes. WikiTrans pliboniĝas ne-rekte, kiam mi plibonigas la gramatikan analizon de la angla, kaj tion mi faras ankaŭ por aliaj projektoj. Necesas tamen rekompili la MT-sistemon kaj fari laborigajn kontrolojn por eviti kromefikojn, kaj tion mi malofte faras, ĉar fari tion por Esperanto estas senenspeza laboro. Google daŭre plibonigas siajn MT-sistemojn per pli rapidaj maŝinoj kaj neŭronaj retoj, sed mi ne scias, kiom ofte ili rekompilas tion por la esperanta sistemo, kaj mi dubas, ke Google faras ian vortaran laboron por Esperanto, ĉar ne ekzistas vendo-bazo. Sed de tempo al tempo ĝi devus tamen ankoraŭ pliboniĝi, ankaŭ ĉar la reto tiom kreskas kaj alvenas pli da (dulingvaj) datenoj.

MONATO: Kiel tiuj sistemoj lernas novajn vortojn?

Bick: WikiTrans lernas ilin per homa laboro aŭ per aŭtomata analizo de vortkunmetaĵoj. La MT de Google lernas per la apero de vortoj en dulingvaj tekstoj.

MONATO: En oktobro 2020 Facebook anoncis M2M-100, „la unuan plurlingvan modelon por aŭtomata tradukado, kiu tradukas inter iu ajn paro el 100 lingvoj, ne bezonante anglalingvajn datenojn”. Ĉu la sistemo estas tiel novspeca, kiel la anonco sugestas?

Bick: Mi kredas, ke ankaŭ tie temas pri neŭronaj retoj, kiuj en si mem ne plu estas novaj. Sed mi ne povas taksi, ĉu sen-pontlingva tradukado de 100 lingvoj estas nova, aŭ ĉu Google jam faris simile. Antaŭe eblis foje vidi spurojn de la angla pontlingvo ekzemple en dan-sveda tradukado, kiam aperis angla vorto el nenio, sed tio maloftas nun, aŭ tute ne plu okazas.

MONATO: Scivole, mi komparis listojn de la lingvoj traktataj de la sistemoj de Google kaj Facebook: Google nun havas 108 lingvojn, Facebook havas 100, kaj ĉirkaŭ 88 lingvoj estas en ambaŭ listoj. Inter la lingvoj traktataj de Google sed ne de Facebook troviĝas Esperanto. Ĉu vi pensas, ke estas apartaj problemoj por aldoni Esperanton al tia sistemo?

Bick: Ne. Trejndatenoj ja ekzistas, ekzemple en WikiTrans. Mi supozas, ke tio dependas ankaŭ de sintenoj kaj politiko, kaj ke la deciduloj de Facebook estas malpli simpatiaj al Esperanto, aŭ simple ignoras ĝin. Dume Google havas kulturon de liberaj ideoj kaj iniciatoj (Google Campus, Google Summer of Code, Google Moonshots, Google X Prize), ĉe kiuj unuopaj esploristoj, aŭ eksteruloj, rajtas elprovi aferojn laŭ propra opinio. Eble tio permesas la aldonon de etaj lingvoj al la MT-sistemo, simple „ĉar eblas”, sendepende de la uzantokvanto aŭ komerca valoro.

MONATO: Ĉu oni povas ion fari por subteni esploradon pri komputa lingvoscienco per Esperanto?

Bick: Jes. WikiTrans havas vortaropaĝon en la reto, kie oni – krom rigardi tradukojn – povas aldoni tradukojn aŭ kontroli la tradukon de hazardaj vortkunmetaĵoj, kiujn la sistemo jam konstruis, sed kiuj ne aŭ malofte estas kontrolitaj de homo: https://xl.wikitrans.net/

Edmund GRIMLEY EVANS

redaktoro de MONATO pri komputado

Edmund Grimley Evans estas esplorinĝeniero en la komputila fako kaj tradukinto de pluraj libroj en Esperanton.

Tiu ĉi teksto aperis en la presita kaj en la PDF-forma versioj de Monato en la jarkolekto 2021, numero 03, p. 14.

Tiu ĉi artikolo povas esti libere kopiita aŭ tradukita por nekomercaj celoj, se oni mencias la fonton: Artikolo de Edmund Grimley Evans el MONATO (www.monato.be).

Lasta adapto de tiu ĉi paĝo: 2021-02-07