A fordítóprogram fejlesztése során a cégbirodalom egy egészen új megközelítést alkalmazott.
Mit tud a Meta fordítóprogam? Mintegy 200 nyelv közötti fordításra alkalmas Mesterséges Intelligenciát (MI) alkotott a Facebook-tulajdonos Meta. A fordítótechnológia fejlődése már jó ideje az MI-re alapul, a neurális gépi fordítás elég jó eredményekre képes bizonyos nyelvek között. A fő problémát azonban az jelenti, hogy míg a leggyakrabban használt nyelvek között a fordítás már akár az ingyenesen elérhető Google fordítóval is többé-kevésbé pontos, és nyelvileg is helyes eredmények születnek, a kevésbé gyakori – vagy inkább az internetes szövegek mennyiségét tekintve ritkább – nyelvek közötti fordítások már kevésbé sikerülnek jól. Sok esetben két ilyen nyelv közötti fordítás úgy születik meg, hogy az MI a kiindulási nyelvből először angolra fordít.
Hány nyelvet beszélnek a világon? Ennek a problémának a megoldására hozta létre a Meta az NLLB-200 nevű fordítóprogramját, amely a természetes nyelvi feldolgozás (NLP) módszerével igyekszik minél több nyelv között megteremteni az átjárást. Az NLLB a No Language Left Behind (egy nyelvet sem hagyunk hátra) rövidítése, míg a 200 az MI által ismert nyelvek számát jelenti. Természetesen ez még mindig messze van az emberek által beszélt több mint 7000 nyelvtől, ám számos olyan ember előtt nyithatja meg a gépi fordítás lehetőségét, akik eddig ezt kénytelenek voltak nélkülözni, vagy csupán alacsony minőségben érhették el.
A Meta MI-je új eszközt is kapott a neurális gépi fordítás fejlesztésére, amely képes a neten megtalálni a párhuzamos szövegeket, ez a LASER3. A modell tanítását nyelvspecifikus kódolók is segítik, és lehetővé teszik, hogy nagyméretű minták szülessenek azonos mondatokból. Szemben a széles körben használt gépi fordítókkal, melyek kevesebb mint 25 afrikai nyelvet támogatnak, az NLLB-200 55 afrikai nyelvet ismer. Az új neurális gépi fordító 44 százalékos javulást ér el a korábbi legkorszerűbb programokkal szemben, a szintén Meta által korábban létrehozott FLORES-101, zsinórmértékként szolgáló tízezer nyelvi pár között. Az afrikai és indiai nyelvek közötti eredmények terén a javulás mértéke még ennél is jobb, 70 százalékos.
Bár a legpontosabb megoldások hagyományosan a nyelvi párok külön-külön történő fejlesztésével jönnek létre, ezek skálázhatósága limitált. Ezt jól érzékelteti, hogy a cég korábban használt, száz nyelven működő fordítója tízezer nyelvi párral, míg a mostani 200 nyelv már 40 ezerrel működik. Ezért a cég többnyelvű megközelítést alkalmaz.
Hogyan tudjuk majd használni az NLLB-200-at az interneten? Az NLLB-200 többek között a cég saját oldalain, így a Facebookon és az Instagramon segíti a fordításokat, de a Wikipediával is együttműködnek. A cég a modell forráskódját is nyilvánossá tette, de a Meta mesterséges intelligenciával foglalkozó részlege 200 ezer dollárig terjedő adományt is nyújt azon civil szervezetek számára, amelyek a való életben történő használatra hoznak létre alkalmazásokat. Zuckerberg cége szerint idővel elkövetkezhet a különböző nyelveken a valós idejű fordítás is, a program képes lehet például automatikus feliratokat generálni a bollywoodi filmekhez, és a későbbiekben a metaverzum elérését is segítheti, kiszélesítve a felhasználók körét a szabadabb kommunikációval.
A gépi fordítás azonban továbbra is rendkívül nehéz feladat, ezen a területen akár kisebb magyar cégeknek is maradhat hely a továbbiakban is. Az MI fejlődése ugyan egyeseket néha szinte hihetetlen megállapításokra sarkall, ám bőven van még hova fejlődni, és a szektor szabályozása is számos változást hozhat.
In taking this action, the company cited specific ongoing safety and security concerns.
While the Board understands these concerns, we believe the request raises important issues and are disappointed by the company’s decision to withdraw it.
Az igaz, hogy a Google Translate 109 nyelve helyett a DeepL fordító csak 24 nyelven tud, de most már, ezek egyike a magyar
„Ragyogó hideg nap volt áprilisban, és az órák tizenhármat csaptak.”
Ez nem jó kezdés. Nem azért, mintha George Orwell nem jól írta volna meg az 1984-et, hanem azért, mert a valószínűleg legszélesebb körben használt internetes fordító, a Google programja kissé melléfogott. Nem így a konkurens, a DeepL, amelynél a magyar változat: „Ragyogóan hideg áprilisi nap volt, és az órák tizenhármat ütöttek.” Tegyük hozzá nyomban, hogy ez is csak megközelíti, de nem üti meg a műfordítás színvonalát, amelyre Szíjgyártó László szövege a példa: „Derült, hideg áprilisi nap volt, az órák éppen tizenhármat ütöttek.”
Azért tettünk próbát, mert nemrég jelentették be, hogy 12 másik európai nyelv mellett a magyarral is kiegészítették a DeepL szolgáltatását, amely eddig jórészt a nagyobb nyelvekre szorítkozott. A nyelvek száma a mostani bővítéssel is 30 alatt marad. A DeepL kölni székhelyű vállalkozás, 2017 óta kínál online fordítást, és minőségben eddig is felülmúlta a Google fordítóját, amely azonban toronymagasan – 109-cel – vezet a kínált nyelvek számában.
Más internetes fordítókhoz hasonlóan a DeepL is mesterséges intelligenciára, gépi tanulásra épít. Egészen pontosan konvolúciós neurális hálózatra. A mesterséges intelligencia munkahelye egy igen nagy teljesítményű (5,1 petaflop) szuperszámítógép Izlandon, ahol kedvező árú vízenergiával nyerik az áramot.
A Magyarországon eddig leginkább szótárszerű szolgáltatásáról ismerhették. A Linguee (eredetileg ez volt a cég neve is) 2008 óta működik, és lassacskán 25 nyelvű – közte magyar – fordítási segédletté vált. Aki rákeres egy szóra, nem a (például) magyar megfelelőjét kapja, hanem olyan szövegrészleteket, amelyekben a szó előfordul. Azt lehet tehát megtudni, hogy hús-vér fordítók milyen összefüggésben hogyan fordították a kifejezést. Ez a hatalmas szövegmennyiség (szaknyelven korpusz) is segít abban, hogy a DeepL jobb fordításokat ad, mint konkurensei.
Magasra tettük a lécet, amikor próbára tettük a DeepL és a Google magyarra fordító képességeit. Arra gondoltunk, hogy egy újságcikk vagy használati utasítás megértése nem jelenthet nagy gondot. Ehelyett klasszikus regények első majdnem ötezer karakterét másoltuk be a két szolgáltató majdnem teljesen egyforma felületén a bal oldali ablakba, és a jobb oldali mezőben pár másodperc múlva megjelent a magyar szöveg.
A bevezetőben idézett melléfogáshoz hasonlóak mindkét fordítónál becsúsztak, de a DeepL esetében ritkábban. Sőt, a DeepL időnként meglepően választékos szóhasználattal lepett meg. Ahol a Google ezt írta: „A folyosón főtt káposzta és régi rongyszőnyeg szaga volt”, ott a DeepL így írt: „A folyosón főtt káposzta és régi rongyszőnyegek szaga terjengett”. A Szíjgyártó-szöveggel egyezően Egyes leszállópályának fordította az Airstrip One kifejezést, amelyhez a Google hozzá sem nyúlt. A DeepL tudta, mi az a liftakna, amit a Google felvonótengelynek értelmezett.
A különbségek ellenére mindkét szolgáltatás bőségesen példázta a gépi fordítás korlátait. A feledékeny DeepL egyszer már rájött, hogy a pig iron nyersvasat jelent, később mégis disznóvasat emlegetett. A regény ikonikus mondatát elsőre jól megközelítette: „A nagy testvér néz téged”, hogy aztán később minden ok nélkül erre váltson: „A nagytestvér téged vigyázol”. A bluebottle (dongólégy) szóval egyikük sem birkózott meg, kékbolygónak vagy kékpalacknak fordították.
Még nagyobb meglepetésekkel szolgált Kafka A per című regényének magyarítása. A Google itt bizony már értelmetlen mondattöredékeket is a szövegbe illesztett, és több helyen értelmetlenül fordított. Ahol ez szerepel: „háziasszonyának, Grubachnénak a szakácsnője” (Szabó Ede fordítása), ott mindkét szolgáltatót megtévesztette a bonyolult birtokos szerkezet, és egyikük sem jött rá, ki a szakácsnő és ki a háziasszony. Az egyébként jobb DeepL minden ok nélkül váltogatni kezdte a tegezést és önözést az eredetiben természetesen állandó önözés helyett.
Minden hiba ellenére a gépi fordítás sokat fejlődött. Az angolról vagy németről készített fordítások majdnem alkalmasak nyersfordításnak, amely a DeepL esetében kis ellenőrzés után használhatóvá tehető. A hibák ugyanakkor azt is egyértelműen jelzik, hogy az utómunka nem végezhető el olyan fordító vagy szerkesztő nélkül, aki érti az eredeti szöveget.
A DeepL használata közben az utóbbi években azt tapasztaltuk, hogy nagy nyelvek között (például németről angolra) egészen elfogadható szövegek jönnek létre. Láthatólag gyengébb az eredmény kisebb nyelvek esetén. A mostani kínálatbővítést kihasználva megnéztünk egy észt–magyar fordítást is, szintén klasszikust, Anton Hansen Tammsaare Igazság és jog regényciklusának elejét, egy olyan művet, amely Kafkáéval nagyjából egyidős. A magyar szöveg színvonala még a DeepL esetében is érezhetően gyengébb, mint az angolról vagy németről fordított irodalom esetében.
Még mindig nem mondhatjuk tehát, hogy nincs szükség emberi fordítókra, főleg a mű- vagy szakfordítókra.
De az igaz, hogy a futószalagon készülő – például webáruházak termékeit röviden leíró – szövegek fordításánál már csábító lehetőség gépre bízni a munkát (és gyakran látható, hogy ez így is történik). A DeepL esetében többfajta fizetős modellt is ajánlanak. Az ingyenes fordítás határa a Google esetében is ötezer karakter. Annak persze egyik szolgáltatónál sincs határa, hogy valaki hányszor ötezer karaktert másol be, majd ki egymás után, de ha nagyobb mennyiségről van szó, a gyakorlatban ez nyilván nehezen kivitelezhető.
A DeepL-hez windowsos és macOS-re való alkalmazás is tartozik. Ezek telepítése után alapbeállításként elég csak kijelölni a gépen bármely szöveget, majd megnyomni a másolásra régóta bevett Ctrl-C billentyűkombinációt gyors egymásutánban kétszer, és már fordítódik is az adott szöveg.