Pirjon blogi: Käännöskone DeepL: Onko se todella parempi kuin Google?

Kuvakaappaus: localise.com

Saksalaisella start-up-yrityksellä DeepL oli oikeat tiedot oikeaan aikaan.

Kölnissä sijaitsee start-up-yritys DeepL. Sen arvo nousi hiljattain yli miljardiin dollariin. Samannimistä automaattista käännöspalvelua ylläpitävää yritystä on juhlittu jo vuosia, ja monien mediatietojen mukaan se päihittää jopa Google Translaten. DeepL on "maailman tarkin kääntäjä", tämä pörssiyhtiö väittää. Miten se voi olla mahdollista: pieni kölniläinen startup-yritys voittaa maailman teknologiajätit? Tarina kuulostaa liian hyvältä ollakseen totta. Kysymys kuuluukin, pystyykö tekoälykääntäjä pitkällä aikavälillä pärjäämään alan suuria toimijoita vastaan.

Varmaa on, että DeepL teki monia asioita oikein - erityisesti oikeaan aikaan. Lisäksi yritys on erikoistunut. Toimitusjohtaja Jaroslaw Kutylowski korostaa tätä yhä uudelleen. Menestyksen syynä on "selkeästi keskittymisemme", hän sanoi haastattelussa. "Monilla start-up-yrityksillä, jotka keskittyvät yhteen ideaan, on etulyöntiasema suuryrityksiin nähden." Esimerkiksi Googlelle Translate-toiminto on vain yksi pieni hanke monien muiden joukossa, kun taas DeepL on erikoistunut kokonaan siihen. Mutta juuri tämä - keskittyminen yhteen asiaan - voi olla myös DeepL:n tuho - pitkällä aikavälillä.

DeepL perustettiin Linguee GmbH:na vuonna 2009 tietotekniikan tutkijan ja entisen Googlen työntekijän toimesta. Tiedotusvälineiden kerrotaan haastaneen DeepL oikeuteen tämän perustajan nimen mainitsemisesta. Yleisesti ottaen yritys on salamyhkäinen. Lukuisat haastattelupyynnöt ovat jääneet ilman vastausta.

Vuonna 2017 Lingueesta tuli nykyään paljon tunnetumpi DeepL. Linguee on eräänlainen käännöshakukone. Sieltä voi katsoa esimerkiksi, missä yhteydessä englanninkielinen sana on käännetty millä saksankielisellä sanalla. Polkupyöriä käsittelevässä lauseessa sana lock on englanniksi todennäköisesti lock, mutta kuninkaallisia taloja käsittelevässä tekstissä se on todennäköisemmin castle.

Tätä varten Linguee on kerännyt ja arvioinut lukuisia tekstejä, jotka ovat saatavilla useilla kielillä. Tietokanta sisältää esimerkiksi monia EU:n parlamentin asiakirjoja, sillä ne ovat julkisesti saatavilla ja ne on aina käännettävä useille kielille. Asiantuntijat kutsuvat tällaisia tekstejä rinnakkaistiedoiksi.

Oikeat tiedot oikeaan aikaan

Nämä DeepL -äidin tiedot ovat syy jälkeläisten menestykseen. Yrityksen itseoppivat algoritmit - niin sanottu tekoäly - pystyivät harjoittelemaan rinnakkaisen datan avulla ja oppivat näin kääntämään minkä tahansa tekstin kielestä toiseen. "DeepL pystyi rakentamaan ainutlaatuisen tietokannan varaan", sanoo Oliver Czulo, Leipzigin yliopiston käännöstieteilijä.

Lingueen kaltaiset tietokannat ovat olleet hyvien käännösten perusta jo vuosikymmeniä, Czulo sanoo: EU on työskennellyt käännöstyötä helpottavien ohjelmistojen parissa 1970-luvulta lähtien. Lisäksi on olemassa tietokantoja, jotka ovat erikoistuneet eri terminologioihin aiheen tai asiakkaan mukaan. "Kääntäjän työpaikka on ollut teknologisoitunut jo pitkään", Czulo sanoo. Tieto siitä, että hyvät tiedot ovat hyvän käännöstyön perusta, ei ole uusi.

Teknologia on kuitenkin suhteellisen uusi. Vielä muutama vuosi sitten useimmat laskennallisen kielitieteen asiantuntijat olivat vakuuttuneita siitä, että kone ei koskaan pystyisi tuottamaan tai kääntämään kieltä ilman ihmisen suoraa apua. Noin vuoteen 2017 asti konekielen käsittelyn tutkijat ohjelmoivat automaattisiin järjestelmiin monia sääntöjä, rikastuttivat niitä kielioppisäännöillä ja loivat valtavia tietokantoja niin sanotulla maailmantuntemuksella: Konteksteja, joita ihmiset pitävät itsestäänselvyyksinä, kuten sitä, että kivet eivät puhu.

Ja sitten tuli Deep Learning (suomeksi syväoppiminen).

Syväoppiminen palautti kaikki takaisin alkuun

Syväoppiminen kuvaa erilaisia keinotekoisia neuroverkkoja, joissa on erityisen monta kerrosta, joten ne ovat tavallaan syviä. Tekoälyn pioneerit ovat pitkään pitäneet tätä tekniikkaa lupaavana, mutta monet laskennallisen kielitieteen tutkijat olivat kuitenkin varmoja siitä, että syvätkään neuroverkot eivät pystyisi "ymmärtämään" kielellisten vivahteiden monimutkaisuutta, vaan ne tarvitsisivat aina ihmisen apua ohjelmoitujen sääntöjen muodossa.

Kun laskentateho kasvoi, kävi selväksi, että he olivat olleet väärässä: syväoppimisen myötä tekoälyjärjestelmät tunnistivat yhtäkkiä korrelaatiot itsestään. "Vuonna 2017 kuvantunnistuksen tutkijat tulivat yhtäkkiä mukaan ja tuottivat malleissaan yhtä hyviä tuloksia kielidatan avulla kuin me joissakin tapauksissa vuosien työn jälkeen", sanoo Alexander Fraser, Münchenin Ludwig Maximilian -yliopiston tiedon- ja kielenkäsittelyn professori.

Algoritmit löysivät datasta kuvioita, jotka eivät aina ole intuitiivisesti meidän ihmisten ulottuvilla - mutta jotka auttoivat niitä tuottamaan ihmisen kieltä mielekkäällä tavalla ja "ymmärtämään", mitä käännöksillä tarkoitettiin. Yhtäkkiä ei enää tarvinnut ohjelmoida kieliopillista tietoa kielestä käsin. Tärkeintä oli nyt hyvä harjoitusaineisto.

Tuolloin Linguee oli jo kymmenen vuoden ajan kerännyt massoittain käännöksiä verkosta ja istuutuikin siten aarreaittaan, jota muilla yrityksillä ei tuolloin ollut. "He ymmärsivät: Fraser sanoo: "Meillä on harjoitusdataa, jota nämä uudet mallit tarvitsevat".

Vuonna 2017 Harvardin tutkijaryhmä julkaisi ratkaisevan toisen ainesosan, jota DeepL tarvitsi datan lisäksi menestykseen: OpenNMT (Open-Source Toolkit for Neural Machine Translation) - vapaasti saatavilla oleva konekäännösohjelma, sanoo Fraser: "Se sopi hyvin alalle, ja DeepL latasi sen." Aluksi DeepL oli itse asiassa paljon parempi kuin Google, Fraser sanoo. Uusi syväoppimisteknologia käytännössä palautti kaikki takaisin lähtöruutuun, ja harjoitusaineisto ratkaisi eron.

DeepL osaa vain 29 kieltä, toiset yli 100 kieltä

Sillä välin suuret teknologiayritykset ovat saaneet DeepL-kääntäjän kiinni: Amazon, Facebook, Microsoft, Google - lähes jokainen yritys tarjoaa nyt hyviä automaattisia käännöksiä. On vaikea päätellä, kuka kääntää parhaiten, koska vertailut tehdään esimerkkiteksteihin, joiden käännökset ihmiset arvioivat - tulos riippuu siis esimerkkien valinnasta.

Palveluntarjoaja Intenton tekemä 31 palveluntarjoajan - Alibabasta Baiduun, IBM:stä ja Microsoftista Yandexiin - välinen markkinavertailu osoittaa, että vaikka DeepL on parhaiden konekäännösjärjestelmien joukossa käännettäessä englantia neljälle eurooppalaiselle kielelle (saksa, ranska, italia ja hollanti) sekä japanin kielelle, se on kielten kattavuuden osalta vain keskikastissa. DeepL pystyy 29 kieleen, monet muut yli sataan. Lisäksi uusien kieliyhdistelmien määrä kasvaa voimakkaasti muun muassa Microsoftin ja Amazonin tarjoamien uusien kieliyhdistelmien osalta, raportissa todetaan.

Kilpailu etenee

DeepL voi olla järkevää yksityishenkilöille, mutta ammatillisessa kääntämisessä tällaiset yhden koon ratkaisut eivät toimi hyvin. DeepL kääntää saman sanan joskus toisella, joskus toisella tavalla, jotka toki ovat asiayhteydestä riippuen oikein, mutta monet yritykset pitävät tärkeänä, että jotkin asiat käännetään johdonmukaisesti eli aina samalla sanalla.

Yhdenmukaisuuden vuoksi suuret yritykset ylläpitävät erityisiä sanastoja. Esimerkiksi autonvalmistajilla on usein eri nimet samoille osille. Sanastojen olisi oltava integroitavissa automaattiseen käännösjärjestelmään. Parhaat järjestelmät ovat sellaisia, joihin on syötetty omia tietoja.

DeepL:n maksullinen pro-versio tukee nyt sanastoja, mutta se on rajoitettu 5 000 merkintään sanastoa kohden. Sen vuoksi sitä ei voi käyttää kovin monissa ammattikäyttöön tarkoitetuissa sovelluksissa.

Ilmeisesti on vielä tarpeeksi asiakkaita, jotka maksavat DeepL:stä. Pro-tarjouksessa yritysasiakkaat voivat valita eri paketeista, joiden hinnat vaihtelevat 7,49 eurosta 49 euroon käännösten määrästä riippuen. Ohjelmistokehittäjille on tarjolla käyttöliittymä, joka muuttuu maksulliseksi 500 000 käännetystä merkistä alkaen. Meneekö se hyvin? Hän ei puhu konkreettisista luvuista, mutta yritys on "aina ollut kannattava", toimitusjohtaja Kutylowski sanoi Handelsblattille.

Se, pysyykö se sellaisena, riippuu todennäköisesti myös siitä, miten konekääntämisen markkinat kehittyvät. Kilpailu on joka tapauksessa etenemässä kovaa vauhtia. Esimerkiksi Google ratkaisi hiljattain ongelman, jonka kanssa kaikki tekoälykääntäjät kamppailevat: automaattisten käännösten määrän kasvaessa harjoitusaineisto heikkenee.

Internetissä olevat rinnakkaistekstit ovat yhä useammin automaattisesti käännettyjä tekstejä. Niistä ei kuitenkaan ole apua - loppujen lopuksi harjoitusaineistoksi halutaan mahdollisimman ammattimaisia ihmiskäännöksiä. Google julkaisi hiljattain aiheesta tutkimuspaperin, kertoo Alexander Fraser: "He tunnistavat omat käännöksensä verkossa käyttämällä menetelmää, jota kutsutaan vesileimaksi." Yhtiö siis havaitsee omien käännöstensä mallit ja suodattaa ne pois tulevasta harjoitusaineistosta.

DeepL ei juurikaan julkaise tutkimustuloksia

Ei ole julkisesti tiedossa, käyttääkö DeepL samanlaisia mekanismeja. DeepL mukaan uudet sijoittajien rahat on tarkoitus käyttää muun muassa tutkimukseen, mutta ei ole täsmennetty, mihin nimenomaan. DeepL on pitkälti tuntematon akateemisessa laskennallisessa kielitieteessä, yritys ei julkaise käytännössä lainkaan tutkimusjulkaisuja: "He eivät tule konferensseihimme, en tunne ketään, joka työskentelee DeepL:ssa", Fraser sanoo.

Lisäksi herää kysymys, kuinka paljon rahaa voidaan ansaita automaattisilla käännöksillä tulevaisuudessa. Intenton mukaan on totta, että markkinat kasvavat nopeasti. Monet konekäännösten tarjoajat ansaitsevat kuitenkin rahansa jollakin muulla ja voivat tarjota käännöksiä ilmaiseksi tai hyvin halvalla. Suurilla teknologiayrityksillä ne putoavat pois niin sanotusti sivutuotteena, esimerkiksi Amazonilla, joka käyttää konekielen prosessointia Alexassa, tai Googlella, joka tarvitsee käännöksiä myös hakujaan varten. "Käännöksistä tulee kauppatavaraa", sanoo myös kääntäjä Esser, tavanomaista kauppatavaraa. "Käännettyä sanaa myydään hyvin vähän. Suurilla toimijoilla on tähän varaa, koska ne tekevät rahaa muilla asioilla - kuten käyttäjätiedoilla - mutta DeepL:n erikoistuminen, jota toimitusjohtaja pitää vahvuutenaan, voi myös muodostua ongelmaksi.

Lähde: zeit.de

Pirjon blogi

tiistai 21. helmikuuta 2023

Käännöskone DeepL: Onko se todella parempi kuin Google?

Ei kommentteja:

Lähetä kommentti