tiistai 21. helmikuuta 2023

Käännöskone DeepL: Onko se todella parempi kuin Google?

Kuvakaappaus: localise.com
 

Saksalaisella start-up-yrityksellä DeepL oli oikeat tiedot oikeaan aikaan.

Kölnissä sijaitsee start-up-yritys DeepL. Sen arvo nousi hiljattain yli miljardiin dollariin. Samannimistä automaattista käännöspalvelua ylläpitävää yritystä on juhlittu jo vuosia, ja monien mediatietojen mukaan se päihittää jopa Google Translaten. DeepL on "maailman tarkin kääntäjä", tämä pörssiyhtiö väittää. Miten se voi olla mahdollista: pieni kölniläinen startup-yritys voittaa maailman teknologiajätit? Tarina kuulostaa liian hyvältä ollakseen totta. Kysymys kuuluukin, pystyykö tekoälykääntäjä pitkällä aikavälillä pärjäämään alan suuria toimijoita vastaan.

Varmaa on, että DeepL teki monia asioita oikein - erityisesti oikeaan aikaan. Lisäksi yritys on erikoistunut. Toimitusjohtaja Jaroslaw Kutylowski korostaa tätä yhä uudelleen. Menestyksen syynä on "selkeästi keskittymisemme", hän sanoi haastattelussa. "Monilla start-up-yrityksillä, jotka keskittyvät yhteen ideaan, on etulyöntiasema suuryrityksiin nähden." Esimerkiksi Googlelle Translate-toiminto on vain yksi pieni hanke monien muiden joukossa, kun taas DeepL on erikoistunut kokonaan siihen. Mutta juuri tämä - keskittyminen yhteen asiaan - voi olla myös DeepL:n tuho - pitkällä aikavälillä.

DeepL perustettiin Linguee GmbH:na vuonna 2009 tietotekniikan tutkijan ja entisen Googlen työntekijän toimesta. Tiedotusvälineiden kerrotaan haastaneen DeepL oikeuteen tämän perustajan nimen mainitsemisesta. Yleisesti ottaen yritys on salamyhkäinen. Lukuisat haastattelupyynnöt ovat jääneet ilman vastausta.

Vuonna 2017 Lingueesta tuli nykyään paljon tunnetumpi DeepL. Linguee on eräänlainen käännöshakukone. Sieltä voi katsoa esimerkiksi, missä yhteydessä englanninkielinen sana on käännetty millä saksankielisellä sanalla. Polkupyöriä käsittelevässä lauseessa sana lock on englanniksi todennäköisesti lock, mutta kuninkaallisia taloja käsittelevässä tekstissä se on todennäköisemmin castle.

Tätä varten Linguee on kerännyt ja arvioinut lukuisia tekstejä, jotka ovat saatavilla useilla kielillä. Tietokanta sisältää esimerkiksi monia EU:n parlamentin asiakirjoja, sillä ne ovat julkisesti saatavilla ja ne on aina käännettävä useille kielille. Asiantuntijat kutsuvat tällaisia tekstejä rinnakkaistiedoiksi.  

Oikeat tiedot oikeaan aikaan

Nämä DeepL -äidin tiedot ovat syy jälkeläisten menestykseen. Yrityksen itseoppivat algoritmit - niin sanottu tekoäly - pystyivät harjoittelemaan rinnakkaisen datan avulla ja oppivat näin kääntämään minkä tahansa tekstin kielestä toiseen. "DeepL pystyi rakentamaan ainutlaatuisen tietokannan varaan", sanoo Oliver Czulo, Leipzigin yliopiston käännöstieteilijä.

Lingueen kaltaiset tietokannat ovat olleet hyvien käännösten perusta jo vuosikymmeniä, Czulo sanoo: EU on työskennellyt käännöstyötä helpottavien ohjelmistojen parissa 1970-luvulta lähtien. Lisäksi on olemassa tietokantoja, jotka ovat erikoistuneet eri terminologioihin aiheen tai asiakkaan mukaan. "Kääntäjän työpaikka on ollut teknologisoitunut jo pitkään", Czulo sanoo. Tieto siitä, että hyvät tiedot ovat hyvän käännöstyön perusta, ei ole uusi.

Teknologia on kuitenkin suhteellisen uusi. Vielä muutama vuosi sitten useimmat laskennallisen kielitieteen asiantuntijat olivat vakuuttuneita siitä, että kone ei koskaan pystyisi tuottamaan tai kääntämään kieltä ilman ihmisen suoraa apua. Noin vuoteen 2017 asti konekielen käsittelyn tutkijat ohjelmoivat automaattisiin järjestelmiin monia sääntöjä, rikastuttivat niitä kielioppisäännöillä ja loivat valtavia tietokantoja niin sanotulla maailmantuntemuksella: Konteksteja, joita ihmiset pitävät itsestäänselvyyksinä, kuten sitä, että kivet eivät puhu.

Ja sitten tuli Deep Learning (suomeksi syväoppiminen).

Syväoppiminen palautti kaikki takaisin alkuun

Syväoppiminen kuvaa erilaisia keinotekoisia neuroverkkoja, joissa on erityisen monta kerrosta, joten ne ovat tavallaan syviä. Tekoälyn pioneerit ovat pitkään pitäneet tätä tekniikkaa lupaavana, mutta monet laskennallisen kielitieteen tutkijat olivat kuitenkin varmoja siitä, että syvätkään neuroverkot eivät pystyisi "ymmärtämään" kielellisten vivahteiden monimutkaisuutta, vaan ne tarvitsisivat aina ihmisen apua ohjelmoitujen sääntöjen muodossa.

Kun laskentateho kasvoi, kävi selväksi, että he olivat olleet väärässä: syväoppimisen myötä tekoälyjärjestelmät tunnistivat yhtäkkiä korrelaatiot itsestään. "Vuonna 2017 kuvantunnistuksen tutkijat tulivat yhtäkkiä mukaan ja tuottivat malleissaan yhtä hyviä tuloksia kielidatan avulla kuin me joissakin tapauksissa vuosien työn jälkeen", sanoo Alexander Fraser, Münchenin Ludwig Maximilian -yliopiston tiedon- ja kielenkäsittelyn professori.

Algoritmit löysivät datasta kuvioita, jotka eivät aina ole intuitiivisesti meidän ihmisten ulottuvilla - mutta jotka auttoivat niitä tuottamaan ihmisen kieltä mielekkäällä tavalla ja "ymmärtämään", mitä käännöksillä tarkoitettiin. Yhtäkkiä ei enää tarvinnut ohjelmoida kieliopillista tietoa kielestä käsin. Tärkeintä oli nyt hyvä harjoitusaineisto.

Tuolloin Linguee oli jo kymmenen vuoden ajan kerännyt massoittain käännöksiä verkosta ja istuutuikin siten aarreaittaan, jota muilla yrityksillä ei tuolloin ollut. "He ymmärsivät: Fraser sanoo: "Meillä on harjoitusdataa, jota nämä uudet mallit tarvitsevat".

Vuonna 2017 Harvardin tutkijaryhmä julkaisi ratkaisevan toisen ainesosan, jota DeepL tarvitsi datan lisäksi menestykseen: OpenNMT (Open-Source Toolkit for Neural Machine Translation) - vapaasti saatavilla oleva konekäännösohjelma, sanoo Fraser: "Se sopi hyvin alalle, ja DeepL latasi sen." Aluksi DeepL oli itse asiassa paljon parempi kuin Google, Fraser sanoo. Uusi syväoppimisteknologia käytännössä palautti kaikki takaisin lähtöruutuun, ja harjoitusaineisto ratkaisi eron.

DeepL osaa vain 29 kieltä, toiset yli 100 kieltä

Sillä välin suuret teknologiayritykset ovat saaneet DeepL-kääntäjän kiinni: Amazon, Facebook, Microsoft, Google - lähes jokainen yritys tarjoaa nyt hyviä automaattisia käännöksiä. On vaikea päätellä, kuka kääntää parhaiten, koska vertailut tehdään esimerkkiteksteihin, joiden käännökset ihmiset arvioivat - tulos riippuu siis esimerkkien valinnasta.

Palveluntarjoaja Intenton tekemä 31 palveluntarjoajan - Alibabasta Baiduun, IBM:stä ja Microsoftista Yandexiin - välinen markkinavertailu osoittaa, että vaikka DeepL on parhaiden konekäännösjärjestelmien joukossa käännettäessä englantia neljälle eurooppalaiselle kielelle (saksa, ranska, italia ja hollanti) sekä japanin kielelle, se on kielten kattavuuden osalta vain keskikastissa. DeepL pystyy 29 kieleen, monet muut yli sataan. Lisäksi uusien kieliyhdistelmien määrä kasvaa voimakkaasti muun muassa Microsoftin ja Amazonin tarjoamien uusien kieliyhdistelmien osalta, raportissa todetaan.

Kilpailu etenee

DeepL voi olla järkevää yksityishenkilöille, mutta ammatillisessa kääntämisessä tällaiset yhden koon ratkaisut eivät toimi hyvin. DeepL kääntää saman sanan joskus toisella, joskus toisella tavalla, jotka toki ovat asiayhteydestä riippuen oikein, mutta monet yritykset pitävät tärkeänä, että jotkin asiat käännetään johdonmukaisesti eli aina samalla sanalla.

Yhdenmukaisuuden vuoksi suuret yritykset ylläpitävät erityisiä sanastoja. Esimerkiksi autonvalmistajilla on usein eri nimet samoille osille. Sanastojen olisi oltava integroitavissa automaattiseen käännösjärjestelmään. Parhaat järjestelmät ovat sellaisia, joihin on syötetty omia tietoja.

DeepL:n maksullinen pro-versio tukee nyt sanastoja, mutta se on rajoitettu 5 000 merkintään sanastoa kohden. Sen vuoksi sitä ei voi käyttää kovin monissa ammattikäyttöön tarkoitetuissa sovelluksissa.

Ilmeisesti on vielä tarpeeksi asiakkaita, jotka maksavat DeepL:stä. Pro-tarjouksessa yritysasiakkaat voivat valita eri paketeista, joiden hinnat vaihtelevat 7,49 eurosta 49 euroon käännösten määrästä riippuen. Ohjelmistokehittäjille on tarjolla käyttöliittymä, joka muuttuu maksulliseksi 500 000 käännetystä merkistä alkaen. Meneekö se hyvin? Hän ei puhu konkreettisista luvuista, mutta yritys on "aina ollut kannattava", toimitusjohtaja Kutylowski sanoi Handelsblattille.

Se, pysyykö se sellaisena, riippuu todennäköisesti myös siitä, miten konekääntämisen markkinat kehittyvät. Kilpailu on joka tapauksessa etenemässä kovaa vauhtia. Esimerkiksi Google ratkaisi hiljattain ongelman, jonka kanssa kaikki tekoälykääntäjät kamppailevat: automaattisten käännösten määrän kasvaessa harjoitusaineisto heikkenee.

Internetissä olevat rinnakkaistekstit ovat yhä useammin automaattisesti käännettyjä tekstejä. Niistä ei kuitenkaan ole apua - loppujen lopuksi harjoitusaineistoksi halutaan mahdollisimman ammattimaisia ihmiskäännöksiä. Google julkaisi hiljattain aiheesta tutkimuspaperin, kertoo Alexander Fraser: "He tunnistavat omat käännöksensä verkossa käyttämällä menetelmää, jota kutsutaan vesileimaksi." Yhtiö siis havaitsee omien käännöstensä mallit ja suodattaa ne pois tulevasta harjoitusaineistosta.

DeepL ei juurikaan julkaise tutkimustuloksia

Ei ole julkisesti tiedossa, käyttääkö DeepL samanlaisia mekanismeja. DeepL mukaan uudet sijoittajien rahat on tarkoitus käyttää muun muassa tutkimukseen, mutta ei ole täsmennetty, mihin nimenomaan. DeepL on pitkälti tuntematon akateemisessa laskennallisessa kielitieteessä, yritys ei julkaise käytännössä lainkaan tutkimusjulkaisuja: "He eivät tule konferensseihimme, en tunne ketään, joka työskentelee DeepL:ssa", Fraser sanoo.

Lisäksi herää kysymys, kuinka paljon rahaa voidaan ansaita automaattisilla käännöksillä tulevaisuudessa. Intenton mukaan on totta, että markkinat kasvavat nopeasti. Monet konekäännösten tarjoajat ansaitsevat kuitenkin rahansa jollakin muulla ja voivat tarjota käännöksiä ilmaiseksi tai hyvin halvalla. Suurilla teknologiayrityksillä ne putoavat pois niin sanotusti sivutuotteena, esimerkiksi Amazonilla, joka käyttää konekielen prosessointia Alexassa, tai Googlella, joka tarvitsee käännöksiä myös hakujaan varten. "Käännöksistä tulee kauppatavaraa", sanoo myös kääntäjä Esser, tavanomaista kauppatavaraa. "Käännettyä sanaa myydään hyvin vähän. Suurilla toimijoilla on tähän varaa, koska ne tekevät rahaa muilla asioilla - kuten käyttäjätiedoilla - mutta DeepL:n erikoistuminen, jota toimitusjohtaja pitää vahvuutenaan, voi myös muodostua ongelmaksi. 

Lähde: zeit.de

 

maanantai 20. helmikuuta 2023

Kölle Alaaf!

 Tänään on ruusumaanantai! Vai olisiko roosa maanantai? No, saksaksi Rosenmontag. 

Kuva(t): WDR

Jotkut odottavat tätä päivää innolla, toiset eivät pääse tarpeeksi kauas. Ja kuitenkin tämä laskiaismaanantai on jotain erityistä: Koronan aiheuttaman pakkotauon jälkeen kulkueita on taas. Alaaf!

Laskiaismaanantain nimi on saksaksi Rosenmontag. Sana voidaan kääntää ruusuksi tai roosaksi. 1100-luvulla paavin sanotaan vihkineen tänä päivänä kultaisen ruusun, joka on saattanut antaa tälle päivälle sen nimen. Toinen selitys on, että papit käyttivät ruususunnuntaina vaaleanpunaisia pukuja.

Reinin karnevaaleissa on kaksi tärkeää kutsua narreille. Joko "Alaaf" tai "Helau" liittyy kaupungin nimeen: esimerkiksi "Kölle Alaaf" tai "Düsseldorf Helau!". Mutta mitä huudot oikeastaan tarkoittavat?

"Alaaf" tulee luultavasti kölli-sanasta "all af", joka tarkoittaa "kaiken yli" tai "kaikki muu pois". Kolmikantaisessa huudossa "Kölle alaaf" se tarkoittaa yhtä paljon kuin "Köln yli kaiken" tai "Kaikki ylistävät Kölniä".

Alun perin se ei rajoittunut vain Reinin seudun karnevaaliin. Myös esimerkiksi Kölnin kekriä ylistettiin tällä tavoin 1800-luvulla. Muuten sitä kutsutaan myös "Alaafiksi" Aachenissa tai Bonnissa.

Pohjoiseteläsuuntainen raja "Helaulle" kulkee suurin piirtein Bonnin ja Bad Neuenahr-Ahrweilerin välistä maantieteellistä linjaa pitkin, joskin poikkeukset vahvistavat säännön. Kenenkään ei kannata esimerkiksi Düsseldorfissa huutaa "Alaaf" - hän saisi varmasti ikävän katseen. Siellä karnevaalihuuto on "Helau" - aivan kuten Mainzissa.

Toisin kuin "Alaaf", ei ole varmaa, mistä "Helau" on peräisin. Se voi olla muunnelma sanasta "Halleluja" tai se voi tulla sanasta "Hell up", koska karnevaaleissa pahat henget on tarkoitus ajaa ulos helvetistä. Toisen teorian mukaan "Helau" kehittyi sanasta "hell auf", joka tarkoittaa "herännyt".

Tänä vuonna ei ehtoja: Viimeisen kahden vuoden aikana kulkueet oli kielletty koronan vuoksi, mutta vuonna 2022 Kölnissä pidettiin mielenosoitus Venäjän hyökkäyssotaa vastaan. Nyt ruusumaanantai-kulkueilla ei ole rajoituksia. Kuten joka vuosi, suurimmat ovat todennäköisesti Kölnissä ja Düsseldorfissa.

Kölnin karnevaali viettää tänä vuonna 200-vuotisjuhliaan. Mottona "200 vuotta Kölnin karnevaalia: sinne tai tänne" Laskiaismaanantaikulkue ylittää Reinin ensimmäistä kertaa. Peristeisten karamellien heittäminen jokeen on ehdottomasti kielletty. Kulkueen vaunuissa käsitellään alueellisia, kansallisia ja kansainvälisiä aiheita. Mukana on huumoria, ironiaa, politiikkaa ja hupia ihan muuten vaan. Putin nähdään Nosferatuna lihamyllyssä.

Kuvakavalkadia tämän vuoden 2023 kulkueesta: 


 

 

 

keskiviikko 1. helmikuuta 2023

Liian vähän raaka-aineita sähköautoiluun

Siirtyminen sähköautoihin voi osoittautua tulevina vuosina ennustettua vaikeammaksi.

15 miljoonaa: Hallituskoalition suunnitelmien mukaan Saksan teillä on määrä olla 15 miljoonaa akkusähköautoa vuoteen 2030 mennessä. Toistaiseksi niitä on vain miljoona. F.A.Z:lla on käytössään Saksan digitaali- ja liikenneministeriön sisäisiä laskelmia, joiden mukaan 15 miljoonaa autoa varten tarvitaan 90.000 tonnia litiumia ja 120.000 tonnia kobolttia.



Kansainvälinen tilanne: Kansainvälinen vuosituotantomäärä on 105 000 tonnia litiumia ja 165 000 tonnia kobolttia. Standard & Poor's Global Mobilityn analyytikot odottavat, että seuraavien kahdeksan vuoden aikana vuoteen 2030 mennessä valmistetaan noin 220 miljoonaa akkusähköautoa. Nykyteknologian perusteella autojen valmistukseen tarvittava kysyntä seuraavien kahdeksan vuoden aikana on 157 prosenttia vuoden 2021 maailman litiumtuotannosta ja koboltin osalta 133 prosenttia vuoden 2021 maailmantuotannosta.

Sähkönkulutus: Liikenneministeriö tutkii myös kysymystä energiansaannista Saksassa vuonna 2030 toivottuja 15 miljoonaa sähköautoa varten. Tutkimuksen mukaan vuonna 2030 tarvittaisiin 45 terawattituntia lisää sähköä, mikä vastaisi 7,9 prosenttia Saksan sähkönkulutuksesta vuonna 2021. Nykyisenä talvena 50 prosenttia Saksan sähköntarpeesta katetaan edelleen joinakin päivinä hiilellä. Tällaisella sähköntuotantoyhdistelmällä sähköautot eivät ole yhtään sen ilmastoystävällisempiä kuin polttomoottoriautotkaan.

 

Lähde: FAZ 30.1.2023