Ik ben hovenier van beroep en ken dus Latijnse plantennamen. Fastigiata betekent 'zuilvormig', maar wordt vertaald naar 'jassen'. Easculus hippo castanum is 'paardenkastanje', maar 'hippo' wordt vertaald naar 'nijlpaard'. Querqus robur nigra (zomereik) wordt vertaald naar 'Querqus zwart sap' en influenza is griep, maar wordt vertaald naar 'invloed'. Hoe komt dit?
Beste Theo,
Als vertaler herken ik het soort voorbeelden dat je aanhaalt maar al te goed! Typisch voor Google Translate is dat het je de ene keer verbluft door te begrijpen dat je met 'monster' of 'staal' in het laboratorium iets anders bedoelt dan erbuiten, en de volgende keer een fout maakt die op het eerste gezicht volkomen absurd lijkt.
De verklaring ligt in de manier waarop Translate werkt. Googles computers hebben het volledige internet binnen handbereik, inclusief miljoenen meertalige websites: van internationale firma's, bijvoorbeeld, of van de Europese Unie, waar je onder andere alle Europese wetteksten in alle talen van de Unie vindt. Die teksten zijn meestal door mensen vertaald, in het beste geval door professionele vertalers, en bevatten dus een schat aan vertaalkennis. Daar komen nog de miljoenen boeken bij die Google heeft ingescand voor Google Books. Door dezelfde teksten in verschillende talen naast elkaar te leggen, 'leert' Google niet alleen de gangbare vertalingen van afzonderlijke woorden, maar ook die van hele zinsdelen. En dat laatste maakt Google vaak verrassend slim.
Je moet maar eens het volgende proberen: stel Google Translate in om te vertalen van het Nederlands naar het Engels. Typ dan: 'een monster nemen'. Je zult zien dat Google dat correct vertaalt als 'take a sample'. Wis nu het laatste woord en maak ervan: 'een monster bevechten'. En kijk, Google vervangt niet alleen het gewijzigde woord, maar de hele vertaling: 'fighting a monster'! Kennelijk is het in zijn schatkamer van bestaande vertalingen op zoek gegaan naar het geheel, niet alleen naar de afzonderlijke woorden.
Maar die werkwijze heeft ook haar tekortkomingen, en in jouw voorbeelden komen die heel mooi aan het licht.
Deze is het eenvoudigst te verklaren: 'influenza' betekent 'invloed' in het Italiaans. Met een Engelse tekst eromheen had Google vast wel geraden dat je 'griep' bedoelde, maar als je enkel het woord 'influenza' intikt, zonder enige context, kan Google geen gebruik maken van zijn grote troef: het opzoeken van zinsdelen in plaats van afzonderlijke woorden. Op basis van dat ene woord weet Google niet eens uit welke taal het moet vertalen! Dus moet het gaan 'raden', vermoedelijk op basis van statistiek: welke vertaling komt het vaakst voor in Google's database van vertaalde teksten?
Daarbij speelt waarschijnlijk mee dat 'influenza' in het Italiaans een heel gewoon woord is, terwijl het in het Engels en het Nederlands beperkt is tot medisch-wetenschappelijk jargon: in de spreektaal gebruik je doorgaans 'the flu' of 'griep'. Het zou dus weleens kunnen dat Google het woord in zijn database vaker aantreft met de vertaling 'invloed'.
'Hippos' betekent 'paard' in het Oudgrieks, en in combinatie met 'potamos' ('rivier') wordt dat 'hippopotamus': nijlpaard. Dat woord is later door het Engels overgenomen, en wordt dan vaak afgekort tot 'hippo'. Engelse teksten zijn veruit in de meerderheid op het internet, waardoor Google het woord 'hippo' veel vaker aantreft in de betekenis (en met de vertaling) 'nijlpaard' dan in de oorspronkelijke Griekse betekenis 'paard'. Gevolg: op basis van die statistische inschatting maakt Google hier de verkeerde keuze.
Deze is al wat ingewikkelder. Omdat Engelse teksten zoveel talrijker zijn op het internet, beschikt Google over veel meer vertaalkennis van en naar het Engels dan tussen andere talen. Als je dus iets wilt vertalen van het Latijn naar het Nederlands, gebeurt het vaak dat Google daarvoor geen goed voorbeeld aantreft in zijn database, maar wel één van het Latijn naar het Engels. In dat geval maakt het een omwegje: het gebruikt de Engelse vertaling en vertaalt die op haar beurt naar het Nederlands. Maar daardoor wordt de kans op fouten wel veel groter.
Het Latijnse woord 'robur' betekent behalve 'eik' ook '(levens)kracht', en een wat verouderd Engels woord voor levenskracht is 'sap'. Het lijkt erop dat Google in zijn database een aantal teksten heeft gevonden waarin 'robur' zo werd vertaald, en vervolgens de meer gangbare betekenis van het Engelse 'sap' (plantenvocht) heeft vertaald naar het Nederlands.
Deze is het moeilijkst te verklaren. Het lijkt er in elk geval op dat de omweg langs het Engels opnieuw roet in het eten heeft gegooid: als je het woord naar het Engels laat vertalen, krijg je 'Coates'. Met een hoofdletter, en met een 'e', dus het gaat vermoedelijk om een eigennaam, maar het lijkt wel op het Engelse woord 'coats', dat, jawel, 'jassen' betekent.
Maar waar komt die 'Coates' dan vandaan? Heel moeilijk te zeggen, maar ik vermoed dat het woord 'fastigiata' en de naam Coates vaak in elkaars buurt voorkomen, en dat Google bij het naast elkaar leggen van teksten in verschillende talen de verkeerde verbanden heeft gelegd. Als ik even googel, vind ik de Zuid-Afrikaanse botanische illustratrice Olive Coates Palgrave en haar kinderen, eveneens botanici. Zou het kunnen dat het woord 'fastigiata' in een van hun boeken voorkomt, en dat hun naam vaak in die context geciteerd wordt in wetenschappelijke teksten in verschillende talen, waardoor Google is gaan denken dat het ene een vertaling is van het andere? Wie weet!
Conclusie: hoe indrukwekkend Google Translate vaak ook is, ik denk dat mijn job als vertaler nog niet meteen in gevaar komt, en die van jou al helemaal niet!
Bedankt voor uw reactie
Enkel de vraagsteller en de wetenschapper kunnen reageren op een antwoord.