BUITEN ZIJN DOMEIN GAAT ELKE COMPUTERTOLK PLAT

door Mark Traa Trouw, 17 november 1993

,, One cannot describe the whole world", says prof. dr. ir. Anton Nijholt, a professor in informatics and language technology at the TU Twenthe. "And that's why the aims of translation programmes have been adjusted rigorously in the course of the years. "
Vertaalprogramma's kunnen nog steeds niet wat twintig jaar geleden zo gemakkelijk leek: met een woordenboek-op-schijf en een rijtje grammaticaregels teksten van de ene taal in de andere overzetten zonder komisch effect. SILOD, een in Rusland ontwikkeld programma, laat na vertaling in het Russisch en weer terug in het Engels van bovenstaande uitspraak dit heel:
,, Whole world is not possible to describe", informs doctor ir. Anton Nijholt professor in IENFORMATIEKJE and language technology at TU Twenthe. ,,And this - why of purpose of machine translation programs where adjusted during years. "
Een blik in 'Turbotaal' volstaat om in te zien dat de ultieme vertaalmachine er wel nooit zal komen. Woorden als 'artistiekerig' en 'labbekakkig' laten zich niet ongestraft omzetten in het Fins of het Servokroatisch. En zelfs een onschuldig ogende zin als de geest is gewillig maar het vlees is zwak zou na een Nederlands-Russisch-Nederlandse dubbelvertaling iets als de wodka is goed maar het vlees is bedorven opleveren.
"Je kunt de hele wereld niet beschrijven", zegt prof. dr. ir. Anton Nijholt, hoogleraar informatica en taaltechnologie aan de TU Twente. "En daarom zijn de doelstellingen van vertaalprogramma's in de loop der jaren flink bijgesteld."
Nijholt is uiterst voorzichtig bij de beoordeling van een veelbelovende nieuwkomer op de vertaalmarkt: het SlLOD-programma van de in Zwijndrecht gevestigde automatiseringsfirma A & X. Dit belooft beduidend betere, snellere en grammaticaal juiste vertalingen -voor- alsnog uitsluitend naar en vanuit het Russisch - dan de concurrentie.
Hoewel, concurrentie? Nijholt: "Talloze grotere en vooral kleinere bedrijven zijn gekomen en gegaan. De geschiedenis van het machinaal vertalen zit vol bedrog en beetnemerij. Door de jaren heen zijn de zaken altijd veel positiever voorgespiegeld dan ze waren. Toen de resultaten tegenvielen, haakten de geldschieters af."
"Daarom zijn grootscheepse inititatieven van bedrijven als BSO en Philips uiteindelijk spaak gelopen. Die wilden de hele taal in modellen gieten en zo geschikt maken voor vertaling door de computer. Zo'n universeel systeem, dat elke taal kan omzetten in een andere, zal nog lange tijd een illusie blijven."
Inmiddels richten vertaalprogramma's zich voor het gemak op deelgebieden - veelal met vakjargon. De software-ontwikkelaars presenteren deze programma's als 'gebruikersgericht': ze hebben immers een woordenboek vol begrippen die de gebruiker dagelijks op zijn werkterrein bezigt.
Als dit zogeheten 'domein' maar klein genoeg is, kan de vertaalcomputer aardig uit de voeten. In Canada draait al jaren een Engels-Frans programma dat uitsluitend weerberichten vertaalt en daarvoor slechts 1300 woorden en vijf verschillende zinsstructuren nodig heeft. Andere vertaalprogramma's zijn omvangrijker, maar door hun gebrekkige grammaticakennis en relatief geringe woordenschat zijn toepassingen buiten een bepaald vakgebied onmogelijk.
Nijholt: "Het is nog niemand gelukt om de betekenis van een zin te modelleren. Je hebt dan niet alleen te maken met de betekenis van een woord in de context van de zin en de rest van de tekst - de semantiek- maar ook met de zinsstructuur. De bestaande programma's laten het doorgaans bij een van beide afweten. "
"Neem bijvoorbeeld het onderscheid tussen een fles die je op tafel zet en een boek dat je op tafel legt. Als je vanuit het Engelse to put vertaalt, dan zal het programma de juiste keuze moeten maken. Bij de bestaande systemen gaat dit steevast verkeerd. De oplossing van dit soort problemen staat nog in de kinderschoenen. Maar als je genoegen neemt met een klein domein en daarnaast accepteert dat de vertaling niet honderd procent correct is en iemand er achteraf nog naar kijkt, dan kun je best goede software afleveren."
Een vertaalprogramma dat een ruime voldoende scoort voor grammatica en daarnaast een behoorlijke woordenschat heeft, is nog niet te krijgen. Zelfs het vertaalprogramma dat de Europese Gemeenschap gebruikt, SYSTRAN, schiet in dat op zicht flink tekort.
Het nieuwe SlLOD-programma is in middels een van de weinige 'grammaticale' vertaalprogramma's die een operationele toekomst is beschoren. ESTEC, het technologische centrum van de Europese ruimtevaartorganisatie ESA in Noordwijk neemt momenteel proeven met het systeem. De theoretische basis voor SILOD werd vijfendertig jaar geleden al gelegd aan de Pedagogische Universiteit van St. Petersburg. Het programma werd aanvankelijk gebruikt door de GRU, de militaire inlichtingendienst van de voormalige Sowjet-Unie. Onderzoeksleider was al die jaren prof. dr. Rajmund Piotrovski, nog steeds een onbetwiste autoriteit op het gebied van automatische vertalingen.
Prof. dr. Larissa Beliajeva, hoofd van het laboratorium voor machinevertalingen in St. Petersburg, legt in het A & X-kantoor in Zwijndrecht uit hoe SILOD werkt. Het voornaamste verschil met bestaande systemen lijkt de nauwkeurige codering van de woorden in het geheugen en de precisie waarmee het juiste vertaalwoord wordt gezocht. Doordat Russische woorden zo veel verschijningsvormen kennen, luistert dat heel nauw.
Beliajeva: "Het programma zoekt in zijn geheugen informatie bij elk woord. Vervolgens zoekt het combinaties van woorden, waar het denkbeeldige haakjes omheen plaatst Het programma bepaalt wat het belangrijkste woord in zo'n zinsdeel is en wat erbij hoort. Zo ontstaat de structuur voor de vertaling in het Russisch. We herleiden alles tot het hoofdwoord in een woordgroep."
Praktisch gezien heeft deze benadering het voordeel dat onbekende woorden in de oorspronkelijke taal op de juiste plaatsen in de - vertaalde- zin blijven staan. De gebruiker moet de oorspronkelijke taal dan wel kennen om het ontbrekende woord te kunnen invullen.
"Het systeem is niet bedoeld ter vervanging van alle menselijke vertalers", vertelt Beliajeva. "Het is slechts een hulpmiddel dat hen erg veel werk uit handen neemt. Maar correcties achteraf zullen altijd nodig blijven. Wij menen dat gebruikers niet gediend zijn met vijf of zes mogelijke vertalingen voor een onbekend woord. We bieden een oplossing die homogeen is met de rest van de zin. De computer herkent misschien niet de betekenis van een woord maar weet wel of het bijvoorbeeld een bijvoeglijk naamwoord is. Zo blijven de juiste woorden bij elkaar staan."
SILOD kan worden geïnstalleerd op een personal computer en vertaalt dertigduizend woorden per uur. Een A4-tje doet hij in een halve minuut; dit artikel in krap drie minuten. SlLOD werkt met domeinen als 'zakelijk' en 'medisch' elk zo'n dertigduizend woorden groot. Wat als verontschuldiging mag gelden voor wat het programma van de taalkundig getinte uitspraak hierboven maakte.
Volgens A & X-directeur Herman van der Meer zijn er in zijn bedrijf al heel wat aangenaam verraste slavisten op bezoek geweest. "Dit programma is grammaticaal buitengewoon sterk. Dat gaan we nu verder uitbouwen. We zijn bezig met een programma dat aan een ingevoerde tekst kan 'zien' in welke taal en in welk domein het is gesteld. Vervolgens maakt het volledig automatisch een samenvatting: de belangrijkste zinnen worden bewaard. En die kun je uiteraard weer gaan vertalen." Een door A & X op maat gemaakt domein, zoals het 'ruimtevaartdomein' voor ESTEC, kost ruim honderdduizend gulden.
Informaticus Nijholt gunt het nieuwe initiatief het voordeel van de twijfel. "Als het in de praktijk werkt zoals het nu wordt voorgespiegeld, dan is het inderdaad een flinke stap vooruit op het gebied van automatische vertalingen. Het programma gebruikt weliswaar beperkte domeinen, maar de omvang daarvan valt me erg mee. Daarnaast is het prettig dat het programma op een gewone PC draait."
"Maar je kunt pas beoordelen of het een succes is als je anderhalf jaar na de installatie gaat kijken of het nog wordt gebruikt. Heel wat veelbelovende vertaalprogramma's zijn zo een stille dood gestorven."

Back to Anton Nijholt's Homepage.