De Roskam

Hoogleraren over taalgedrag mens en machine

Huwelijk van software, hardware en bioware

 

Tekst: Enno de Wit

Overgenomen uit de ROSKAM

12 september 1997

 

Dat cognitief wetenschapper en schrijver Douglas R. Hofstadter deze zomer juist op de UT een praatje kwam houden naar aanleiding van zijn boek over vertalen is niet helemaal toevallig. Binnen de faculteit Informatica wordt hard gewerkt aan machinevertalingen en leren ze computers wat taal is en hoe die te gebruiken. Dankzij de voortschrijdende techniek zal de computer steeds meer kunnen en steeds overtuigender voor mens kunnen spelen. Bij de computer kaartjes bestellen voor de Twentse Schouwburg ligt al in het verschiet.Voorlopig blijft zijn rol nog beperkt tot dergelijke nauw afgebakende gebieden en of dat ooit anders zal zijn is de vraag. De stand van zaken op het raakvlak van software, hardware en bioware, waar twee culturen een vruchtbaar huwelijk aangaan.

De onderzoeksgroep die binnen de faculteit Informatica werkt aan zulke boeiende onderwerpen als computationele linguïstiek, taaltechnologie en toepassingen daarvan in de informatica en de mens-machinecommunicatie, heet Parlevink. De naam werd bedacht door hoogleraar Anton Nijholt: "Parlevinken is doelloos kletsen. We hadden hier niet vanaf het begin meteen een heel duidelijk doel, het was meer: dit is een leuk vakgebied, laten we daaraan gaan werken."

Nijholt heeft een verleden in de informatica, zijn collega en eveneens hoogleraar Franciska de Jong komt uit de taalkunde. Vanuit twee verschillende uitgangspunten werken zij aan dezelfde problemen. Twee benaderingen van taal die vroeger diametraal tegenover elkaar stonden komen elkaar halverwege tegen.

De Jong: "We zijn alletwee vanuit een verschillende achtergrond naar een steeds duidelijker herkenbaar onderzoeksterrein gegroeid."

Nijholt: 'Zes jaar geleden was het begrip natuurlijke taal binnen deze faculteit een vies woord. Daar hielden wij ons als harde informatica en als technici niet mee bezig, dat was een zaak van linguïsten. Mijn onderwerp is altijd de formele taaltheorie geweest - grammatica, syntaxis, de pure vorm - niet de semantiek, de inhoud. Omdat programmeertalen formele talen zijn was dat binnen de informatica wel geaccepteerd. Langzamerhand zie je binnen de informatica ook allerlei nuttige toepassingen van natuurlijke spraak en taal. Het is dan erg aardig als je iemand binnen de faculteit hebt die die achtergrond heeft, die niet als een informaticus ook nog een beetje taal erbij gaat doen."

De Jong: "In de taalwetenschap zijn er de afgelopen decennia stappen gezet om te kijken in hoeverre je natuurlijke talen ook zou kunnen beschrijven als een formeel systeem. Dat gebied is vanzelf ook interessant voor de mensen hier, omdat ze methodes die ze hier gebruiken ook kunnen toepassen op talen die over het algemeen in de informatica niet geanalyseerd worden. Taal die voor het oprapen ligt. Als je dat eenmaal op een theoretisch vlak bestudeert, raak je vanzelf geïnteresseerd in de toepassingen, en dan kom je heel dicht op het terrein waaruit je vanuit de letteren ook kunt komen.'

 

Kloof

Er gaapt een diepe kloof tussen natuurlijke talen, zoals Nederlands, Engels en Swahili, en de formele talen, die zijn bedacht voor een specifieke toepassing, zoals computertalen.

Natuurlijke talen zijn chaotisch, ze ontwikkelen zich voortdurend, volgens moeilijk te doorgronden processen. Het is niet zo vreemd dat nog niet één natuurlijke taal volledig is beschreven. Formele talen zijn fundamenteel anders, ze bergen geen enkele verrassing in zich, het zijn niet meer dan verzamelingen afspraken zonder uitzonderingen, alles klopt en past in elkaar en de dubbelzinnigheid die de natuurlijke talen teistert ontbreekt.

De onderzoeksgroep Parlevink werkt aan het overbruggen van die kloof, door het formaliseren van stukjes natuurlijke taai voor praktische toepassingen.

Nijholt: "Je kunt nu al een telefoontje plegen naar Reisinformatie Openbaar Vervoer informatie en dan word je geholpen door een computer, dus je ziet toepassingen van spraak en taal, waarbij het nodig is bepaalde aspecten van natuurlijke taal te modelleren, want anders kun je niks programmeren.J e moet één of ander wiskundig formeel model hebben om het op de computer te kunnen zetten. Wij doen pogingen om aspecten van natuurlijke taal te formaliseren, daar grammaticaformatismen voor te maken, de logica te gebruiken voor betekenis."

De Jong: "Je abstraheert vanuit de hoeveelheid chaos die er ook in zit. Je probeert een systeem te maken dat dat deel van de taai eruit licht waar het systeem wel wat mee kan.'

Nijholt: "Je kunt het erover eens zijn dat het Nederlands regels heeft, dat er dus een grammatica van het Nederlands is. of je die kunt beschrijven en of die voor iedereen gelijk is, dat is een tweede: je kunt van mening verschillen of een bepaalde constructie wel of niet is toegestaan. Desondanks kun je proberen een grammatica, een formeel model van een syntaxis op te stellen. Je kunt duizenden regels maken waarmee je een groot deel van de syntaxis van het Nederlands kunt beschrijven, een theorie die altijd algemeen geldend zou moeten zijn. Als je dan kijkt naar een bepaalde simpele toepassing, dan kun je toch proberen iets van die grammatica te gebruiken.Je hebt hem niet helemaal nodig, misschien zou je zonder kunnen, maar we proberen de algemene principes ook in de produkten en systemen die we ontwerpen onder te brengen, omdat we hopen dat we zo de kans op generaliseerbaarheid vergroten. We zetten niet als pure knutselaars een systeempje in elkaar dat werkt - we proberen toch wel verworvenheden van de linguïstiek of van de artificiële intelligentie op het gebied van kennisrepresentatie en dergelijke in ons systeem onder te brengen.Wat we aan het maken zijn moet wel elegant zijn."

 

Chaotisch

Binnen de linguïstiek is men heel lang bezig geweest om alles van taal te beschrijven, waarna ze wel even een computer zouden bouwen die gewoon de ene taal in de andere kon vertalen. Daar kwam niet veel van terecht. Natuurlijke taal bleek te weerbarstig, te creatief, te dubbelzinnig. Nijholt: "Op ieder moment gebruik je taal weer anders. Kijk maar eens naar ons gesprek. We begrijpen elkaar en toch is het chaotisch."

De Jong: "In een geschreven tekst zit over het algemeen iets minder chaos, maar een belangrijk probleem blijft de dubbelzinnigheid van natuurlijke taal. Je hebt eigenlijk twee soorten kennis nodig voor vertalen: je moet de taalstructuur kunnen analyseren, inclusief de chaos, en je moet kennis over de werkelijkheid hebben om de beoogde betekenis eruit te kunnen lichten, want de meeste taaluitingen hebben meer dan één interpretatie. Combinaties van woorden kunnen iets bijzonders gaan betekenen, losse woorden betekenen vaak meer dan één ding, dus als je een zin hebt met tien woorden dan is er vaak al een explosie van mogelijke interpretaties. In het gewone taalgebruik heb je daar geen last van, want je gebruikt al je andere bronnen van kennis om daarin een selectie aan te brengen."

Nijholt: "Een informaticus probeert dan toepassingen te vinden voor die theorie, die niet perfect is. Waarbij je dan soms moet accepteren dat het systeem niet altijd perfect het goede doet. Als je bepaalde aspecten van natuurlijke taal weet te formaliseren, dan kun je dat ook een theorie noemen, alleen beschrijft die theorie niet alles. ie uitgangspunt is niet de natuurlijke taal. maar de toepassing."

 

Startpunt

De groep werkt momenteel aan verschillende systemen voor de communicatie tussen mens en computer. Straks kun je door de telefoon en via internet bij de computer hotelkamers of theaterkaartjes reserveren. Dergelijke toepassingen moeten de opvolgers worden van de bestaande voice response systemen ('Wilt u naar Afrika toets een één, wilt u naar Azië toets een twee...'). De beller moet duidelijk spreken en geen woorden gebruiken die de computer niet kent, zoals 'Inderdaad' (moet 'ja' zijn).

Telkens als de computer iets niet begrijpt meldt hij dat en moet de beller iets anders proberen. De computer bevestigt ook telkens wat er wordt gevraagd ('ik wil van Amsterdam naar Groningen...'-'U wilt van Amsterdam naar Groningen...') om zo min mogelijk fouten te maken. Echt ideaal is het allemaal dus nog niet, maar het werkt, en dat is al heel wat.

Nijholt: 'Dit is een startpunt. Nu is dit systeem er, vervolgens kunnen we zeggen dat we eigenlijk willen dat de dialogen veel natuurlijker verlopen. We willen niet dat alles wat we zeggen bevestigd wordt, het systeem moet het begrijpen. Je kunt ook proberen de spraakherkenning op een hoger niveau te brengen, of de gebruiker meer vrijheid geven. Zo komen we tot betere systemen waarmee je een groter terrein van dialogen modelleert.'

De Jong: 'Vervolgens kun je het gaan toepassen op andere domeinen, tot daar weer andere problemen opduiken.Het is al spectaculair dat het nu in vijftig procent van de gevallen goed gaat. Daarmee is het nog niet marktrijp, maar een spreker-onafhankelijke spraakherkenning via de telefoon is toch iets dat onze harten sneller doet kloppen. Vijf jaar geleden dachten we niet dat het op zo korte termijn zou lukken." Er moet nog wel heel wat gebeuren, voordat een computer kan spreken en luisteren, voordat we niet meer merken of we met een mens of met een machine praten. De Jong: "Je moet twee dingen onderscheiden: aan de ene kant de spraakherkenning, aan de andere kant de dialoogmodeliering en -sturing. Spraakherkenning heeft grote sprongen voorwaarts gemaakt de laatste jaren. Dat je die daarna kunt toepassen in een dialoogomgeving is een volgende stap. Vijf jaar geleden had je wel spraakherkenning, maar die vereiste training door de gebruiker, zoals bij dicteersystemen, die gewend raken aan de eigenaardigheden van je spraak.

Verder moet je nog weten of woorden in isolement of in de context van een hele zin moeten worden herkend, het onderscheid tussen verbonden en niet-verbonden spraak. Bij identificatie via de telefoon spreken mensen één zin of één woord uit, hier heb je een hele zin, waar wel twintig woorden in kunnen zitten en die worden allemaal aan elkaar geplakt. Voor het geluidssignaal maakt het niets uit of je een woordgrens hebt of een overgang tussen twee lettergrepen."

 

Dubbelzinnig

De ambiguïteit is een groot probleem bij het doorgronden van taal en uiteindelijk het laten luisteren en spreken van computers: een woord kan al dan niet afhankelijk van de context - de zin, de omgeving waarin het staat - verschillende betekenissen hebben.

De Jong: "We zijn betrokken bij een project dat gericht is op het toegankelijk maken van informatie over duurzame ontwikkeling, via internet, en dan op zo'n manier dat als je een zoekvraag intikt in bijvoorbeeld het Nederlands, het systeem ook documenten vindt in het Frans, Duits of Engels. Daar is een vertaalslag voor nodig, tijdens de zoekactie of bij het bouwen van de database, maar hoe dan ook heb je een woordenboek nodig dat rekening houdt met de specifieke vertaalrelaties in dat onderwerpsdornein."

"Het woord 'gevaarlijk' kan in het Engels 'dangerous' of 'hasardous' zijn. In de context van duurzame ontwikkeling zijn er heel veel documenten waarin 'hasardous' de beste keus is.In een woordenboek vind je die informatie niet. De onderzoeker heeft nu een algoritme losgelaten op teksten die elkaars vertaling zijn, waarmee hij gevonden heeft met welke waarschijnlijkheid een woord in een ander woord vertaald wordt. Dan vind je bijvoorbeeld dat je bij 'gevaarlijk' een kans van tachtig procent hebt dat je het naar 'hasardous' moet vertalen. Dat betekent niet dat je het nooit met 'dangerous'zou moeten vertalen, maar dat, als je moet kiezen en je hebt niet meer informatie, 'hasardous' een betere keus is. Het alternatief is een woordenboek als Van Dale gebruiken, en daar zit helemaal geen ordening in, dus dan is de kans nog veel groter dat je een verkeerde keus maakt.'

Een andere mogelijkheid is nog meer naar de context kijken, maar in die context zitten ook weer woorden waarvan de betekenis uit de context moet worden opgemaakt, et cetera, en dat loopt al gauw uit de hand. De beste weg is daarom een beredeneerde gok.

Nijholt: "Maar wat heb je liever: dat je niet tegen een buitenlander kunt praten, of dat je wel met hem kunt praten met een paar foutjes?"

 

Vergeet het maar

Bij het schrijven van handleidingen voor apparaten en machines. de zogenaamde onderhoudsmanuals, wordt er al rekening gehouden met een machinevertaling. Nijholt: "Er wordt een beperkte subset van een natuurlijke taal gebruikt. Als je je maar binnen een bepaald domein blijft bewegen, is de kans groot dat het systeem je begrijpt. Iemand krijgt eerst een opleiding van een paar weken om in simpele taal te schrijven. Je werkt bijvoorbeeld met een vocabulaire van duizend woorden, waar soms nieuwe termen aan worden toegevoegd, en een verbod op het gebruik van bepaalde constructies: je mag geen passieve zinnen gebruiken en zinnen mogen niet langer dan zoveel woorden zijn. Na die training weet iedereen zijn taaltje zonder problemen te schrijven. Dan heb je het voor een computer een stuk makkelijker gemaakt om een vertaling te maken. Het probleem is het generaliseren vanuit al die simpele toepassingen. Het vakgebied staat in de kinderschoenen en het is de vraag of het ooit verder komt. Wel verwacht ik dat we steeds meer toepassingen krijgen en dat die steeds meer kunnen. Dat komt door betere computers, en ook wel door inzichten. Die zijn alleen niet algemeen toepasbaar. Het is niet mogelijk een theorie te bouwen, zo dat alles er naadloos in past."

Waarom dat niet kan ligt voor de hand: taal is veel meer dan alleen de beschrijving van een taal. Bij communicatie komt veel meer kijken.

Nijholt: "Je hebt aan de ene kant de linguïstiek, en aan de andere kant hoe mensen met elkaar omgaan, hoe ze in de wereld staan, hun gezonde verstand et cetera. Dat kun je op een andere manier modelleren dan taal. Maar je hebt gezond verstandkennis wel nodig om op een goede manier met elkaar te kunnen communiceren of om bepaalde teksten te kunnen begrijpen. leder zinnetje moet in zijn context begrepen worden, en die context is meer dan de zinnetjes die links en rechts daarvan staan, het is de hele cultuur van de lezer. Gezond verstand, wat hij of zij heeft meegemaakt, alle ervaringen spelen een rol.'

"Je kunt een theoretisch kader hebben voor de taalkant, maar je hebt ook een theoretisch kader nodig voor intelligentie. Alles moet er eigenlijk bij gehaald worden als je het taalgedrag van een mens wilt beschrijven. Dat betekent dat je eigenlijk een theoretisch kader nodig hebt waarmee je de hele mens kunt beschrijven. Alleen op die manier kun je er voor zorgen dat je een machine krijgt die zo'n tekst kan begrijpen. Vergeet dat voorlopig maar. Laten we zeggen: tot het jaar drieduizend.'

 

Poëzie

Het vertalen van gedichten - en van humor - wordt het allerlaatste dat een computer zal kunnen, als het ooit al zal lukken. Het vertalen van gedichten gaat zelfs mensen boven de pet. In Le ton beau de Marot geeft Hofstadter een stuk of honderd vertalingen van één en hetzelfde gedicht, en allemaal anders.

De Jong: "Er is geen noodzaak poëzie te vertalen. Waarom wil je een vertaling van literatuur, niet voor nuttige informatieoverdracht, maar voor iets anders? Waarom houden mensen zich überhaupt bezig met dingen die niet meteen brood op de plank brengen?"

"Dat maakt deel uit van ons bestaan en van onze cultuur en van het spel dat sommige mensen met elkaar spelen en dat anderen net weer iets anders spelen en daar kun je uiteindelijk geen eenduidig antwoord op verwachten. In de vertaalwetenschap woeden discussies over welke elementen je moet meevertalen en welke niet. Je hebt hele scholen, hele stammenstrijden. Zo krijg je verschillende vertalingen van één gedicht, die allemaal een eigen leven leiden en deel gaan uitmaken van de connotaties die bij dat gedicht horen en bij de emoties die mensen; daarbij hebben."

Wat opviel aan de vertalingen in het boek van Hofstadter, is dat de computers er bijzonder weinig van bakten.

Nijholt: "Het is misschien interessanter een computer gedichten te laten schrijven dan te vertalen."

 

IJskast

Artificiële (kunstmatige) Intelligentie (AI) werkte ooit aan het maken van een model van het menselijk denken. Die ambitie is inmiddels losgelaten, in ruil voor veel bescheidener doelen. Hoe een resultaat tot stand komt is ondergeschikt aan het resultaat zelf. Hoe de processen in ons hoofd precies werken is niet echt van belang en de hoop op een theorie die de menselijke geest verklaart en in een model kan vatten is voorlopig in de ijskast gezet. Ze zijn er op de UT niet echt rouwig om.

De Jong: "Het is maar de vraag of een volledige theorie ook toepasbaar zou zijn geweest. Er zijn altijd weer nieuwe probleemgebieden, die niets te maken hebben met die taaltheoretisch interessante vragen. Eigennamen en alles daaromheen onttrekt zich bijvoorbeeld aan de systematiek van de grammatica. Er zijn nog veel meer gevallen te bedenken waarbij je aan een algemeen kader uiteindelijk toch weer niet genoeg hebt. Het is wel interessant, maar we hebben tot nu toe nog geen voorbeelden gezien waarmee ons werk, het bouwen van taalverwerkingssystemen, simpeler wordt."

Nijholt: "Vanuit de psycholinguïstiek zijn er toch wet allerlei ideeën over hoe een grammaticaformalisme er uit moet zien en vanuit die ideeën kom je soms tot formalismen die bruikbaarder zijn dan andere. Het is dus niet zo dat we daar niet naar willen kijken. Er is hier onderzoek gedaan naar neurale netwerken, waarin een poging werd gedaan om bepaalde dingen die in de hersenen voorkomen ook in computermodellen onder te brengen. Het doel was om met neurale netwerken taal te herkennen, syntactische structuren te ontdekken, en te kijken of we die netwerken konden gebruiken om aspecten van taal te leren." "Het is redelijk gelukt om met dit systeem een aantal aspecten van taal te modelleren, zoals bepaalde volgordes. Het programma ontleedde zinnen, verder ging het niet. Het idee was simpel te beginnen en het systeem blootstellen aan ervaringen, dat wil zeggen aan zinnetjes, waardoor het zichzelf kon ontwikkelen en knapper worden, een lerend programma dus. Dat was heel fundamenteel en interdisciplinair onderzoek en nog nergens in toepasbaar. Het is ook een heel andere aanpak dan binnen de linguïstiek gebruikelijk is." "We deden het omdat we het leuk vonden. Zo gauw iemand hier enthousiast over de gang loopt doet het onderwerp er eigenlijk al niet te veel toe. We vonden het ook goed om op atomair niveau theorie te ontwikkelen en alles mee te nemen, zo algemeen mogelijk een theorie op te zetten over hoe je taal kunt herkennen en interpreteren."

 

Lachen

Net als poëzie onttrekt ook humor zich grotendeels aan formalisering. Toch zijn er voor grappen soms wel onderliggende regels aan te wijzen. Hofstadter signaleerde een aantal oer-moppen, stramienen waarop een heleboel varianten passen. Nijholt organiseerde vorig jaar een conferentie met de pakkende titel Computationele Humor., Automatische Interpretatie en Generatie van Verbale Humor.

Nijholt: "Bij een heleboel grappen is toch wel sprake van regels: hoe de grap wordt opgebouwd, hoe hij wordt afgesloten, dat er ergens een soort omslag in zit, dat iemand binnen een bepaald kader denkt, en dat hij door het laatste zinnetje ontdekt dat hij eigenlijk in een ander kader had moeten zitten."

"Er zijn pogingen gedaan om de syntaxis van grappen te maken en vervolgens daarmee grappen te genereren, en dat lukt ook wel, het vervelende is alleen dat zo'n grappengenerator geen criterium heeft van wat grappig is. Hij genereert alleen teksten waarin iets wordt opgebouwd en in de laatste zin weer afgebroken. Wat je nodig hebt is natuurlijk de interpretatie, de twee betekenissen die met elkaar conflicteren."

"In Edinburgh zijn er leuke grappen uitgekomen, maar die zijn door een onderzoeker geselecteerd uit duizenden onzinnige. 'Wat huilt in het voorjaar? Een lente-uitje.' 'Wat krijg je als je een schaap met een kangoeroe kruist? Een woolen jumper'. Je neemt de eigenschappen van een schaap en een kangoeroe en voegt de eigenschappen van de één toe aan de ander, en daar moet dan iets uitkomen wat hopelijk leuk is. "

'Wij hebben zelf ook iets gedaan in die richting. We namen een beschrijvinkje van een deel van de wereld, bijvoorbeeld een restaurant, een bankoverval, een verjaardagspartijtje. Dat kun je redelijk beschrijvingen, niet in detail, maar toch een aantal handelingen. Op die manier kun je kleine wereldjes beschrijven op een enigszins formele manier, waarbij je van alles weglaat. Dan ga je twee van die werelden combineren, dat wil zeggen dat halverwege of waar dan ook de ene in de andere overgaat en hoop je dat er op die manier een grap ontstaat.'

"Je neemt een bankoverval en een restaurant. Een bankrover komt bij het loket en zegt: 'ik wil al je geld'. Zegt degene achter het loket: 'Wilt u daar Franse frietjes bij?' Dat soort grappen zijn op die manier mogelijk. Dat zijn aspecten van het grappen maken die je kunt proberen te modelleren, al is de kennis onvoldoende om de computer zelf te laten beslissen."

Er zijn nog veel meer voetangels en klemmen, waarvoor nog niet eens het begin van een oplossing in zicht is.

Nijholt: "Als je zinnetjes wilt begrijpen en vertalen kom je ook sarcasme en ironie tegen. Er zijn theorieën ontwikkeld om dat te herkennen. Niet dat die goed zijn. Men komt aan met voorbeeldzinnetjes en dan zegt men: als we een theorie hebben, dan maakt die theorie het mogelijk te ontdekken dat dit zinnetje niet letterlijk bedoeld is."

"Ik heb niets aan een syntactische of semantische analyse, het gaat om het effect en de bedoeling van een zin. Onderzoek op het gebied van pragmatiek is nodig, maar dan heb je bij uitstek de context nodig, want een enkele uiting zegt niets over wat ermee bereikt moet worden. Zinnen die je niet letterlijk moet nemen, kom je regelmatig tegen. Ironie en sarcasme behoren tot dezelfde klasse, net als idioom: bepaalde zinnetjes hebben eigenlijk geen betekenis meer. Dat komt vaker voor dan je denkt."

"Als je teksten wilt vertalen, val je heel erg door de mand als je daar een letterlijke vertaling neerzet. Je wilt op zijn minst kunnen herkennen wat er aan de hand is, dus is het zinvol dat mensen werken aan een theorie daarover."

"Maar het blijven heel kleine stapjes en je moet proberen goede toepassingen te vinden. Het is niet zo dat je kunt zeggen: ik heb een schitterende theorie, nu kan ik overal naar kijken. We zijn ver verwijderd van waar men in de jaren zeventig mee bezig was.'