Het volgende woord 1    2    3    4    [huidige pagina]    6    7

We zitten in de constructiefase van het model, waarin we voorbeelden krijgen van vertaalde zinnen. We hebben voor één zo'n zin vastgesteld welke woorden elkaars vertaling zijn, waarschijnlijk (dat hebben we op dezelfde manier vastgesteld als ik eerder schetste met "sterke koffie"). We beginnen met de Nederlandse kant, en splitsen de zin op in losse rijtjes van drie woorden, waarbij ieder woord het midden is van één rijtje. Vervolgens koppelen we ieder Nederlands rijtje van drie aan een Engels rijtje, waarbij dus de middelste woorden elkaars vertaling zijn. Stel nu dat we deze zin willen vertalen, dan gaat dat perfect, want we hebben alle benodigde informatie in ons geheugen zitten. Het enige dat nog ontbreekt is de juiste woordvolgorde in de Engelse zin. Dat lossen we op door uit te gaan van de overlap tussen de rijtjes van drie, want die bevatten impliciet de informatie die je nodig hebt om de Engelse volgorde terug te krijgen. In het ideale geval, zoals bij deze zin die we als voorbeeld al kennen, kunnen we perfect de juiste Engelse zin herfabriceren.

 

 

Wat veel belangrijker is dan het terug kunnen genereren van vertalingen die je kent, is het vertalen van nieuwe zinnen. Het goede nieuws is dat de methode blijft werken, al gaat het al snel niet meer zo perfect als in het voorbeeld. Het blijft grotendeels werken omdat voorspellingen van rijtjes van drie gedeeltelijk fout mogen zijn, zolang er maar een beetje overlap is tussen rijtjes (één woord is al genoeg). Met deze eenvoudige methode doen we het nog niet eens zo slecht. We doen het niet zo goed als Google Translate, de online vertaalmachine van Google die in grote lijnen dezelfde aanpak als de onze volgt, maar wel met constructies werkt, en over veel meer voorbeelden en veel meer grotere computers kan beschikken. De scores, gemeten met de zogenaamde BLEU-evaluatiemetriek, liggen tussen 0 en 100. Teruggerekend naar een cijfer tussen de 0 en de 10 halen we tenminste op wetsteksten een zes. Het klinkt naar zesjescultuur, maar ik durf toch te zeggen dat we hiermee best tevreden zijn, zeker gezien de radicale simpelheid van ons model.

Opvallend is dat we op een paar typen teksten, met name transcripten van sessies van het Europees Parlement, en Europese wetsteksten, met ons elementaire model al een bekend traditioneel systeem, Systran (ook wel bekend als Babelfish) voorbij zijn gestreefd. Dat komt vooral omdat wij ons model kunnen trainen op het typerende taalgebruik binnen zo'n domein, terwijl het 40-jaar oude Systran gemaakt is om zo algemeen mogelijk toepasbaar te zijn (wat onze systemen dus niet zijn), maar niet zomaar kan bijleren op basis van voorbeelden.

Ik ben taaltechnoloog, en als ik praat over mijn werk, zeker als dat met collega's is, dan lijkt dat al snel op een vergelijkende autotest in Top Gear. Hoewel ik altijd warm loop voor het optimaliseren van technische oplossingen, ligt mijn wezenlijke interesse ook op het vlak van de taalkunde. De indruk kan bestaan alsof ik de taalkunde in mijn werk zoveel mogelijk wegstop, en triomfantelijk roep: kijk eens wat ik kan zonder grammatica of betekenis! Maar ik doe het helemaal niet zonder grammatica of betekenis. Als onze modellen dt-fouten kunnen detecteren, dan bezitten ze grammaticale kennis, want het is een morfo-syntactisch probleem. Als mijn modellen kunnen vertalen, dan bezitten ze kennis van betekenis, want een succesvolle vertaling betekent ongeveer hetzelfde als het origineel. Uw vraag is: waar zit dan die kennis? Mijn antwoord is: die bevindt zich in het proces van analoog redeneren op basis van grote hoeveelheden voorbeelden.

Grammatica en betekenis als proces, het is even wennen misschien. In mijn ogen is het precies dat wat ons vakgebied bedoelt als het zich profileert met de naam natural language processing, natuurlijke taalverwerking. Het gaat ons om het modelleren van de processen die plaatsvinden in taalgebruik; in het voeren van een dialoog, bij het vertalen, bij het omvormen van een tekst met fouten naar een correctere tekst, en ook in het beantwoorden van vragen, het samenvatten of parafraseren van tekst, of het uitspreken van tekst, om een aantal Tilburgse onderzoeksonderwerpen te noemen.

Een belangrijke eigenschap van mijn impliciete grammatica- en betekenismodellen is dat het geen black boxes, ondoorzichtige modellen zijn. Ze laten zich wel degelijk bekijken, doormidden snijden, en kwantitatief opmeten. Ze zijn alleen wel erg groot, met honderdduizenden tot miljoenen onderdelen, maar dat houdt vooral in dat er nog werk ligt in het vinden van goede analysemethoden om deze modellen beter te begrijpen. Er is in ieder geval weinig minimalistisch te ontdekken aan deze modellen; je zou ze eerder maximalistisch kunnen noemen. Maar wie zegt dat een model van taal minimalistisch moet zijn?

Met die retorische vraag resonerend in uw hoofden wil ik mijn bereidheid tonen om de discussie aan te gaan met iedereen die zich taalkundige noemt en voelt. Is het idee van grammatica en betekenis als proces, een werkbaar idee? Sluit het aan bij bestaande niet-computationele modellen van taal, en waar vloekt het mee? De tekenen zijn goed. In gesprekken met mijn Tilburgse collega's Ad Backus, Maria Mos, Seza Dogruoz en Anne Vermeer komen onze ideeën als puzzelstukken bij elkaar. Walter Daelemans heeft in Antwerpen in de laatste vijftien jaar een brug kunnen slaan met de psycholinguistiek, bijvoorbeeld via het werk van Emmanuel Keuleers, waardoor onze modellen inmiddels ook gebruikt worden om menselijk taalgedrag te modelleren.

Naast de buitenwaards gerichte blik is er natuurlijk de zorg voor het eigen bouwwerk. Daarin ben ik niet alleen; ik ben rijkelijk omringd door gelijkgestemden in de ILK onderzoeksgroep, en het Tilburg centre for Creative Computing. Vanuit deze fantastische inbedding wil ik in mijn ambt als hoogleraar toch zeker de volgende twee doelen voor ogen hebben en houden.

Ten eerste wil ik een nieuw taalkundig model presenteren: het impliciete taalkundige model, waar ik vandaag al over sprak. Hierbij sta ik op de schouders van generaties van wetenschappers die al sinds de jaren '50 bouwen aan analoog redenerende lerende systemen, in het bijzonder de ontwikkelaars van symbolische inductieve leertechnieken, bijvoorbeeld de instance-based learning algoritmes van David Aha en collega's (Aha et al., 1991). En om een andere inspiratiebron te noemen, ik gebruik ook de sterke schouders, net zoals Google dat doet, van ontwikkelaars van impliciete taalmodellen voor het terugvinden van documenten, ofwel information retrieval, een sterke discipline in Nederland (Hiemstra, 2001; Kraaij, 2004), bovendien net nog verder versterkt met een nieuwe hoogleraar, Wessel Kraaij, in Nijmegen. Ik sta ook op de schouders van de ontwikkelaars van statistische taalmodellen (Jelinek, 1998), en statistische en exemplaar-gebaseerde modellen voor automatisch vertalen (Nagao, 1984; Carl en Way, 2004).

Deze ideeën bestaan dus allemaal al, maar onder vele verschillende namen. Tegelijkertijd is de equivalentie tussen al deze modellen eenvoudig te zien. Ze zijn allemaal gebaseerd op analoog redeneren tussen gememoriseerde en nieuwe voorbeelden. Het is niet mijn bedoeling om de mensen op wiens schouders ik sta uit te leggen dat ik een betere terminologie heb gevonden voor hun werk. Ik wil vooral naar buiten toe, naar de beschrijvende en toegepaste taalkunde, de psycholinguistiek, de sociolinguistiek, de diachrone taalkunde, en alle aanverwante vakgebieden binnen en buiten de ruime cirkel van taalstudies laten zien dat de computerlinguistiek, geboren uit het huwelijk van de taalkunde en de kunstmatige intelligentie, in een betrekkelijk zelfstandig proces van enkele decennia een breed inzetbaar model heeft geproduceerd waarin betekenis en syntax geen meta-talen zijn, maar processen.

 

1    2    3    4    [huidige pagina]    6    7
Last update: