|
Opvallend is dat we op een paar typen teksten, met name transcripten
van sessies van het Europees Parlement, en Europese wetsteksten, met
ons elementaire model al een bekend traditioneel systeem, Systran (ook
wel bekend als Babelfish) voorbij zijn gestreefd. Dat komt vooral
omdat wij ons model kunnen trainen op het typerende taalgebruik binnen
zo'n domein, terwijl het 40-jaar oude Systran gemaakt is om zo
algemeen mogelijk toepasbaar te zijn (wat onze systemen dus niet
zijn), maar niet zomaar kan bijleren op basis van voorbeelden.
Ik ben taaltechnoloog, en als ik praat over mijn werk, zeker als dat
met collega's is, dan lijkt dat al snel op een vergelijkende autotest
in Top Gear. Hoewel ik altijd warm loop voor het optimaliseren van
technische oplossingen, ligt mijn wezenlijke interesse ook op het vlak
van de taalkunde. De indruk kan bestaan alsof ik de taalkunde in mijn
werk zoveel mogelijk wegstop, en triomfantelijk roep: kijk eens wat ik
kan zonder grammatica of betekenis! Maar ik doe het helemaal niet
zonder grammatica of betekenis. Als onze modellen dt-fouten
kunnen detecteren, dan bezitten ze grammaticale kennis, want het is
een morfo-syntactisch probleem. Als mijn modellen kunnen vertalen, dan
bezitten ze kennis van betekenis, want een succesvolle vertaling
betekent ongeveer hetzelfde als het origineel. Uw vraag is: waar zit
dan die kennis? Mijn antwoord is: die bevindt zich in het proces van
analoog redeneren op basis van grote hoeveelheden voorbeelden.
Grammatica en betekenis als proces, het is even wennen misschien. In
mijn ogen is het precies dat wat ons vakgebied bedoelt als het zich
profileert met de naam natural language processing, natuurlijke
taalverwerking. Het gaat ons om het modelleren van de processen
die plaatsvinden in taalgebruik; in het voeren van een dialoog, bij
het vertalen, bij het omvormen van een tekst met fouten naar een
correctere tekst, en ook in het beantwoorden van vragen, het
samenvatten of parafraseren van tekst, of het uitspreken van tekst, om
een aantal Tilburgse onderzoeksonderwerpen te noemen.
Een belangrijke eigenschap van mijn impliciete grammatica- en
betekenismodellen is dat het geen black boxes, ondoorzichtige modellen
zijn. Ze laten zich wel degelijk bekijken, doormidden snijden, en
kwantitatief opmeten. Ze zijn alleen wel erg groot, met
honderdduizenden tot miljoenen onderdelen, maar dat houdt vooral in
dat er nog werk ligt in het vinden van goede analysemethoden om deze
modellen beter te begrijpen. Er is in ieder geval weinig
minimalistisch te ontdekken aan deze modellen; je zou ze eerder
maximalistisch kunnen noemen. Maar wie zegt dat een model van taal
minimalistisch moet zijn?
Met die retorische vraag resonerend in uw hoofden wil ik mijn
bereidheid tonen om de discussie aan te gaan met iedereen die zich
taalkundige noemt en voelt. Is het idee van grammatica en betekenis
als proces, een werkbaar idee? Sluit het aan bij bestaande
niet-computationele modellen van taal, en waar vloekt het mee? De
tekenen zijn goed. In gesprekken met mijn Tilburgse collega's Ad
Backus, Maria Mos, Seza Dogruoz en Anne Vermeer komen onze ideeën
als puzzelstukken bij elkaar. Walter Daelemans heeft in Antwerpen in
de laatste vijftien jaar een brug kunnen slaan met de
psycholinguistiek, bijvoorbeeld via het werk van Emmanuel Keuleers,
waardoor onze modellen inmiddels ook gebruikt worden om menselijk
taalgedrag te modelleren.
Naast de buitenwaards gerichte blik is er natuurlijk de zorg voor het
eigen bouwwerk. Daarin ben ik niet alleen; ik ben rijkelijk omringd
door gelijkgestemden in de ILK onderzoeksgroep, en het Tilburg centre
for Creative Computing. Vanuit deze fantastische inbedding wil ik in
mijn ambt als hoogleraar toch zeker de volgende twee doelen voor ogen
hebben en houden.
Ten eerste wil ik een nieuw taalkundig model presenteren: het
impliciete taalkundige model, waar ik vandaag al over sprak. Hierbij
sta ik op de schouders van generaties van wetenschappers die al sinds
de jaren '50 bouwen aan analoog redenerende lerende systemen, in het
bijzonder de ontwikkelaars van symbolische inductieve leertechnieken,
bijvoorbeeld de instance-based learning algoritmes van David Aha en
collega's (Aha et al., 1991). En om een andere inspiratiebron
te noemen, ik gebruik ook de sterke schouders, net zoals Google dat
doet, van ontwikkelaars van impliciete taalmodellen voor het
terugvinden van documenten, ofwel information retrieval, een sterke
discipline in Nederland (Hiemstra, 2001; Kraaij, 2004), bovendien net
nog verder versterkt met een nieuwe hoogleraar, Wessel Kraaij, in
Nijmegen. Ik sta ook op de schouders van de ontwikkelaars van
statistische taalmodellen (Jelinek, 1998), en statistische en
exemplaar-gebaseerde modellen voor automatisch vertalen (Nagao, 1984;
Carl en Way, 2004).
Deze ideeën bestaan dus allemaal al, maar onder vele verschillende
namen. Tegelijkertijd is de equivalentie tussen al deze modellen
eenvoudig te zien. Ze zijn allemaal gebaseerd op analoog redeneren
tussen gememoriseerde en nieuwe voorbeelden. Het is niet mijn
bedoeling om de mensen op wiens schouders ik sta uit te leggen dat ik
een betere terminologie heb gevonden voor hun werk. Ik wil vooral naar
buiten toe, naar de beschrijvende en toegepaste taalkunde, de
psycholinguistiek, de sociolinguistiek, de diachrone taalkunde, en
alle aanverwante vakgebieden binnen en buiten de ruime cirkel van
taalstudies laten zien dat de computerlinguistiek, geboren uit het
huwelijk van de taalkunde en de kunstmatige intelligentie, in een
betrekkelijk zelfstandig proces van enkele decennia een breed
inzetbaar model heeft geproduceerd waarin betekenis en syntax geen
meta-talen zijn, maar processen.
|