Rede, uitgesproken bij de openbare aanvaarding van het ambt van
hoogleraar Geheugen, Taal en Betekenis aan de Universiteit van Tilburg
op 10 oktober 2008 door dr. Antal van den Bosch.
Mijnheer de rector magnificus, geachte aanwezigen,
Ik prijs me gelukkig, omringd door alle mensen die er voor mij toe
doen, dat ik hier mijn ambt mag aanvaarden met het uitspreken van de
hierna volgende reeks van 4.758 woorden.
Het probleem van het volgende woord
Woorden zijn net groepsdieren. In lange rijen zien we ze voorbij
trekken op ons netvlies, en trillen hun klanken tegen onze
trommelvliezen. Doorgaans komen ze netjes een voor een. De kudde die
we langs zien trekken bevat niet allemaal unieke exemplaren. Sommige
woorden, het zijn meestal de kleintjes, rennen onmiddellijk na hun
passage achter ons terug om weer in de rij aan te sluiten. Als we wat
langer waarnemen, blijken ook de andere, vaak langere woorden de
neiging te hebben om terug in de rij aan te sluiten, maar ze doen er
wat langer over. Meer in het algemeen kunnen we vaststellen dat
vrijwel ieder woord vroeg of laat een plaatsje terugzoekt in de rij.
Een taalkundige zal je kunnen vertellen dat er een tweedeling te maken
is in de zogenaamde functiewoorden, de kwikzilverachtige exemplaren
die steeds maar weer terugrennen, en de inhoudswoorden, die vanwege
het meezeulen van hun belangwekkende lading, die ook wel eens
"betekenis" wordt genoemd, pas weer terugkeren als ze nodig
zijn. Met wat fantasie zouden de functiewoorden gezien kunnen worden
als ijverige lakeien, wiens functie het is om de aankomst van een of
meer edele personages, de inhoudswoorden, in de hofzaal van het
discours aan te kondigen.
De fantasie die ik hier beschrijf is een model van taal, hoewel
misschien wat onprecies en met een wat barokke metafoor. Toen de
nieuwe wetenschap in de barok geboren werd was men dol op mechanische
metaforen. Mechanieken zijn een goede opstap naar wiskundige en
berekenbare modellen, bijvoorbeeld om er ook computermodellen van te
maken. Ik ga dan ook de woordenrij mechanisch en iets abstracter
voorstellen, en ik laat me assisteren door het beeld; beelden zeggen
immers soms meer dan duizend woorden, en meer dan 4.758 moesten het er
vandaag maar niet worden.
Een eindeloos lang stuk papier, het "medium", wordt gestaag
afgerold. Het papier loopt door een mechaniek dat kan stempelen. Door
het mechaniek heen lopen cirkelvormige banen. Iedere baan bevat een
stempel met een woord. We beginnen met een enkel woord. Iedere keer
als het woord het stempelmechanisme passeert, wordt het woord op het
papier gedrukt.
Ieder woord heeft zijn eigen ring. Alle woorden bewegen met een
constante snelheid. De kleine ringen draaien snelle rondjes met
functiewoord-stempels, en op de langere ringen draaien de
inhoudswoord-stempels geduldig hun rondjes. Zo kan het gebeuren dat er
op een gegeven ogenblik een drietal woorden achter elkaar gestempeld
worden.
Is dit een goed model van taal? Nee. De poging was aardig, maar dit
eenvoudige mechanistische model (een zogenaamd unigrammodel) faalt in
het genereren van echte taal. Als we het model vrij laten lopen, met
een ring voor ieder woord, dan komen er reeksen uit als de
volgende. Leestekens worden ook automatisch gegenereerd.
anders strijdmiddel te vinden Adams.
verbaasd voelde maart onze had het blijft 142 het in een willen De zeggen niet kwade kom elkaar popmuziek.
door nobelheid wisselkoersen.
betalen worden blinden Postma Tot komt proberen machtsovernames van
'personalia - sociaal deze het.
ja In behandeling ebolavirus stapte de de bij zijn schijnt verhullen
is de in expres beeld nog Nederland ik.
Het is eenvoudig om te zien wat er mis is. In het echt lopen woorden
niet willekeurig achter elkaar. Woorden horen bij elkaar omdat ze
samen, in groepjes, iets te vertellen hebben. Soms komen ze in hun
eentje, geheel onverwacht en lang niet meer of nog nooit gezien, en in
dat geval hebben ze altijd iets belangrijks over te brengen. Soms komt
een hele groep langs zonder veel te zeggen te hebben, zoals de vier
slungels van "ik heb zoiets van". Ze komen in groepjes van twee,
zoals "zeg eens", of "te voet", of in groepjes van drie, zoals
"weet je nog" of "ik houd van".
De meeste woorden zijn lid van meerdere groepjes tegelijk. "Zeg" uit
"zeg eens" zit ook in "kom nou zeg", en "ik zeg maar
zo". Eigenlijk hoef ik dit niet uit te leggen; we kennen dit fenomeen
allemaal wel, en belangrijker nog, we kennen de groepjes allemaal
wel. Toch staan deze groepjes voor een groot deel niet in het
woordenboek, want dat draait om woorden.
Het model met de ringen en stempels gaat tekort schieten als we ook
willen dat woorden elkaar opzoeken, want er zijn teveel
afhankelijkheden tussen teveel woorden. Als we bijvoorbeeld de ringen
met elkaar zouden gaan verbinden, zodat het ene woord het andere woord
zou meeslepen, dan zou het systeem vanwege de vele verbindingen direct
vastlopen. Een ander, wat losser model is nodig. Hiervoor schakel ik
over naar de praktijk van het onderzoek dat we hier in Tilburg doen,
en wel naar een van onze eenvoudigste modellen van taal.
Dit model bouwen we op de computer, met behulp van een programma dat
in grote hoeveelheden teksten zoekt naar groepen woorden die met
elkaar in de rij willen staan. Dit computerprogramma wordt op pad
gestuurd, de teksten in, met de opdracht op zoek te gaan naar rijtjes
woorden die de volgende eigenschap hebben. Als je alle woorden in zo'n
rijtje ziet behalve het laatste woord, dan kun je met aan zekerheid
grenzende waarschijnlijkheid zeggen wat het laatste woord is. De
rijtjes die het programma vindt, bestaan dus altijd uit twee woorden
of meer; de meeste rijtjes zijn rond de drie of vier woorden lang. Om
te beginnen laat ik een paar rijtje van twee woorden zien die zijn
gevonden. Ik laat eerst het eerste woord zien. De vraag is steeds: wat
is het volgende woord?