Het volgende woord [huidige pagina]    2    3    4    5    6    7

Rede, uitgesproken bij de openbare aanvaarding van het ambt van hoogleraar Geheugen, Taal en Betekenis aan de Universiteit van Tilburg op 10 oktober 2008 door dr. Antal van den Bosch.

Mijnheer de rector magnificus, geachte aanwezigen,

Ik prijs me gelukkig, omringd door alle mensen die er voor mij toe doen, dat ik hier mijn ambt mag aanvaarden met het uitspreken van de hierna volgende reeks van 4.758 woorden.

Het probleem van het volgende woord

Woorden zijn net groepsdieren. In lange rijen zien we ze voorbij trekken op ons netvlies, en trillen hun klanken tegen onze trommelvliezen. Doorgaans komen ze netjes een voor een. De kudde die we langs zien trekken bevat niet allemaal unieke exemplaren. Sommige woorden, het zijn meestal de kleintjes, rennen onmiddellijk na hun passage achter ons terug om weer in de rij aan te sluiten. Als we wat langer waarnemen, blijken ook de andere, vaak langere woorden de neiging te hebben om terug in de rij aan te sluiten, maar ze doen er wat langer over. Meer in het algemeen kunnen we vaststellen dat vrijwel ieder woord vroeg of laat een plaatsje terugzoekt in de rij.

Een taalkundige zal je kunnen vertellen dat er een tweedeling te maken is in de zogenaamde functiewoorden, de kwikzilverachtige exemplaren die steeds maar weer terugrennen, en de inhoudswoorden, die vanwege het meezeulen van hun belangwekkende lading, die ook wel eens "betekenis" wordt genoemd, pas weer terugkeren als ze nodig zijn. Met wat fantasie zouden de functiewoorden gezien kunnen worden als ijverige lakeien, wiens functie het is om de aankomst van een of meer edele personages, de inhoudswoorden, in de hofzaal van het discours aan te kondigen.

De fantasie die ik hier beschrijf is een model van taal, hoewel misschien wat onprecies en met een wat barokke metafoor. Toen de nieuwe wetenschap in de barok geboren werd was men dol op mechanische metaforen. Mechanieken zijn een goede opstap naar wiskundige en berekenbare modellen, bijvoorbeeld om er ook computermodellen van te maken. Ik ga dan ook de woordenrij mechanisch en iets abstracter voorstellen, en ik laat me assisteren door het beeld; beelden zeggen immers soms meer dan duizend woorden, en meer dan 4.758 moesten het er vandaag maar niet worden.

Een eindeloos lang stuk papier, het "medium", wordt gestaag afgerold. Het papier loopt door een mechaniek dat kan stempelen. Door het mechaniek heen lopen cirkelvormige banen. Iedere baan bevat een stempel met een woord. We beginnen met een enkel woord. Iedere keer als het woord het stempelmechanisme passeert, wordt het woord op het papier gedrukt.

Ieder woord heeft zijn eigen ring. Alle woorden bewegen met een constante snelheid. De kleine ringen draaien snelle rondjes met functiewoord-stempels, en op de langere ringen draaien de inhoudswoord-stempels geduldig hun rondjes. Zo kan het gebeuren dat er op een gegeven ogenblik een drietal woorden achter elkaar gestempeld worden.

Is dit een goed model van taal? Nee. De poging was aardig, maar dit eenvoudige mechanistische model (een zogenaamd unigrammodel) faalt in het genereren van echte taal. Als we het model vrij laten lopen, met een ring voor ieder woord, dan komen er reeksen uit als de volgende. Leestekens worden ook automatisch gegenereerd.

    anders strijdmiddel te vinden Adams.
    verbaasd voelde maart onze had het blijft 142 het in een willen De zeggen niet kwade kom elkaar popmuziek.
    door nobelheid wisselkoersen.
    betalen worden blinden Postma Tot komt proberen machtsovernames van 'personalia - sociaal deze het.
    ja In behandeling ebolavirus stapte de de bij zijn schijnt verhullen is de in expres beeld nog Nederland ik.

Het is eenvoudig om te zien wat er mis is. In het echt lopen woorden niet willekeurig achter elkaar. Woorden horen bij elkaar omdat ze samen, in groepjes, iets te vertellen hebben. Soms komen ze in hun eentje, geheel onverwacht en lang niet meer of nog nooit gezien, en in dat geval hebben ze altijd iets belangrijks over te brengen. Soms komt een hele groep langs zonder veel te zeggen te hebben, zoals de vier slungels van "ik heb zoiets van". Ze komen in groepjes van twee, zoals "zeg eens", of "te voet", of in groepjes van drie, zoals "weet je nog" of "ik houd van".

De meeste woorden zijn lid van meerdere groepjes tegelijk. "Zeg" uit "zeg eens" zit ook in "kom nou zeg", en "ik zeg maar zo". Eigenlijk hoef ik dit niet uit te leggen; we kennen dit fenomeen allemaal wel, en belangrijker nog, we kennen de groepjes allemaal wel. Toch staan deze groepjes voor een groot deel niet in het woordenboek, want dat draait om woorden.

Het model met de ringen en stempels gaat tekort schieten als we ook willen dat woorden elkaar opzoeken, want er zijn teveel afhankelijkheden tussen teveel woorden. Als we bijvoorbeeld de ringen met elkaar zouden gaan verbinden, zodat het ene woord het andere woord zou meeslepen, dan zou het systeem vanwege de vele verbindingen direct vastlopen. Een ander, wat losser model is nodig. Hiervoor schakel ik over naar de praktijk van het onderzoek dat we hier in Tilburg doen, en wel naar een van onze eenvoudigste modellen van taal.

Dit model bouwen we op de computer, met behulp van een programma dat in grote hoeveelheden teksten zoekt naar groepen woorden die met elkaar in de rij willen staan. Dit computerprogramma wordt op pad gestuurd, de teksten in, met de opdracht op zoek te gaan naar rijtjes woorden die de volgende eigenschap hebben. Als je alle woorden in zo'n rijtje ziet behalve het laatste woord, dan kun je met aan zekerheid grenzende waarschijnlijkheid zeggen wat het laatste woord is. De rijtjes die het programma vindt, bestaan dus altijd uit twee woorden of meer; de meeste rijtjes zijn rond de drie of vier woorden lang. Om te beginnen laat ik een paar rijtje van twee woorden zien die zijn gevonden. Ik laat eerst het eerste woord zien. De vraag is steeds: wat is het volgende woord?

[huidige pagina]    2    3    4    5    6    7
Last update: