Het volgende woord 1    [huidige pagina]    3    4    5    6    7

 

Als de computer eenmaal dit soort rijtjes heeft gevonden, dan kan hij dus ook helpen bij het schrijven van teksten. Zodra we een volkomen voorspelbaar rijtje aan het intypen zijn kan de computer ons automatisch aanvullen, zodat we dat niet meer hoeven te typen. Dit is een voorbeeld van een aardig nut. Wat ook misschien aardig is, is dat we met deze verzameling rijtjes er een nieuw soort woordenboek voor het Nederlands bij hebben, alleen mag het natuurlijk geen woordenboek heten. Hoe dan wel? Daar kom ik later op terug.

Goed; ik was bezig met het bedenken van een model van taal dat het beter deed dan het mechanistische ringenmodel. Stel dat we de computer de opdracht geven om niet alleen naar rijtjes woorden te zoeken die voorspellend zijn voor één volgend woord, maar hem ook laten zoeken naar rijtjes waar twee of meer woorden op kunnen volgen. De hoeveelheid rijtjes die aan deze definitie voldoet is nog veel groter dan de verzameling rijtjes die we al hadden verzameld, maar deze opdracht is geen probleem voor een computer. We gaan nu dus ook opslaan in ons computermodel dat "is veel te" gevolgd kan worden door, onder andere, "gevaarlijk", "veel", "weinig","lastig", "duur", "mager", en "druk". Of dat "achterstallig" gevolgd kan worden door "onderhoud" of "loon". Hieronder ziet u nog een paar van deze rijtjes. Ik stel in de kantlijn vast dat we ook deze rijtjes met meer dan één mogelijke volgende woorden grotendeels ook wel kennen.

 

 

Met de combinatie van beide soorten rijtjes in het geheugen kunnen we de computer op ieder gewenst moment in een tekst vragen wat het volgende woord zou moeten of kunnen zijn; de computer hoeft alleen maar de laatste paar woorden op te zoeken in zijn geheugen om te zien of ze bekend zijn als een rijtje dat typisch gevolgd wordt door een of meer woorden. Als het er één is, dan is dat de voorspelling; als het er meer zijn, dan kan de computer bijvoorbeeld het woord voorspellen dat het vaakst als laatste woord eindigde. De computer heeft, met andere woorden, verwachtingen over hoe een Nederlandse zin op ieder willekeurig punt verder gaat. Het model, dat de vorm heeft van enkele honderdduizenden tot enkele miljoenen rijtjes, is daarmee een echt taalmodel geworden. Het is alleen niet een taalmodel zoals je dat uit het taalkundeboek kent. It's linguistics, Jim, but not as we know it.

Hoe goed kan dit model eigenlijk voorspellen? Dat is op verschillende manieren te meten. We zijn begonnen dit in kaart te brengen door de percentages te meten van correct voorspelde woorden in teksten die de computer nog nooit had gezien, door de teksten woord voor woord te doorlopen, en steeds de beste gok van de computer te vergelijken met het echte volgende woord (Van den Bosch, 2005, 2006). We vonden tot nu toe allerlei antwoorden, zoals 6% correct voorspelde woorden, 15%, tot wel 50%. Maar bovenal hebben we een relatief antwoord gevonden: als de computer alsmaar meer tekst krijgt om rijtjes in te zoeken, dan vindt hij alsmaar meer rijtjes, en worden de voorspellingen alsmaar beter. We hebben dat relatieve antwoord ook bij benadering kunnen kwantificeren: iedere keer dat de hoeveelheid tekst met een vaste factor wordt verveelvoudigd, bijvoorbeeld vertienvoudigd, gaat het percentage correct voorspelde woorden met een redelijk constante hoeveelheid omhoog. Zo hebben we in een experiment met Engelse data met elke vertienvoudiging van het basis-tekstmateriaal een stijging van om en nabij de 8% gemeten. Het eindpunt van deze grafiek is het punt waarop we een grotere computer moeten zoeken.

 

 

Dit klinkt misschien net zo fabelachtig als de onwaarschijnlijke statistieken van Battus in zijn Opperlandse Taal- en Letterkunde. Het roept op z'n minst om een verklaring. Naarmate een grotere hoeveelheid teksten wordt genomen, komen steeds meer voorbeelden terug van woorden die eerder al eens voorkwamen; uiteraard vooral van de kleine groep functiewoorden, maar uiteindelijk komen alle woorden een keer terug. Tegelijkertijd verschijnen ook steeds meer nieuwe woorden. De information retrieval-onderzoeker H.S. Heaps beschreef in de jaren zeventig van de vorige eeuw hoe, als je steeds nieuwe teksten erbij neemt, je altijd weer nieuwe woorden blijft tegenkomen, maar deze groei neemt over de tijd heen wel af (Heaps, 1978). Naarmate de computer meer tekst ziet duurt het steeds langer voordat er zich weer een nieuw woord aandient. De groei van het aantal nieuwe woorden neemt dus af, maar is toch nog wel zo sterk dat bij iedere vertienvoudiging van de hoeveelheid tekst, het aantal nieuwe woorden met steeds grotere sprongen toeneemt. Heaps stelde de volgende vergelijking voor om deze groei te voorspellen.

Twee variabelen zijn taalspecifiek. Voor het Engels geldt dat beta meestal 0.5 is, en K rond de 50; n is het aantal woorden dat je tot nu toe gezien hebt, en V_R (de V van vocabulair) is het aantal unieke woorden dat je in die woordenmassa tot nu toe hebt gezien. En het klopt; in navolgende grafiek is te zien hoe de voorspelling van Heaps nogal goed overeenkomt met echte tellingen van unieke woorden in een verzameling van, in dit geval, Engelse journalistieke tekst, gemeten tot aan 50 miljoen woorden tekst. In 50 miljoen woorden Engelse tekst komen dus typisch ruim 500 duizend unieke woorden voor.

1    [huidige pagina]    3    4    5    6    7
Last update: