Het volgende woord 1    2    [huidige pagina]    4    5    6    7

 

Het dubbele effect van het alsmaar vaker zien van bekende woorden en het zien van steeds meer nieuwe woorden, kan er alleen maar toe leiden dat het herkennen van voorspelbare patronen alsmaar beter zal gaan, en daarmee ook het voorspellen van het volgende woord.

Ik meldde terloops dat het al eens gelukt is om boven de 50\% correct voorspelde woorden uit te stijgen. De computer was voor die gelegenheid losgelaten op 60 miljoen woorden Engelse tekst; krantentekst om precies te zijn, uit de archieven van het persagentschap Reuters. Globaal gesproken worden de meest voorkomende woorden, de functiewoorden, het best voorspeld. Het passeren van de 50% roept meteen ook de vraag op wat er dan eigenlijk nog fout gaat. Wel, het zou niet verrassend moeten zijn dat het model vrijwel altijd fout zit met z'n voorspelling bij het begin van een tekst, en vaak ook bij het begin van nieuwe alinea's, zinnen of bijzinnen. Helderziend is het systeem nu ook weer niet.

Als het binnen in zinnen fout gaat, dan gaat het vaak mooi fout. In een recent experiment met het Nederlands wordt het woord "tweede" steevast incorrect voorspeld als "eerste". In plaats van "Brussel" en "Berlijn" voorspelt ditzelfde model een paar keer "Amsterdam". Het zijn maar anecdotische aanwijzingen van een algemeen patroon waarin het model op een volstrekt impliciete manier niet alleen rijtjes herkent en op een grammaticaal kloppende manier kan afmaken, maar ook vaak in ongeveer de juiste betekeniswolk aan het prikken is wanneer het een beste gok aan het doen is.

 

 

Tijd voor een tussenbalans. Ik heb beschreven hoe uit grote hoeveelheden teksten rijtjes van woorden ontdekt kunnen worden, waarbij de eerste woorden het laatste woord voorspellen, of tenminste leiden tot een afgebakende groep mogelijke woorden. Al deze rijtjes bij elkaar vormen een soort woordenboek van het Nederlands, hoewel woordenboek dus niet de juiste term is. Om het toch een naam te geven, leen ik van Ad Backus en zijn collega's de term constructicon; lexicon van constructies. Dat er veel van zijn, is duidelijk; veel woorden komen in meerdere constructies voor. Eerder zei ik al dat we hier bij benadering spreken we hier over enkele honderdduizenden tot enkele miljoenen constructies; en daarbij vind je er meer naarmate je verder zoekt. Uitgeverijen zullen om die reden niet staan te springen om het Nederlandse Constructicon als boek op de markt te brengen. Toch hebben we het hier over belangrijke algemene taalkennis; pas als je weet hoe woorden met elkaar in de rij willen en kunnen staan, weet je "hoe je dingen zegt".

 

Het eerste voorbeeld is het ontdekken van fouten in teksten. Iedereen die teksten schrijft, maakt fouten. Het overkomt ons allemaal. We maken die fouten liever niet, want hoewel ze ons niet opvielen toen we ze maakten, merken anderen ze juist wel op. Marc van Oostendorp richtte een maand geleden in zijn oratie in Leiden zijn pijlen op het duivelse verschil tussen d en t in het Nederlands, maar verwees daarbij zijn toehoorders door naar mij als ze er ook een werkend computerprogramma bij wilde hebben. Daarom concentreer ik me hier op de de dt-fout.

Ik hoef vermoedelijk niemand uit te leggen wat de bedoeling is van de -t uitgang van werkwoorden in het Nederlands. De regel is simpel, maar vergt een oplettendheid die zelfs door de meest geoefende schrijvers niet altijd is vol te houden. Die oplettendheid betreft vooral werkwoorden waarvan de stam op d eindigt. Het fundamenteel oneerlijke is dat het voor de uitspraak niet uitmaakt of zo'n werkwoord nu op d of op dt eindigt, maar wel voor de commissie die jouw sollicitatiebrief leest. Een "ik wordt" met -dt is zo geschreven. Volgens Google kun je "ik wordt" met -dt zo'n 315.000 keer vinden op internet. "Ik word" met een d komt met ruim anderhalf miljoen voorkomens tenminste nog vijf keer zo vaak voor; er is dus nog hoop. Die hoop kan bovendien aangewakkerd worden als we ons woordvoorspellende systeem voor dit probleem in stelling brengen.

 

 

De woordvoorspeller behoeft een paar kleine aanpassingen om er een dt-corrector van te maken. Allereerst stel ik de taak wat nauwer af: in plaats van het voorspellen van alle mogelijke woorden is hier de taak om te besluiten of het volgende woord eindigt op -d of -dt. Dit model hoeft ook minder vaak in actie te komen: we zoomen in op die woorden in een tekst waarvan we weten dat ze op -d of op -dt kunnen eindigen -- de vraag is welke van de twee uitgangen op deze plek de juiste is. We hoeven hiervoor niet te weten wat werkwoorden zijn, of wat de regels zeggen over de -t-uitgang; we hoeven alleen maar paren van woorden te zoeken die hetzelfde zijn, behalve dat het ene woord eindigt op een -d en het andere op -dt. De laatste aanpassing is om de woorden die volgen op het d-dt-woord ook mee te nemen in de beslissing. Tot nu toe ging ik ervan uit dat het volgende woord nog niet bekend is, maar in een tekst die er al ligt en waar je de fouten uit wilt halen, zijn alle woorden bekend. Het probleem is nu juist: welk woord is fout?

 

1    2    [huidige pagina]    4    5    6    7
Last update: