|
Het dubbele effect van het alsmaar vaker zien van bekende woorden en
het zien van steeds meer nieuwe woorden, kan er alleen maar toe leiden
dat het herkennen van voorspelbare patronen alsmaar beter zal gaan, en
daarmee ook het voorspellen van het volgende woord.
Ik meldde terloops dat het al eens gelukt is om boven de 50\% correct
voorspelde woorden uit te stijgen. De computer was voor die
gelegenheid losgelaten op 60 miljoen woorden Engelse tekst;
krantentekst om precies te zijn, uit de archieven van het
persagentschap Reuters. Globaal gesproken worden de meest voorkomende
woorden, de functiewoorden, het best voorspeld. Het passeren van de
50% roept meteen ook de vraag op wat er dan eigenlijk nog fout
gaat. Wel, het zou niet verrassend moeten zijn dat het model vrijwel
altijd fout zit met z'n voorspelling bij het begin van een tekst, en
vaak ook bij het begin van nieuwe alinea's, zinnen of
bijzinnen. Helderziend is het systeem nu ook weer niet.
Als het binnen in zinnen fout gaat, dan gaat het vaak mooi fout. In
een recent experiment met het Nederlands wordt het woord "tweede"
steevast incorrect voorspeld als "eerste". In plaats van "Brussel"
en "Berlijn" voorspelt ditzelfde model een paar keer "Amsterdam". Het
zijn maar anecdotische aanwijzingen van een algemeen patroon waarin
het model op een volstrekt impliciete manier niet alleen rijtjes
herkent en op een grammaticaal kloppende manier kan afmaken, maar ook
vaak in ongeveer de juiste betekeniswolk aan het prikken is wanneer
het een beste gok aan het doen is.
Tijd voor een tussenbalans. Ik heb beschreven hoe uit grote
hoeveelheden teksten rijtjes van woorden ontdekt kunnen worden,
waarbij de eerste woorden het laatste woord voorspellen, of tenminste
leiden tot een afgebakende groep mogelijke woorden. Al deze rijtjes
bij elkaar vormen een soort woordenboek van het Nederlands, hoewel
woordenboek dus niet de juiste term is. Om het toch een naam te geven,
leen ik van Ad Backus en zijn collega's de term constructicon;
lexicon van constructies. Dat er veel van zijn, is duidelijk; veel
woorden komen in meerdere constructies voor. Eerder zei ik al dat we
hier bij benadering spreken we hier over enkele honderdduizenden tot
enkele miljoenen constructies; en daarbij vind je er meer naarmate je
verder zoekt. Uitgeverijen zullen om die reden niet staan te springen
om het Nederlandse Constructicon als boek op de markt te brengen. Toch
hebben we het hier over belangrijke algemene taalkennis; pas als je
weet hoe woorden met elkaar in de rij willen en kunnen staan, weet je
"hoe je dingen zegt".
|