Constructicon demo: A visualization of strong n-grams and skipgrams

Phrases such as the reason why, back from the, and in the flesh sound as familiar as words. Aside from the presence of spaces in them, there is little difference between them and 'normal' words; they carry a meaning of their own, and they belong to a native speaker's language inventory. The fully automatically generated constructicon demo allows you to explore the space of multi-word phrases, or constructions.


About the demo - Go to the demo

In the demo you can either look up a word and see in which constructions it occurs, or enter a sentence (or select one from a news website) and see which constructions occur in that sentence. In the results you can find translations that have been generated by Moses. You can search for words in English, French, German, Italian, Spanish, and Dutch; translations are available between English and the other languages.

What is a constructicon?

A constructicon is a lexicon of constructions. A construction is a pattern of functional and meaning-bearing units that as a whole also carries a meaning. This meaning is not just the sum of its units (it is not, or at least only partly, compositional). Constructions can be seen as the dark matter between the traditional linguistic concepts of lexicon, syntax and semantics. Just as a language learner must somehow build a mental lexicon, he or she must get acquainted with a language's constructions. Yet there are no constructicons in book form to get you started.

One way to get a feeling of what constructions are, and the large collective of which they are a part, the constructicon, is this demo. The demo allows you to search for constructions that have a particular word in them, or it looks up all constructions that it finds in sentences.

The constructions in this demo are currently limited to word sequences (either consecutive sequences, ngrams, or patterns that skip certain positions, skipgrams) that have a relatively strong compression score, a combined measure of length and frequency of occurrence. Although outside of the scope of the current demo, constructions could be generalized further - think of semantic generalizations such as "[weekday] to [weekday]", where the current demo offers only lexicalized constructions such as "Monday to Friday".

 

References

For more information and background, see

 

Credits

The Constructicon demo is written and designed by Kaj-Ivar van der Wijst. The demo uses data generated through suffix array n-gram and skipgram extraction software written by Herman Stehouwer. This demo was developed as part of the Implicit Linguistics project funded by NWO, the Netherlands Organization for Scientific Research. The idea for the demo stems from ideas from and discussions between Maria Mos, Ad Backus, Anne Vermeer, Joost Schilperoord, Seza Dogruoz, Peter Berck, Herman Stehouwer, and Antal van den Bosch.

Frases zoals ergens anders, in naam van, of een groot deel van klinken net zo bekend als woorden. Afgezien van de spaties in deze frasen is er in feite weinig verschil met 'gewone' woorden; ze dragen een eigen betekens, en ze maken deel uit van de taalinventaris van een moedertaalspreker. De volledig automatisch gegenereerde constructicon-demo stelt je in staat rond te bladeren in deze multi-woord frases, of constructies.


Over de demo - Ga naar de demo

In de demo kun je een woord opzoeken om te zien in welke constructies het voorkomt, of je kunt in een zin invoeren (of van een nieuwswebsite halen) en zien welke constructies in die zin voorkomen. In de resultaten kun je weer klikken op andere woorden, en je kunt vertalingen vinden die door Moses zijn gegenereerd. Je kunt zoeken naar Engelse, Franse, Duitse, Italiaanse, Spaanse en Nederlandse woorden; vertalingen van constructies zijn beschikbaar tussen Engels en de andere talen.

Wat is een constructicon?

Een constructicon is een lexicon van constructies. Een constructie is een patroon van functionele en betekenisdragende eenheden dat zelf als geheel ook een betekenis draagt. Deze betekenis is niet slechts de som van zijn delen (de betekenis is niet of slechts gedeeltelijk compositioneel). Constructies kunnen gezien worden als de donkere materie tussen de traditionele taalkundige concepten lexicon, syntax en semantiek. Net zoals een taalleerder woorden moet leren, moet hij of zij bekend worden met de constructies van een taal. Dat kun je niet leren uit een boek.

Een manier om een idee te krijgen van wat constructies zijn, en wat het grotere geheel, het construction, is, is deze demo. In de demo kun je zoeken naar constructies die een bepaald woord bevatten, of de demo zoekt in een zin naar alle constructies die erin voorkomen.

De constructies in deze demo zijn momenteel beperkt tot woordsequenties (aaneensluitende sequenties, ngrams, of met overgeslagen posities, skipgrams) die een relatief grote compressiesterkte hebben, een gecombineerde maat van lengte en aantal voorkomens. Hoewel het buiten de scope van de huidige demo valt, zouden constructies verder gegeneraliseerd kunnen worden. Denk aan semantische generalisaties zoals "[weekdag] tot en met [weekdag]"; de huidige demo biedt alleen gelexicaliseerde constructies als "maandag tot en met vrijdag".

 

Antal.vdnBosch@uvt.nl | Last update: