Phrases such as the reason why, back from the, and in
the flesh sound as familiar as words. Aside from the presence of
spaces in them, there is little difference between them and 'normal'
words; they carry a meaning of their own, and they belong to a native
speaker's language inventory. The fully automatically
generated constructicon
demo allows you to explore the space of multi-word phrases, or
constructions.
In the demo you can either look up a word and see in which
constructions it occurs, or enter a sentence (or select one from a
news website) and see which constructions occur in that sentence. In
the results you can find translations that have been
generated by Moses. You can
search for words in English, French, German, Italian, Spanish, and
Dutch; translations are available between English and the other
languages.
What is a constructicon?
A constructicon is a lexicon of constructions. A
construction is a pattern of functional and meaning-bearing units that
as a whole also carries a meaning. This meaning is not just the sum of
its units (it is not, or at least only
partly, compositional). Constructions can be seen as the dark
matter between the traditional linguistic concepts
of lexicon, syntax and semantics. Just as a
language learner must somehow build a mental lexicon, he or she must
get acquainted with a language's constructions. Yet there are no
constructicons in book form to get you started.
One way to get a feeling of what constructions are,
and the large collective of which they are a part, the constructicon,
is this demo. The
demo allows you to search for constructions that have a particular
word in them, or it looks up all constructions that it finds in
sentences.
The constructions in this demo are currently limited
to word sequences (either consecutive sequences, ngrams, or patterns that skip
certain positions, skipgrams) that have a relatively strong compression
score, a combined measure of length and frequency of occurrence. Although outside of the scope of the current demo, constructions could be generalized further - think of semantic generalizations such as "[weekday] to [weekday]", where the current demo offers only lexicalized constructions such as "Monday to Friday".
The Constructicon demo is written and designed
by Kaj-Ivar van der
Wijst. The demo uses data generated
through suffix
array n-gram and skipgram extraction software written
by Herman
Stehouwer. This demo was developed as part of
the Implicit Linguistics
project funded by NWO, the Netherlands
Organization for Scientific Research. The idea for the demo stems from
ideas from and discussions between Maria Mos, Ad Backus, Anne Vermeer, Joost
Schilperoord, Seza Dogruoz, Peter Berck, Herman Stehouwer, and Antal van den Bosch.
Frases zoals ergens anders, in naam van, of een groot deel van klinken net zo bekend als woorden. Afgezien van de spaties in deze frasen is er in feite weinig verschil met 'gewone' woorden; ze dragen een eigen betekens, en ze maken deel uit van de taalinventaris van een moedertaalspreker. De
volledig automatisch gegenereerde constructicon-demo stelt je in staat rond te bladeren in deze multi-woord
frases, of constructies.
In de demo kun je een woord opzoeken om te zien in welke constructies
het voorkomt, of je kunt in een zin invoeren (of van een nieuwswebsite
halen) en zien welke constructies in die zin voorkomen. In de
resultaten kun je weer klikken op andere woorden, en je kunt
vertalingen vinden die
door Moses zijn
gegenereerd. Je kunt zoeken naar Engelse, Franse, Duitse, Italiaanse,
Spaanse en Nederlandse woorden; vertalingen van constructies zijn
beschikbaar tussen Engels en de andere talen.
Wat is een constructicon?
Een constructicon is een lexicon van constructies. Een constructie is
een patroon van functionele en betekenisdragende eenheden dat zelf als
geheel ook een betekenis draagt. Deze betekenis is niet slechts de som
van zijn delen (de betekenis is niet of slechts
gedeeltelijk compositioneel). Constructies kunnen gezien worden als de donkere
materie tussen de traditionele taalkundige
concepten lexicon, syntax en semantiek. Net zoals een taalleerder woorden moet leren, moet hij of zij bekend worden met de constructies van een taal. Dat kun je niet leren uit een boek.
Een manier om een idee te krijgen van wat constructies zijn, en wat
het grotere geheel, het construction, is, is
deze demo. In de
demo kun je zoeken naar constructies die een bepaald woord bevatten,
of de demo zoekt in een zin naar alle constructies die erin voorkomen.
De constructies in deze demo zijn momenteel beperkt tot
woordsequenties (aaneensluitende sequenties, ngrams, of met
overgeslagen posities, skipgrams) die een relatief
grote compressiesterkte hebben, een gecombineerde maat van
lengte en aantal voorkomens. Hoewel het buiten de scope van de huidige
demo valt, zouden constructies verder gegeneraliseerd kunnen worden.
Denk aan semantische generalisaties zoals "[weekdag] tot en met
[weekdag]"; de huidige demo biedt alleen gelexicaliseerde constructies als "maandag tot en met vrijdag".