Sander Canisius Research page

Van tekst naar informatie

Opdracht 2: Inleiding computerlinguïstiek

In deze opdracht kijken we naar twee computersystemen die automatisch een bepaalde vorm van taalkundige analyse uitvoeren: lemmatisering en parsing. In het bijzonder richten we ons op de manier waarop de systemen omgaan met ambiguïteit in de invoertekst.

Lemmatisering

MBLEM is een automatische lemmatiser voor een aantal verschillende talen, waaronder het Nederlands. In het college is toegelicht hoe lemmatisers in sommige gevallen met ambiguïteit te maken krijgen. In deze opdracht kijken we naar hoe MBLEM daarmee omgaat.

  • Bedenk drie (Nederlandse) woorden die een ambigu lemma hebben.
  • Omschrijf in je eigen woorden de reden(en) voor de ambiguïteit.
  • Gebruik de MBLEM demo om de woorden te lemmatiseren. Waaruit blijkt dat de woorden ambigu zijn?
  • Welke informatie/kennis heeft een computer nodig om het correcte lemma te kiezen? Is deze automatisch te verkrijgen?

Parsing

Ook parsing (zinsontleding) is een taak waar ambiguïteit een grote rol speelt. In dit deel van de opdracht kijken we naar hoe de AMAZON parser, een automatische (full) parser voor het Nederlands, omgaat met ambiguïteit.

  • Bedenk drie (Nederlandse) zinnen die een ambigue ontleding hebben.
  • Omschrijf in je eigen woorden de reden(en) voor de ambiguïteit.
  • Gebruik de AMAZON demo om de zinnen te ontleden. Wat is de betekenis van de Output: best/all parses optie onderaan de pagina? Waaruit blijkt dat de zinnen ambigu zijn?
  • Welke informatie/kennis heeft een computer nodig om de correcte ontleding te kiezen? Is deze automatisch te verkrijgen?

De opdracht mag gemaakt worden in groepen van maximaal twee personen. Mail je uitwerking uiterlijk 14 februari naar S.V.M.Canisius@uvt.nl.