Taal- en Informatietechnologie

eerste semester 2003-2004

Faculteit der Letteren / UvT
vakcode 826164 / collegerooster / tentamenrooster
Digitale leeromgeving (Blackboard)

Emiel Krahmer (E.J.Krahmer@uvt.nl) and Antal van den Bosch (antalb@uvt.nl)

Dinsdag, 14.45 - 16.30, AZ01

Tijdlijn

Data zijn onder voorbehoud!
 1. [2 september2003]

 2. [9 september 2003]

 3. [16 september 2003]

 4. [23 september 2003]

 5. [30 september 2003]

 6. [7 oktober 2003]

 7. [14 oktober 2003]

 8. [28 oktober 2003]

 9. [4 november 2003]

 10. [11 november 2003]

 11. [18 november 2003]

 12. [25 november 2003]

 13. [2 december 2003]

Cursusoverzicht

Deze cursus heeft als doel om (1) studenten inzicht te verschaffen in de mogelijkheden en problemen van automatische taalverwerking door computers, en (2) een overzicht te geven van de belangrijkste toepassingsgebieden, in het bijzonder op het gebied van de digitale media.

Internet en andere elektronische informatiesystemen werken op basis van computernetwerken. De computers in deze netwerken kunnen meer dan alleen data doorgeven; ze kunnen ook worden ingezet voor het "begrijpen" van de langskomende data (die voor een groot deel uit taal bestaat), zodat de gebruiker kan worden geholpen in het navigeren door die data. Denk aan het samenvatten van teksten, automatisch vertalen, filteren van ongewenste inhoud, en "slim" zoeken op onderwerpen eerder dan alleen trefwoorden.

Taaltechnologie (ook wel language engineering of natural language processing genoemd) is het computationeel verwerken van taal in gesproken of geschreven vorm. De belangstelling voor taaltechnologie is de afgelopen sterk jaren toegenomen. Hier zijn twee redenen voor aan te voeren. Ten eerste is de verwachting dat taaltechnologie (al dan niet in combinatie met spraaktechnologie) de interactie met machines eenvoudiger kan maken. Door de huidige ontwikkelingen op het gebied van bijvoorbeeld personal digital assistants en de ubiquitous computing ("alomtegenwoordige computer") ontstaat er steeds meer behoefte aan nieuwe en natuurlijke user interface vormen, en taaltechnologie lijkt hierbij van groot belang. Een tweede belangrijke reden is de explosieve groei van informatie. Eenvoudige information retrieval technieken volstaan steeds minder, en de behoefte aan intelligente vormen van information retrieval en information extraction is sterk groeiende. In dit college zullen studenten vertrouwd gemaakt worden met:

Bijzonderheden

Voorheen heette dit vak Automatische bewerking en verwerking van informatie.

Verplichte literatuur

Hulpprogramma voor bekijken van postscript

Enkele artikelen die als literatuur gebruikt worden, en waar in de onderstaande lijst links naar toe zijn gezet, zijn in het ps (postscript) formaat. Dit is een weliswaar oude, maar uiterst portabele document typesetting standaard; de voorganger van PDF.

In de universitaire wereld is postscript een vaak gebruikte standaard. Het verdient in de ogen van veel onderzoekers de voorkeur om publiek beschikbare document-fileformaten te gebruiken, om collega's niet te dwingen gebruik te moeten maken van dure, niet-publieke document viewers die eigen formaten hanteren.

Draait je computer onder MS Windows, en heb je geen postscript viewer om postscript (.ps) files te bekijken, installeer dan GSview en AFPL Ghostscript. Download de self-extracting executables, dubbel-klik en klaar.

Voor PDF, download de Acrobat Reader.