Sander Canisius Research page

Van tekst naar informatie

Opdracht 3: Search engines

In deze opdracht probeer je door het doen van queries een zo hoog mogelijke precision te halen op het vinden van documenten van een bepaald type, namelijk curriculum vitae van individuen, opgesteld in het Nederlands. Je gebruikt Google als search engine, meer in het bijzonder de "Advanced Search" ("Geavanceerd zoeken") in Google, en z'n mogelijkheden om booleaanse queries te bouwen met AND ("with all of the words" / "met alle woorden"), OR ("with at least one of the words" / "met een van deze woorden"), of NOT ("without the words" / "zonder de woorden"). Daarnaast is er de mogelijkheid om te zoeken op "exact phrases", woorden die naast elkaar staan.

Voorbeeldqueries die zulke pagina's opleveren zijn

  • (gehuwd OR ongehuwd) AND opleiding AND werkervaring
  • "curriculum vitae"

Verzin zelf minimaal drie andere queries. Bekijk per query naar de eerste 20 links naar pagina's die door Google teruggegeven worden (dat wil zeggen: klik op de link en bekijk de pagina's zelf), en bereken de precision op het identificeren van Nederlandse CV's -- van de 20 gevonden pagina's, hoeveel zijn er daadwerkelijk CVs?

Als er meer dan alleen een CV op staat, dan telt dat als een foute pagina; ook voorbeeld-CVs tellen als fout.

Rapporteer over je tests met (minimaal) 3 queries. Kies je queries zo dat ze in ieder geval verschillend zijn, en eventueel ook op een systematische manier verschillend; bijvoorbeeld met een toenemend aantal AND-termen of NOT-termen. Motiveer je keuze, en bediscussieer of de behaalde resultaten terug te voeren zijn op de vorm van de queries.

De opdracht mag gemaakt worden in groepen van maximaal twee personen. Mail je uitwerking uiterlijk 28 maart naar S.V.M.Canisius@uvt.nl.