Het GCND is een ‘geparset’ corpus. Dat betekent dat er, op verschillende niveaus, allerlei taalkundige informatie aan de transcripties wordt toegevoegd, zodat het volledig doorzoekbaar wordt. Het is niet enkel mogelijk om naar woorden te zoeken, maar ook naar woordsoorten en syntactische informatie. Een groot deel daarvan gebeurde automatisch met behulp van een classificeerder. Voor het GCND is die classificeerder de ALPINO-parser. Doordat ALPINO getraind is op gestandaardiseerde data (en vooral schrijftaal), gaat die classificeerder soms wel eens de mist in als we met dialectdata werken. Het was daarom noodzakelijk om ALPINO soms een handje te helpen, door (1) op voorhand de data goed voor te bereiden (preprocessing) en (2) achteraf manuele correcties uit te voeren (post-processing).
Gedetailleerde informatie over preprocessing en postprocessing kan hier gedownload worden:
- Over het GCND (versie oktober 2024)