Het Gesproken Corpus van de zuidelijk-Nederlandse Dialecten (GCND) is het eerste corpus van gesproken Nederlandse dialecten. Het corpus ontsluit de Stemmen uit het Verleden, een unieke collectie van dialectopnames uit 768 verschillende plaatsen in België, het noorden van Frankrijk en het zuiden van Nederland bij in het algemeen weinig mobiele en laagopgeleide sprekers geboren rond 1900. De Stemmen uit het Verleden werden binnen dit project aangevuld met 30 nieuwe opnames uit Brussel, Vlaams-Brabant en Limburg en 73 bestaande opnames van het Meertens Instituut uit het zuiden van Nederland.
De opnames werden volgens een nieuw ontwikkeld transcriptieprotocol getranscribeerd – hoogdringend in tijden van snel vorderend dialectverlies! – om vervolgens met bestaande tools taalkundig verrijkt te worden met informatie over de woordsoort van de individuele woorden (‘pos-tags’) en met informatie over de syntactische functies van de woordgroepen en hun onderlinge relatie (‘parsing’).
In vergelijking met bestaande datacollecties over de Nederlandse dialecten is het GCND uniek omdat het alleen spontane spraak bevat. Aangezien de dialectopnames een historisch stadium van de taal representeren (in het geval van het Frans-Vlaams zelfs de laatste getuigenissen van een inmiddels nagenoeg uitgestorven taalvariëteit) en de opnames nu efficiënt doorzoekbaar zijn, maakt het GCND het mogelijk (i) taalveranderingsprocessen geografisch in kaart te brengen, (ii) de functionaliteit van dialectkenmerken kwantitatief te onderzoeken en (iii) nieuwe, voorheen onopgemerkte en dus onbevraagde structuren op te sporen. Audio, transcripties en annotaties worden vrij online beschikbaar en doorzoekbaar gemaakt. Het GCND vormt zo een historisch dialectcorpus zonder weerga.
Op dit moment loopt er een vervolgproject (GCND+) in samenwerking met het Instituut voor de Nederlandse Taal (INT) en LT3 – Language and Translation Technology Team (UGent) om de collectie nog verder uit te breiden naar het noorden.
Gebruik van het GCND
Het corpus kan geraadpleegd worden via onderstaande link: https://gcnd.ivdnt.org
Het is alleen toegankelijk met een gebruikersnaam en wachtwoord. Gebruikers die in dienst zijn van een universiteit, een hogeschool of een onderzoeksinstelling kunnen inloggen met de gebruikersnaam en het wachtwoord van hun organisatie. Gebruikers die niet verbonden zijn aan een academische instelling kunnen het corpus ook raadplegen, maar zij moeten daarvoor eest een account aanvragen via www.clarin.eu.
Gedetailleerde informatie over het Gesproken Corpus van de zuidelijk-Nederlandse Dialecten (GCND) vindt u hier.
Funding
2024-2028: FWO Middelzware onderzoeksinfrastructuur I.0.021.24N (GCND+)
2020-2024: FWO Middelzware onderzoeksinfrastructuur I.0.101.20N (GCND)
2018-2020: FWO Navorserskrediet 1.5.310.18N aan A. Breitbarth (pilootproject)
2018-2021: FWO Postdoctoraal mandaat junior 1.2.P79.19N aan M. Farasyn (Frans-Vlaamse opnames)
2021-2024: FWO Postdoctoraal mandaat senior 1.2.P79.22N aan M. Farasyn (Frans-Vlaamse opnames)
2019-2021: Subsidies provincies Zeeland, West-Vlaanderen en Oost-Vlaanderen (pilootproject)