Naast harde data als persoonsgegevens en cijfers, beschikken mbo-instellingen over nog veel meer studentinformatie: van verzuimnotities tot aan intake- en loopbaangesprekverslagen. Deze zachte data kunnen worden ingezet om het gedrag en studiesucces van een student te voorspellen – en zo de kans op een diploma vergroten.
Dit blijkt uit een pilotproject van Kennisnet, saMBO-ICT en het Nova College in Amstelveen. Zij onderzochten hoe deze zogeheten ‘zachte data’ kunnen worden gebruikt om de begeleiding van studenten te verbeteren, zodat de kans groter is dat ze uitstromen mét een diploma op zak. De uitkomsten van dit onderzoek bieden aanknopingspunten voor het mbo om dergelijke studentgegevens te benutten.
Gestructureerde en ongestructureerde data
Mbo-instelling beschikken zowel over gestructureerde (harde) data als over ongestructureerde (zachte) data. Onder gestructureerde data valt alle informatie die is opgeslagen in databases: je kunt hierbij denken aan leeftijd, geslacht, geboorteplaats en studieresultaten. Het grootste deel van de studentinformatie is echter ongestructureerd en bevindt zich niet in een databasee. Denk bijvoorbeeld aan informatie die wordt gedeeld via sociale media, maar ook aan loopbaangespreksverslagen en verzuimnotities. Deze zachte data bieden een schat aan sturingsinformatie.
Tekstanalyse
Om deze ongestructureerde data bruikbaar te maken, kun je gebruik maken van tekstanalyse: een combinatie van technieken uit de statistiek en de taalkunde. Met deze techniek kan een tekst worden geïnterpreteerd: Uit welke woorden bestaat de tekst? Hoe hangen deze woorden met elkaar samen? Zijn er patronen te herkennen? Om na te gaan of met behulp van tekstanalyse kan worden voorspeld of een student zijn diploma haalt, zijn zachte data – afkomstig van leerlingen van het Nova College – van de afgelopen acht jaar geanalyseerd.
De resultaten
Uit die analyses blijkt dat in 72 procent van de gevallen op basis van de zachte data kan worden voorspeld of een leerling wel of geen diploma zal halen. Volgens Willem-Jan Swiebel, projectleider op het Nova College, zijn er verbeteringen mogelijk waardoor dat percentage nog verder zal stijgen. “De gebruikte methode is gericht op het gebruik van trefwoorden en gaat niet in op de taal en zinsconstructie. Dat zou een goede vervolgstap zijn om nog beter te kunnen voorspellen.” Vervolgonderzoek is dus nodig om het voorspellende vermogen van zachte data verder uit te diepen.
Denk jij dat de analyse van zachte data een belangrijke rol kan gaan spelen in het voorkomen van schooluitval? Laat een reactie achter via onderstaand reactieformulier.