Veel kmo’s met een innovatieve mindset, maar beperktere AI-kennis, voelen zich door fear of missing out (FOMO) verplicht om mee te gaan in de hype rond generatieve AI. Hierdoor worden systemen zoals ChatGPT Business of Copilot for Microsoft 365 vaak wat te impulsief aangeschaft, zonder grondige evaluatie of beredenering. Daarom creëren wij een evaluatiekader om organisaties hierin te ondersteunen, zodat men doordacht een keuze kan maken. In dit artikel nemen we je mee in de eerste maanden van ons onderzoeksproject.
Waarom grondiger evalueren?
Door snel op de kar te willen springen, durft men soms wel eens voorbij te gaan aan het belang van een diepgaande analyse om te bepalen of een aangekocht systeem daadwerkelijk aan de verwachtingen voldoet en daarmee de investering waard is. Dit kan een tijdsinvestering zijn in het geval van gratis tools, of een geldinvestering bij betalende licenties.
Dit probleem is vooral relevant bij GenAI-systemen gebaseerd op Large Language Models (LLM’s), waarvan de output open-ended is. Deze systemen leveren namelijk niet altijd eenduidige antwoorden, maar genereren outputs die variëren afhankelijk van de taak, zoals het schrijven van teksten. Ook is de effectiviteit van een systeem sterk afhankelijk van de specifieke taak, context en toepassing. Dit maakt de evaluatie des te complexer.
Momenteel evalueren gebruikers deze systemen vaak op basis van een eerste indruk of gevoel – een zogenaamde vibe check. Hoewel dit begrijpelijk is wanneer dit de enige methode voorhanden is, is dit ‘gevoel’ slechts een oppervlakkige aanpak. Bij tegenvallende resultaten zijn gebruikers regelmatig teleurgesteld zonder dat ze het GenAI-systeem of de prompt eigenlijk grondig hebben uitgeprobeerd. Dit kan leiden tot onjuiste conclusies en gemiste kansen.
In dit onderzoeksproject willen we een holistisch evaluatiekader ontwikkelen, dat niet-technische eindgebruikers in kmo’s helpt om de prestaties van GenAI-systemen systematisch te beoordelen op verschillende aspecten. Het kader zou de open-ended output van deze systemen bijvoorbeeld kunnen toetsen aan specifieke taken, verwachtingen of vooraf gedefinieerde voorbeeldantwoorden. Door deze gestructureerde aanpak krijgen bedrijven een genuanceerd beeld van de sterke en zwakke punten van een GenAI-systeem, wat leidt tot beter geïnformeerde beslissingen.
Zo hopen we ertoe te leiden dat kmo’s hun investeringen in GenAI kunnen optimaliseren en tools selecteren die beter aansluiten bij hun specifieke bedrijfsdoelen en verwachtingen. Dit voorkomt verspilling in de brede zin, kan de productiviteit verhogen en versterkt het vertrouwen in de technologie.
Het verzamelen van de usecases
Om ons onderzoek af te trappen, zaten we in november 2025 samen met een groep van zowel professionals uit de technologische sector, als eindgebruikers van GenAI op zoek naar concrete en typische GenAI-usecases binnen bedrijven, voor een brainstormsessie die wij faciliteerden en begeleidden. Vanuit de technologische sector wilden we vooral horen wat hun obstakels zijn bij het samenwerken met niet-technische eindgebruikers (bv. de juiste verwachtingen scheppen, educatie over GenAI…) terwijl we bij de niet-technische eindgebruikers op zoek gingen naar wat nu echt de meest gevraagde en gezochte usecases zijn. Deze usecases zouden we dan later uitwerken in een proof-of-concept, met het oog op de evaluatie ervan.
Eerst maakten we de deelnemers bekend met de capaciteiten van GenAI, om vervolgens goed geïnformeerd te kunnen brainstormen aan de hand van technieken uit design thinking. Zo ordenden we de usecases waar onze deelnemers op uitkwamen in een 2-op-2 matrix volgens haalbaarheid en impact. Met behulp van dot voting bepaalden we welke usecases voor de meeste mensen relevant waren.
De cases waar we uiteindelijk mee aan de slag gingen, zijn:
- Een interne Copilot Agent die de Dienst HR assisteert bij het beantwoorden van HR-gerelateerde vragen;
- Een interne Copilot Agent die de Dienst ICT assisteert bij het beantwoorden van ICT-gerelateerde vragen;
- Gepersonaliseerde mails, inclusief video met gegenereerde avatar, op basis van CRM-data;
- Productendatabases makkelijker doorzoekbaar maken met behulp van Agentic AI;
- Een verslagschrijver voor vergaderingen;
- ChatGPT Business licentie vergelijken met gratis gebruik. Haal je het onderste uit de kan?
De oplettende lezer zal merken dat dit niet de meest outside-of-the-box of vernieuwende usecases zijn. Het zijn echter wél de usecases waarbij ons doelpubliek nog regelmatig tegen een muur aanloopt wanneer ze moeten bepalen of de case een goede investering was. Dit maakt hen tot ideale testcases voor ons onderzoek.
Het vervolg
Nu de usecases bepaald zijn, is het tijd om ze uit te werken en klaar te maken voor evaluatie. In ons volgende artikel gaan we dieper in op de eerste contouren van ons evaluatiekader, dat we willen toetsen aan deze usecases.