GenAI Studio
Samen met Expertisecentrum Digital Solutions, duiken we wat dieper in de technische aspecten van GenAI en dat noemen we onze “GenAI Studio”. Naast het bouwen van mini proof-of-concepts, doen we ook samen onderzoek naar allerlei topics.
Evaluatie van GenAI-systemen voor niet-technische eindgebruikers
Veel kmo’s met een innovatieve mindset, maar beperkte AI-kennis, voelen zich door fear of missing out (FOMO) verplicht om mee te gaan in de hype rond generatieve AI (GenAI). Hierdoor worden systemen zoals ChatGPT Team of Copilot for Microsoft 365 vaak impulsief aangeschaft, zonder grondige evaluatie. Deze aanpak negeert het belang van een diepgaande analyse om te bepalen of een aangekocht systeem daadwerkelijk aan de verwachtingen voldoet en daarmee de investering waard is (een tijdsinvestering in het geval van gratis tools). Dit probleem is vooral relevant bij GenAI-systemen gebaseerd op Large Language Models (LLM’s), waarvan de output open-ended is. Deze systemen leveren geen eenduidige antwoorden, maar genereren outputs die variëren afhankelijk van de taak, zoals het schrijven van teksten. Dit maakt de evaluatie complex, omdat traditionele kwantitatieve evaluatiemethoden uit de machine learning, zoals precisie en recall, onvoldoende rekening houden met de kwalitatieve aspecten van de output.
Momenteel evalueren gebruikers deze systemen vaak op basis van een eerste indruk of gevoel – een zogenaamde vibe check. Hoewel begrijpelijk, is dit ‘gevoel’ een beperkte aanpak. Gebruikers schrijven een systeem of prompt regelmatig te snel af bij tegenvallende resultaten, vaak omdat deze slechts op ad-hoc en beperkte basis zijn getest. Dit leidt tot onjuiste conclusies en gemiste kansen, terwijl de effectiviteit van een systeem sterk afhankelijk is van de specifieke taak, context en toepassing.
In dit lopende project, ontwikkelen we een holistisch evaluatiekader dat niet-technische eindgebruikers in kmo’s helpt om de prestaties van GenAI-systemen systematisch te beoordelen op verschillende aspecten. Het kader toetst de open-ended output van deze systemen aan specifieke taken, verwachtingen en vooraf gedefinieerde voorbeeldantwoorden. Door deze gestructureerde aanpak krijgen bedrijven een genuanceerd beeld van de sterke en zwakke punten van een GenAI-systeem, wat leidt tot beter geïnformeerde beslissingen.
Met dit project kunnen kmo’s hun investeringen in GenAI optimaliseren en tools selecteren die beter aansluiten bij hun specifieke bedrijfsdoelen. Dit voorkomt verspilling, verhoogt de productiviteit, en versterkt het vertrouwen in generatieve AI-technologie als duurzame oplossing.