Jouw data is veilig bij ons!

Hoe kunnen HR-diensten in kmo’s Generatieve AI (GenAI) op een verantwoorde en toekomstgerichte manier inzetten en nog steeds de mens centraal stellen? Die uitdaging gaan we sinds september 2024 aan met een breed netwerk van partners in het project HumAIn Resources. Aangezien we in dit project nadrukkelijk de focus leggen op het verantwoord gebruik van GenAI, zoomen we met oog op transparantie graag in op hoe we zelf zijn omgegaan met veilige dataverwerking.

Opgelet: wanneer je over veilige dataverwerking en privacy spreekt, gaat het heel snel over specifieke technische aspecten van de technologie. In dit artikel willen we het alsnog toegankelijk uitleggen. Ben je toch even niet mee wat we met een bepaalde term bedoelen? Bekijk dan de verklarende woordenlijst onderaan het artikel! De concepten die hierin zijn opgenomen zijn aangeduid met een ster (*).

Aan de hand van verschillende design thinking methodieken (zie het artikel “Hoe we de noden en bezorgdheden van HR-professionals vertaalden naar HR-persona’s”), identificeerden we in onze eerste themasessie de noden en bezorgdheden over het gebruik van GenAI in HR-processen. We namen deze gesprekken op met dictafoons en noteerden met pen en papier, een bewuste keuze om ervoor te zorgen dat de bedrijfsgegevens enkel lokaal werden opgeslagen en niet in de cloud (*). Tijdens de tweede themasessie hanteerden we een soortgelijke aanpak om de feedback van de deelnemers op onze readiness scan te verzamelen.

Uiteraard wilden we ook aan de slag met GenAI om al die input te verwerken onder het motto: practise what you preach. Om dat veilig aan te pakken, gebruikten we enkele GenAI-tools die we zelf in elkaar staken (*). De modellen die we hiervoor gebruikten, verwerkten de data ofwel op de Europese Microsoft Azure cloudservers toegewezen aan UCLL, ofwel lokaal op onze eigen krachtige server die op Campus Connect (Heverlee) van Hogeschool UCLL staat (*). Dankzij deze tools konden we de resultaten van de tweede themasessie zelfs live met de deelnemende bedrijven delen. Zo konden ze de snelheid en efficiëntie van een semi-geautomatiseerde analyse met GenAI meteen ervaren.

Audioverwerking

Opnames van je eigen stem uploaden naar een extern bedrijf kan gevoelig liggen bij mensen. Vandaar dat we ervoor kozen om de audio-opnames die we maakten om te zetten naar tekst met behulp van een volledig lokale transcriptietool. Dit betekent dus dat de tool van begin tot eind op onze eigen krachtige server werd uitgevoerd en de data nooit ons eigen netwerk heeft verlaten. Dit is alleen maar mogelijk omdat er in die computer een krachtige grafische kaart van Nvidia zit die voldoende rekenkracht heeft (*). Hoewel deze tool meteen al een redelijk goede transcriptie opleverde, werd die achteraf nog manueel opgeschoond via het programma Subtitle Edit – een tool die het mogelijk maakt ondertitels van een audiobestand gebruiksvriendelijk aan te passen en dus te verbeteren. Ook dit programma werd op onze computer gedownload zodat de audio en transcriptie niet naar derde partijen moest worden opgestuurd.

Een schermafbeelding van de transcriptietool – gebouwd op WhisperX in de programmeeromgeving ComfyUI.
Afbeeldingsverwerking

Om de handgeschreven opdrachten en ingevulde formulieren digitaal te kunnen gebruiken, maakten we gebruik van een eigen OCR-tool (*). We testten het proces eerst uit met het lokale model Llama3.2-vision (Meta) (*), maar dit bleek wat minder goed te werken en vaak tekst te verzinnen – of ‘hallucineren’ – in het Nederlands. Kort na die test werd het model overigens geüpdatet met de boodschap dat het niet gebruikt mag worden in de Europese Unie en was dit dus geen optie meer.

meta-llama/Llama-3.2-11B-Vision · Hugging Face
Uiteindelijk kwamen we dus uit bij het model gpt-4o-vision (OpenAI) (*), dat we op de Europese Microsoft Azure cloudservers (*) lieten draaien in de ontwikkelomgeving van UCLL. Omdat we nu een betalend model gebruiken (OpenAI) in plaats van het gratis model van Meta, kwam er dus ook een kleine kost bij kijken die we per getranscribeerde afbeelding betaalden. Belangrijk om te vermelden is dat er in de handgeschreven tekst geen persoonlijke gegevens of specifieke bedrijfsgegevens te vinden waren – enkel eerder algemene ideeën uit de brainstorm zoals het antwoord op de vraag “hoe ziet dat dag van een typische HR-professional er volgens jou uit?” of “welke usecases zie jij voor GenAI en HR?”.

Een schermafbeelding van de OCR-tool – gebouwd op gpt-4o-vision op Microsoft Azure.
Tekstverwerking
De tekst die gedigitaliseerd werd in de stappen van de audio- en afbeeldingsverwerking was nu klaar om bediscussieerd en geanalyseerd te worden met een chatbot. We kozen hier opnieuw voor dezelfde ontwikkelomgeving op Microsoft Azure als de OCR-tool en gebruikten taalmodellen zoals gpt-4o en gpt-4o-mini (*) om de input van de themasessie samen te vatten. In een zelfgemaakte applicatie werd de design thinking flow ‘Explore, Empathize, Define, Ideate’ gerepliceerd en doorlopen door het taalmodel met een systeemprompt op maat. Naast de input van onze deelnemers, gaven we aan de chatbot ook een overzicht van de doelen die we wilden bereiken met deze sessie. 

Een schermafbeelding van de samenvattingstool – gebouwd op gpt-4o op Azure.
We grepen in de verwerkingsstap ook naar populaire, generalistische GenAI-tools, zoals ChatGPT of Claude, maar gaven dan steevast enkel verwerkte data door aan de chatbots. Zo waren er dus geen directe of indirecte verwijzingen naar personen of bedrijven meer in de input. Deze tools zijn handig om bijvoorbeeld Custom GPT’s, projecten of interactieve applicaties in te maken, maar we zijn er ons altijd van bewust dat de gegevens die we hierin uploaden terechtkomen op de Amerikaanse servers van bijvoorbeeld OpenAI of Anthropic. Klaar voor een technische uitdaging? Via API keys (*) kan je vrij eenvoudig aan de slag met Azure, mits een paar configuratiestappen en wat basiskennis van programmeren.
Hoe jij hier mee aan de slag kan
We vermeldden al eerder dat je een vrij krachtige grafische kaart (*) nodig hebt om bovengenoemde modellen lokaal te laten draaien. Betekent dit dan dat je meteen een hele server nodig hebt? Niet noodzakelijk, modellen als WhisperX werken ook op een krachtige laptop of minicomputer. Ook Small Language Models (SLM’s, kleinere taalmodellen) zijn hiervoor geschikt. Je zou bijvoorbeeld aan de slag kunnen gaan met LM Studio. Heb je interesse om mee te werken aan onderzoek naar het slim inzetten van SLM’s? Vul dan dit formulier in.
Minicomputer met grafische kaart
Zo, nu weet je hoe wij met data omgaan. Door met Microsoft Azure te werken, versturen we nog altijd data naar een server in de cloud, maar wel eentje op Europese bodem die onder Europese wetgeving valt en beheerd wordt in een omgeving van onze eigen organisatie. Alleen met een lokaal model ben je honderd procent zeker dat de data binnen jouw vier muren blijft, maar dan ben je er natuurlijk ook wel honderd procent verantwoordelijk voor dat jouw applicatie volledig veilig is. We hanteren deze werkwijze voornamelijk bij data waar sensitieve zaken in kunnen zitten. Het is dus perfect mogelijk om volledig lokaal te werken, maar niet altijd evident. Je moet soms wel wat technische kennis hebben, alsook de juiste hardware. Het voornaamste is dat je je bewust bent van de verschillen, zodat je weet wat je wel of niet in zulke tools kan steken.
Verklarende woordenlijst
“bedrijfsgegevens die enkel lokaal worden opgeslagen en niet in de cloud”
Als je bedrijfsgegevens lokaal opslaat, betekent dit dat ze op een computer (of server) staan die fysiek in het bedrijf zelf staat. Als je gebruik maakt van de cloud, dan gebruik je servers die niet in jouw bedrijf staan en beheerd worden door andere bedrijven, zoals bijvoorbeeld Big Tech bedrijven Microsoft, Google of Amazon. Er bestaan ook kleinere initiatieven zoals Hetzner in Europa.
“GenAI-tools die we zelf in elkaar staken”
We maken gebruik van modellen die publiek beschikbaar zijn (al dan niet betalend) en hebben een flow en interface ontworpen op maat van specifieke toepassingen. Het ontwerp hiervan gebeurde in de programmeercode Python. We hebben dus niet onze eigen modellen getraind.
“Europese Microsoft Azure cloudservers toegewezen aan UCLL”
Microsoft is een aanbieder van clouddiensten en dit product noemen ze Azure. Wij hebben op dit platform een account met Hogeschool UCLL en kunnen hier kiezen om onze modellen en data te laten verwerken op Europese servers. In het geval van de tools uit dit artikel is dat specifiek in Zweden. Zo weten we zeker dat de gegevens in Europa blijven en onder Europese privacywetten vallen. De servers zijn ingesteld voor UCLL, zodat er extra goed op wordt gelet wie er toegang toe heeft.
“lokaal op onze eigen krachtige server (UCLL Campus Connect, Heverlee)”
Hiermee bedoelen we dat bepaalde toepassingen draaien op een eigen computer of server die op de campus van UCLL in Heverlee staat. Zo blijft alles binnen de organisatie en heb je zelf de touwtjes in handen.
“een krachtige grafische kaart van Nvidia die voldoende rekenkracht heeft”
Een grafische kaart is een hardware-onderdeel van een computer (of server), normaal vooral bekend van gaming, maar wordt ook gebruikt om zware berekeningen snel te doen. Nvidia is een bekende fabrikant hiervan die hier heel erg veel marktaandeel in heeft. Zulke kaarten zijn belangrijk voor AI-toepassingen omdat ze veel ‘rekenkracht’ nodig hebben om snel te werken.
“WhisperX in de programmeeromgeving ComfyUI”
WhisperX is een programma – gebaseerd op een model van OpenAI – dat spraak kan omzetten naar geschreven tekst, dus bijvoorbeeld een opname automatisch uitschrijven. ComfyUI is een gebruiksvriendelijke omgeving voor ontwikkelaars waarin je met verschillende AI-tools kunt werken zonder dat je veel code hoeft te schrijven.
“OCR-tool”
OCR (Optical Character Recognition) betekent dat een computer een foto of scan van tekst (bijvoorbeeld een brief of een formulier) kan omzetten naar echte, bewerkbare digitale tekst. Zo hoef je niet alles handmatig over te typen.
“het lokale model Llama3.2-vision (Meta)”
Llama3.2-vision is een AI-model van Meta (het moederbedrijf van Facebook), gelijkaardig aan ChatGPT, dat je zelf op je eigen computer of server kunt draaien omdat het een open weights model is. In het geval van een open weights model, kiest het bedrijf ervoor om het model beschikbaar te maken voor gebruik, maar niet de achterliggende data en ontwerp e.d. vrij te geven. “Vision” betekent dat het model ook beelden kan verwerken of begrijpen, niet enkel tekst.
“het model gpt-4o-vision, gpt-4o en gpt-4o-mini (OpenAI)”
Dit zijn de technische namen van verschillende van de taalmodellen van OpenAI, de makers van ChatGPT. Het zijn de modellen die, in verschillende periodes, achter ChatGPT zaten. Ondertussen gebruikt OpenAI GPT-5 voor ChatGPT. “Vision” betekent dat ze ook met afbeeldingen kunnen werken. De “mini”-variant is een kleinere, lichtere versie die minder rekenkracht nodig heeft.
“API keys”
Dit zijn digitale sleutels of wachtwoorden waarmee je toegang krijgt tot bepaalde online diensten of programma’s. Ze zorgen ervoor dat alleen jij of jouw applicatie bepaalde functies mag gebruiken. In het geval van een Microsoft Azure API Key, maak je dus een account op Microsoft Azure en kan je een toegangssleutel genereren waarmee enkel zij die de sleutel hebben toegang kunnen krijgen tot het model dat je wil gebruiken.
 
Scroll naar boven