Page 15 - HS 5 AI en ethiek

P. 15

A.I. voor wiskunde

5.6.5 Label bias

Komt voor als de manier van labelen van data te beperkt of subjectief is.
Voorbeeld:

Een AI-systeem dat alleen frontale foto's van leeuwen leert herkennen, mist leeuwen in andere
houdingen

5.6.6 Data combinatie bias

Ontstaat als data uit verschillende bronnen verkeerd gecombineerd wordt, waardoor bepaalde groepen
verkeerd worden weergegeven.
Voorbeeld:

Een AI-model dat het salaris voorspelt op basis van jaren werkervaring, maar topsporters meeneemt in
dezelfde dataset, waardoor het model onrealistische voorspellingen doet voor andere beroepen

5.7 Finetuning AI: bloed, zweet en tranen

GPT-3, het oudere broertje van ChatGPT, kon al op min of meer coherente wijze teksten genereren,
maar omdat er geen filter was voor aanstootgevend taalgebruik had het ook de neiging om
gewelddadige, seksistische en racistische opmerkingen te maken.

Dit kwam doordat de het taalmodel GPT3 was getraind met een enorme trainingsdataset van menselijke
taal die voornamelijk van het Internet werd geplukt. Deze teksten van het internet zitten soms vol met
toxische uitspraken, haatdragende uitspraken en vooroordelen.
Om dit te verhelpen bouwde OpenAI een veiligheidssysteem gebaseerd op de werkwijze van sociale
mediabedrijven zoals Facebook. Het uitgangspunt was eenvoudig; je voedt het kunstmatig intelligent
systeem met zoveel mogelijk inhoud die als aanstootgevend gelabeld staat en die tool zou kunnen leren
om vormen van toxiciteit te detecteren.

Om die labels te krijgen, stuurde OpenAI vanaf november 2021 tienduizenden tekstfragmenten naar een
outsourcingbedrijf in Kenia. Veel van die teksten en afbeeldingen zijn afkomstig uit de donkerste
uithoeken van het internet. Sommige ervan beschreven situaties tot in detail, zoals seksueel misbruik
van kinderen, bestialiteit, moord, zelfmoord, marteling, zelfbeschadiging en incest.
Uit een onderzoek van Time bleek dat OpenAI gebruik maakte van outsourcing met medewerkers
(crowdworkers) uit Kenia, Oeganda en India. Voor het labelen van de trainingsdata verdienden deze
arbeiders minder dan $ 2 per uur. Veel werknemers verklaarden psychologische problemen en trauma’s
te hebben opgelopen door dit werk omdat zij zo frequent worden geconfronteerd met gewelddadige
beelden en aanstootgevende filmpjes of teksten. Sommige medewerkers pleegden zelfs zelfmoord.

t
e
n
.
o
l
e
h
t
a
m
Link: https://www.vrt.be/vrtnws/nl/2025/08/01/ontslagen-moderatieteam-berlijn-tiktok/ .
w
w
w

10 11 12 13 14 15 16 17 18 19 20