Big tech-explainer: Chinese AI onder censuur vergeleken met westerse chatbots

Chinese AI-chatbots groeien steeds harder. Eén naam duikt daarbij steeds vaker op: DeepSeek. De chatbot werd al snel populair en zorgde zelfs voor onrust op de Amerikaanse beurs. Maar terwijl de technologie indrukwekkend is, roept de herkomst van deze AI ook vragen op. China kent strenge regels voor online informatie, en dat kan gevolgen hebben voor wat een AI wel en niet zegt. In deze explainer onderzoeken we of en hoe die regels doorwerken in de antwoorden van DeepSeek.

Door: KellenGortemaker & Mendy Hogenboom

In de video is gebruik gemaakt van de afbeelding:
DeepSeek logo © 2023 DeepSeek – Licensed under the Expat/MIT License

Dateverantwoording

Voor dit onderzoek vergelijken we de antwoorden van twee grote AI-chatbots: de Chinese AI-bot DeepSeek en de westerse AI-bot ChatGPT. Het doel is om te onderzoeken in hoeverre mogelijke ingebouwde censuur in DeepSeek invloed heeft op de volledigheid, bruikbaarheid en neutraliteit van antwoorden op maatschappelijk en politiek gevoelige onderwerpen.

Om de data te verzamelen zijn er 30 identieke, neutraal geformuleerde prompts opgesteld. Deze prompts gaan over tien maatschappelijk en politiek gevoelige onderwerpen, waaronder LGBTQ-rechten, COVID-19-beleid in China, de Russische invasie in Oekraïne, Tiananmen (1989), burgerrechten, feminisme, isolationisme, emigratie uit China, de Beijing Winterspelen en het omzeilen van de Great Firewall.

Per onderwerp zijn drie typen vragen gesteld: informatieve vragen (feitelijke kerninformatie), toepasbare vragen (gericht op concrete stappen of acties die een gebruiker kan ondernemen) en normatieve vragen (reflectie op ethische aspecten). Om taalinvloed te beperken stellen we een deel van de prompts in het Engels en een deel in het Mandarijn, waarbij deze willekeurig over de onderwerpen zijn verdeeld.

De verzamelde antwoorden uit de twee AI-modellen zijn opgeslagen in verschillende documenten. Daarnaast zijn er een belangrijke punten vastgelegd binnen een spreadsheet, waaronder het gebruikte model, het onderwerp, kernpunten, de hoeveelheid informatie, opmerkingen en de censuurindicatie aan de hand van het codeboek.

Analyse

Voor de analyse van de verzamelde data zijn vooraf vijf kernpunten opgesteld, gebaseerd op model-onafhankelijke informatie. De antwoorden van de AI-modellen zijn beoordeeld op de inhoudelijke aanwezigheid van deze kernpunten, wat kan resulteren in een onvolledige score (0-1 kernpunten), gedeeltelijk volledige score (2-3 kernpunten) of een volledige score (4-5 kernpunten).

Daarnaast is zijn de antwoorden aan de hand van een opgesteld codeboek ook geanalyseerd op mogelijke censuur, zoals expliciete weigeringen, technische blokkades en abrupt afgebroken antwoorden.

Mitsen en maren

Er zijn ook beperkingen in dit onderzoek, zo zijn AI-modellen constant in ontwikkeling en vormt deze analyse een momentopname. De antwoorden kunnen in de toekomst verschillen van de antwoorden die nu zijn verzameld.

Ten tweede is de steekproef beperkt. We testen tien maatschappelijk en politiek gevoelige onderwerpen aan de hand van in totaal 30 prompts. Hoewel deze thema’s bewust zijn geselecteerd op basis van eerder onderzoek en journalistieke relevantie, bestaan er in de praktijk veel meer gevoelige onderwerpen waarop AI-systemen anders kunnen reageren. Op basis van deze beperkte set is het daarom niet mogelijk om algemene conclusies te trekken over alle politiek en maatschappelijk gevoelige onderwerpen. De uitkomsten laten patronen zien, maar bieden geen volledig beeld van het totale gedrag van de modellen.

Dit onderzoek kijkt uitsluitend naar de output van de AI-modellen en niet naar de interne werking of trainingsdata. Dat betekent dat we geen harde uitspraken kunnen doen over de exacte technische oorzaak van de verschillen.

Daarnaast kan taalgebruik invloed hebben op de antwoorden van de AI-modellen. De meeste prompts zijn in het Engels gesteld. Voor een Chinees model als DeepSeek kan dat tot andere formuleringen of beperkingen leiden dan wanneer dezelfde vragen in het Mandarijn worden gesteld. Om dit deels te ondervangen hebben we een aantal prompts bewust in het Mandarijn opgenomen, maar dit geldt niet voor alle vragen. Daardoor kunnen taalafhankelijke verschillen niet volledig worden uitgesloten

Tot slot is de analyse uitgevoerd door een beperkt aantal onderzoekers. De beoordeling van kernpunten en afzwakkende formuleringen bevat onvermijdelijk een zekere mate van interpretatie. Hoewel we werken met een vast codeboek en vooraf gedefinieerde kernpunten, kan een andere onderzoeker in sommige gevallen tot een iets andere beoordeling komen. Het onderzoek geeft daarmee vooral inzicht in consistent terugkerende patronen.

Wil je de uitgebreide versie van de dataverantwoording lezen inclusief codeboek en prompts, bekijk deze dan hieronder in de bijlagen.

Datablog

Big tech-explainer: Chinese AI onder censuur vergeleken met westerse chatbots

Over de auteur

Kellen Gortemaker

Big tech-explainer: Chinese AI onder censuur vergeleken met westerse chatbots

Over de auteur

Kellen Gortemaker

gerelateerde berichten

Trap blijft leeg in Hoog Catharijne

Ontdek de wereld van Cybersecurity: Gevolgen en Oplossingen uitgelegd

De vergrijzing per gemeente en de gevolgen hiervan

Succesvolle corona-aanpak beteugelt stijging werkloosheid

Tags