Van de fictie van Orwell tot brexit-nepnieuws, tekstrobot GPT-2 kan alles
Ivo Landman
redacteur Online
Ivo Landman
redacteur Online
'De diefstal van dit nucleaire materiaal zal aanzienlijke negatieve gevolgen hebben voor de volksgezondheid en het milieu, onze beroepsbevolking en de economie van onze natie,' zei Tom Hicks, de Amerikaanse minister van Energie, in een verklaring.
Het is een zinnetje uit een Amerikaans nieuwsbericht, vertaald door Google Translate. Over de diefstal van radioactief materiaal uit een trein ergens in de VS. Op het eerste gezicht is er niks mis met dat bericht - ware het niet dat het fake news is. Volledig verzonnen. Door een computer (het hele bericht staat hier).
Die computer, de nieuwe tekstgenerator GPT-2 , deed de afgelopen weken veel stof opwaaien. Het is al langer bekend dat computers met kunstmatige intelligentie steeds beter worden in het produceren van teksten. Maar GPT-2 is er zó enorm goed in dat de makers van de machine, verenigd in de organisatie OpenAI, er voor hebben gekozen alleen een beperkte versie van de software beschikbaar te stellen.
OpenAI, opgericht in 2015 en medegefinancierd door Tesla- en SpaceX-topman Elon Musk, is bang dat GPT-2 door kwaadwillenden ingezet kan worden om "misleidende, bevooroordeelde of beledigende taal op grote schaal te genereren". Dat meldde de organisatie afgelopen maand in een persbericht. Meteen brak op Twitter de hel los, want OpenAI zou bij uitstek een organisatie op het gebied van kunstmatige intelligentie moeten zijn die juist géén informatie achterhoudt.
PR-stunt of niet, heeft OpenAI gelijk? Moeten we bang zijn voor een waterval aan gefingeerd nieuws door de nieuwste generatie tekstgeneratoren?
Volgens Jasper Wognum van het Amsterdamse bedrijf BrainCreators, dat zich bezighoudt met AI-toepassingen, niet. "Het is natuurlijk niet zo dat er nu iets nieuws mogelijk is. Mensen kunnen nu ook al nepnieuws verspreiden. De angst zit hem er vooral in de perceptie dat computers de hele wereld overnemen."
Wat wel waar is, is dat zelfschrijvende computers inmiddels enorm geavanceerd zijn. Dat komt vooral door de enorme hoeveelheid bestaande tekst waaruit ze kunnen putten. GPT-2 heeft toegang tot tientallen miljoenen artikelen, onder andere via de sociale nieuwssite Reddit. Door meer computers te koppelen, kan de tekstrobot veel meer data tegelijk verwerken en daardoor betere teksten produceren dan zijn voorganger.
Het enige dat de generator nodig heeft is één regeltje tekst. Daarna verzint GPT-2 er een heel verhaal bij. De ontwikkelaars probeerden het met de eerste zin uit George Orwells distopische roman 1984, en er rolde vervolgens een futuristisch verhaal uit dat zich afspeelt in China.
I was in my car on my way to a new job in Seattle. I put the gas in, put the key in, and then I let it run. I just imagined what the day would be like. A hundred years from now. In 2045, I was a teacher in some school in a poor part of rural China. I started with Chinese history and history of science.
OpenAI liet de tekstrobot ook orakelen over eenhoorns die in een afgelegen vallei in de Andes waren ontdekt. Er rolde een fraai interview uit met een Boliviaanse bioloog uit. GPT-2 gaf de beesten wel vier hoorns.
Ernstiger wordt het als de generator verteld wordt dat popartiest Miley Cyrus betrapt is op winkeldiefstal en de computer er vervolgens allerlei geloofwaardige details bij verzint. Of als GPT-2 de eerste paar alinea's van een krantenartikel over brexit wordt gevoed en er een fictief nieuwsverhaal uitrolt compleet met quotes van Labourleider Jeremy Corbyn en antwoorden van de woordvoerder van premier May.
Asked to clarify the reports, a spokesman for May said: 'The PM has made it absolutely clear her intention is to leave the EU as quickly as is possible and that will be under her negotiating mandate as confirmed in the Queen’s speech last week.'
Volgens Wognum is het steeds moeilijker om te ontdekken of zo'n tekst door een computer is bedacht. "Het is niet te zien, tenzij je een patroon kan herkennen. Daarvoor moet je heel veel van dit soort berichten analyseren."
Voor Nederlandse teksten zijn de generators nog minder geavanceerd, zegt Wognum, simpelweg omdat computers over minder voorbeeldteksten kunnen beschikken. "Dus is het wachten op de volgende generaties. Hoe kunnen we de manier waarop machines slimmer maken zodat ze hetzelfde kunnen met minder datasets?"
Welkom in de wereld van deep learning, computers die zichzelf bijvoorbeeld aanleren objecten te herkennen (de Google Lens herkent er inmiddels 1 miljard), spraak te verstaan en gegevens van medische instrumenten te analyseren. Vaak kunnen ze dat al beter dan mensen. Maar met deep learning komen onvermijdelijk ook de deep fakes.
Computers kunnen audio zo verdraaien dat mensen iets anders zeggen dan ze echt zeiden. En op YouTube zijn inmiddels genoeg video's te vinden waarin AI-ontwikkelaars laten zien hoe de gezichten van mensen schijnbaar eenvoudig visueel te bewerken zijn.
"Het herkennen van fake videos en tekst die door computers zijn gemaakt wordt steeds moeilijker," ziet ook Maarten de Rijke. Hij is hoogleraar AI and Information Retrieval aan de Universiteit van Amsterdam. "De algoritmes worden steeds complexer, de teksten zijn vaak niet meer van echt te onderscheiden. Voor de financiële markt worden al automatische nieuwsberichten gegenereerd. Als je mensen niet vertelt dat die door een machine zijn geschreven, weten ze dat niet. En als je hen vraagt te kiezen, geven ze vaak de voorkeur aan door een machine geschreven tekst boven een door mensen geschreven tekst."
Persbureau AP is al heel ver met dat soort automatische berichten. Journalisten ervaren het verwerken van kwartaalcijfers 's ochtends vroeg toch al als een vervelende klus, althans volgens techjournalist Alex Wilhelm van TechCrunch. Ook sportuitslagen laat AP al sinds een paar jaar automatisch verwerken tot nieuwsartikelen.
Maar dezelfde kunstmatige intelligentie kan dus ook gebruikt worden om nepnieuws op te tuigen. Volgens De Rijke is dat wel een punt om waakzaam op te zijn. "Vroeger kon je op de krant vertrouwen, maar in de digitale wereld hebben we nieuwe handvatten nodig. Hoe kunnen we straks nog herkennen wat nep is en wat niet?"
Digitale wapenwedloop
Paradoxaal genoeg is de kans groot dat bij het herkennen van robotteksten juist steeds vaker kunstmatige intelligentie moet worden ingezet, verwacht de hoogleraar. "AI kan ook een rol spelen bij het herkennen van nepnieuws, bij video's gebeurt dat al. En zo zie je dus een digitale wapenwedloop ontstaan. Net zoals dat al gebeurt tussen spam en spamfilters."
Intussen moeten we het persbericht waarin OpenAI bekendmaakte niet de volledige versie van GPT-2 vrij te geven vooral zien als waarschuwing, zegt De Rijke. "Ik denk dat ze de discussie willen aanjagen. In die zin is het een geslaagde zet. Iedereen is wakker geschud. En dat is goed, bedrijven moeten zich bewust zijn van hun verantwoordelijkheid."
Maar alle berichten en nieuwskoppen die waarschuwen voor de gevaren van hun GPT-2 komen de ontwikkelaars natuurlijk ook niet slecht uit. "Ze hadden ook een persbericht de wereld in kunnen sturen met het nieuws dat er een volgende mutatie van hun tekstgenerator is die weer 2,5 procent beter is dan de vorige. Maar dan was het effect natuurlijk minder geweest."