NOS Nieuws•zaterdag 16 maart 2019, 15:40

Van de fictie van Orwell tot brexit-nepnieuws, tekstrobot GPT-2 kan alles

Ivo Landman
redacteur Online

Ivo Landman
redacteur Online

'De diefstal van dit nucleaire materiaal zal aanzienlijke negatieve gevolgen hebben voor de volksgezondheid en het milieu, onze beroepsbevolking en de economie van onze natie,' zei Tom Hicks, de Amerikaanse minister van Energie, in een verklaring.
GPT-2

Het is een zinnetje uit een Amerikaans nieuwsbericht, vertaald door Google Translate. Over de diefstal van radioactief materiaal uit een trein ergens in de VS. Op het eerste gezicht is er niks mis met dat bericht - ware het niet dat het fake news is. Volledig verzonnen. Door een computer (het hele bericht staat hier).

Die computer, de nieuwe tekstgenerator GPT-2 , deed de afgelopen weken veel stof opwaaien. Het is al langer bekend dat computers met kunstmatige intelligentie steeds beter worden in het produceren van teksten. Maar GPT-2 is er zó enorm goed in dat de makers van de machine, verenigd in de organisatie OpenAI, er voor hebben gekozen alleen een beperkte versie van de software beschikbaar te stellen.

OpenAI, opgericht in 2015 en medegefinancierd door Tesla- en SpaceX-topman Elon Musk, is bang dat GPT-2 door kwaadwillenden ingezet kan worden om "misleidende, bevooroordeelde of beledigende taal op grote schaal te genereren". Dat meldde de organisatie afgelopen maand in een persbericht. Meteen brak op Twitter de hel los, want OpenAI zou bij uitstek een organisatie op het gebied van kunstmatige intelligentie moeten zijn die juist géén informatie achterhoudt.

Denny Britz

@dennybritz

@deliprao Also consider: OpenAI is worried about the model falling into the wrong hands. But instead of releasing code/paper for researchers and trying to keep it low-key they make a huge PR splash, telling every last spammer on the planet. The choices seem a little… incompatible?

6:31

15 februari 2019

PR-stunt of niet, heeft OpenAI gelijk? Moeten we bang zijn voor een waterval aan gefingeerd nieuws door de nieuwste generatie tekstgeneratoren?

Volgens Jasper Wognum van het Amsterdamse bedrijf BrainCreators, dat zich bezighoudt met AI-toepassingen, niet. "Het is natuurlijk niet zo dat er nu iets nieuws mogelijk is. Mensen kunnen nu ook al nepnieuws verspreiden. De angst zit hem er vooral in de perceptie dat computers de hele wereld overnemen."

Wat wel waar is, is dat zelfschrijvende computers inmiddels enorm geavanceerd zijn. Dat komt vooral door de enorme hoeveelheid bestaande tekst waaruit ze kunnen putten. GPT-2 heeft toegang tot tientallen miljoenen artikelen, onder andere via de sociale nieuwssite Reddit. Door meer computers te koppelen, kan de tekstrobot veel meer data tegelijk verwerken en daardoor betere teksten produceren dan zijn voorganger.

Het enige dat de generator nodig heeft is één regeltje tekst. Daarna verzint GPT-2 er een heel verhaal bij. De ontwikkelaars probeerden het met de eerste zin uit George Orwells distopische roman 1984, en er rolde vervolgens een futuristisch verhaal uit dat zich afspeelt in China.

I was in my car on my way to a new job in Seattle. I put the gas in, put the key in, and then I let it run. I just imagined what the day would be like. A hundred years from now. In 2045, I was a teacher in some school in a poor part of rural China. I started with Chinese history and history of science.
GPT-2

OpenAI liet de tekstrobot ook orakelen over eenhoorns die in een afgelegen vallei in de Andes waren ontdekt. Er rolde een fraai interview uit met een Boliviaanse bioloog uit. GPT-2 gaf de beesten wel vier hoorns.

Ernstiger wordt het als de generator verteld wordt dat popartiest Miley Cyrus betrapt is op winkeldiefstal en de computer er vervolgens allerlei geloofwaardige details bij verzint. Of als GPT-2 de eerste paar alinea's van een krantenartikel over brexit wordt gevoed en er een fictief nieuwsverhaal uitrolt compleet met quotes van Labourleider Jeremy Corbyn en antwoorden van de woordvoerder van premier May.

Asked to clarify the reports, a spokesman for May said: 'The PM has made it absolutely clear her intention is to leave the EU as quickly as is possible and that will be under her negotiating mandate as confirmed in the Queen’s speech last week.'
GPT-2

Volgens Wognum is het steeds moeilijker om te ontdekken of zo'n tekst door een computer is bedacht. "Het is niet te zien, tenzij je een patroon kan herkennen. Daarvoor moet je heel veel van dit soort berichten analyseren."

Voor Nederlandse teksten zijn de generators nog minder geavanceerd, zegt Wognum, simpelweg omdat computers over minder voorbeeldteksten kunnen beschikken. "Dus is het wachten op de volgende generaties. Hoe kunnen we de manier waarop machines slimmer maken zodat ze hetzelfde kunnen met minder datasets?"

Welkom in de wereld van deep learning, computers die zichzelf bijvoorbeeld aanleren objecten te herkennen (de Google Lens herkent er inmiddels 1 miljard), spraak te verstaan en gegevens van medische instrumenten te analyseren. Vaak kunnen ze dat al beter dan mensen. Maar met deep learning komen onvermijdelijk ook de deep fakes.

Computers kunnen audio zo verdraaien dat mensen iets anders zeggen dan ze echt zeiden. En op YouTube zijn inmiddels genoeg video's te vinden waarin AI-ontwikkelaars laten zien hoe de gezichten van mensen schijnbaar eenvoudig visueel te bewerken zijn.

Deep Video Portraits - SIGGRAPH 2018

"Het herkennen van fake videos en tekst die door computers zijn gemaakt wordt steeds moeilijker," ziet ook Maarten de Rijke. Hij is hoogleraar AI and Information Retrieval aan de Universiteit van Amsterdam. "De algoritmes worden steeds complexer, de teksten zijn vaak niet meer van echt te onderscheiden. Voor de financiële markt worden al automatische nieuwsberichten gegenereerd. Als je mensen niet vertelt dat die door een machine zijn geschreven, weten ze dat niet. En als je hen vraagt te kiezen, geven ze vaak de voorkeur aan door een machine geschreven tekst boven een door mensen geschreven tekst."

Persbureau AP is al heel ver met dat soort automatische berichten. Journalisten ervaren het verwerken van kwartaalcijfers 's ochtends vroeg toch al als een vervelende klus, althans volgens techjournalist Alex Wilhelm van TechCrunch. Ook sportuitslagen laat AP al sinds een paar jaar automatisch verwerken tot nieuwsartikelen.

Maar dezelfde kunstmatige intelligentie kan dus ook gebruikt worden om nepnieuws op te tuigen. Volgens De Rijke is dat wel een punt om waakzaam op te zijn. "Vroeger kon je op de krant vertrouwen, maar in de digitale wereld hebben we nieuwe handvatten nodig. Hoe kunnen we straks nog herkennen wat nep is en wat niet?"

Digitale wapenwedloop

Paradoxaal genoeg is de kans groot dat bij het herkennen van robotteksten juist steeds vaker kunstmatige intelligentie moet worden ingezet, verwacht de hoogleraar. "AI kan ook een rol spelen bij het herkennen van nepnieuws, bij video's gebeurt dat al. En zo zie je dus een digitale wapenwedloop ontstaan. Net zoals dat al gebeurt tussen spam en spamfilters."

Intussen moeten we het persbericht waarin OpenAI bekendmaakte niet de volledige versie van GPT-2 vrij te geven vooral zien als waarschuwing, zegt De Rijke. "Ik denk dat ze de discussie willen aanjagen. In die zin is het een geslaagde zet. Iedereen is wakker geschud. En dat is goed, bedrijven moeten zich bewust zijn van hun verantwoordelijkheid."

Maar alle berichten en nieuwskoppen die waarschuwen voor de gevaren van hun GPT-2 komen de ontwikkelaars natuurlijk ook niet slecht uit. "Ze hadden ook een persbericht de wereld in kunnen sturen met het nieuws dat er een volgende mutatie van hun tekstgenerator is die weer 2,5 procent beter is dan de vorige. Maar dan was het effect natuurlijk minder geweest."

Waar is AI beter in? Beeld of tekst?

Zelflerende computers hebben evenveel moeite met het herkennen van patronen in teksten als in foto's en video's, zegt hoogleraar Maarten de Rijke, maar om verschillende redenen. "Bij tekst hebben we vaak te maken met ambiguïteit en indirect taalgebruik, zoals sarcasme, ironie. Dat is voor een machine lastig te herkennen."

Bij (bewegend) beeld kan de computer te maken krijgen met een veelheid aan verschillende perspectieven en met occlusies (waarbij bijvoorbeeld een deel van een object niet zichtbaar is omdat er een ander object voor staat) wat het voor een machine lastig kan maken om te herkennen welk object er in beeld is.

Het succesvol herkennen hangt bij zowel tekst als beeld vooral af van de hoeveelheid trainingsmateriaal waarover het systeem kan beschikken. Een zelflerende computer kan er bijvoorbeeld moeite mee hebben fietsendieven te signaleren op camerabeelden. "Want daarvan hebben we waarschijnlijk niet zoveel trainingsmateriaal, dat wil zeggen: voorbeeldvideo's met een fietsendiefstal. Daardoor kan het lastig kan zijn voor een machine om een fietsendiefstal te herkennen."

Deel artikel:

Van de fictie van Orwell tot brexit-nepnieuws, tekstrobot GPT-2 kan alles

Deep Video Portraits - SIGGRAPH 2018

Digitale wapenwedloop

Advertentie via Ster.nl