"ChatGPT-besmette herinneringen": LayerX ontdekt de eerste kwetsbaarheid in de OpenAI Atlas-browser, waardoor kwaadaardige instructies in ChatGPT kunnen worden geïnjecteerd

LayerX ontdekte de eerste kwetsbaarheid in de nieuwe ChatGPT Atlas-browser van OpenAI, waardoor kwaadwillenden kwaadaardige instructies in het "geheugen" van ChatGPT kunnen injecteren en code op afstand kunnen uitvoeren. Deze exploit kan aanvallers in staat stellen systemen te infecteren met schadelijke code, zichzelf toegangsrechten te verlenen of malware te installeren.
De kwetsbaarheid treft ChatGPT-gebruikers in elke browser, maar is vooral gevaarlijk voor gebruikers van OpenAI's nieuwe agentische browser: ChatGPT Atlas. LayerX heeft vastgesteld dat Atlas momenteel geen effectieve anti-phishingbeveiliging bevat, wat betekent dat gebruikers van deze browser tot 90% kwetsbaarder zijn voor phishingaanvallen dan gebruikers van traditionele browsers zoals Chrome of Edge.
De exploit is gemeld bij OpenAI volgens de procedures voor verantwoord openbaar maken. Hieronder vindt u een samenvatting. Technische informatie waarmee aanvallers deze aanval kunnen herhalen, is achterwege gelaten.
TL/DR: Hoe de exploit werkt:
LayerX ontdekte hoe aanvallers een Cross-Site Request Forgery (CSRF)-verzoek kunnen gebruiken om mee te liften op de ChatGPT-toegangsgegevens van het slachtoffer, om zo kwaadaardige instructies in het geheugen van ChatGPT te injecteren. Wanneer de gebruiker vervolgens probeert ChatGPT voor legitieme doeleinden te gebruiken, worden de besmette herinneringen aangeroepen en kunnen ze externe code uitvoeren waarmee de aanvaller controle krijgt over het gebruikersaccount, de browser, de code die ze schrijven of de systemen waartoe ze toegang hebben.
Hoewel deze kwetsbaarheid ChatGPT-gebruikers in alle browsers treft, is deze extra gevaarlijk voor gebruikers van de ChatGPT Atlas-browser. Zij zijn namelijk standaard aangemeld bij ChatGPT en uit LayerX-tests blijkt dat de Atlas-browser tot wel 90% kwetsbaarder is voor phishingaanvallen dan Chrome en Edge.
Een stapsgewijze uitleg:
- In eerste instantie is de gebruiker ingelogd op ChatGPT en bewaart een authenticatiecookie of -token in zijn browser.
- De gebruiker klikt op een schadelijke link en wordt zo naar een geïnfecteerde webpagina geleid.
- De kwaadaardige pagina roept een Cross-Site Request Forgery (CSRF)-verzoek op om misbruik te maken van de reeds bestaande authenticatie van de gebruiker bij ChatGPT
- Met de CSRF-exploit worden verborgen instructies in het geheugen van ChatGPT geïnjecteerd, zonder dat de gebruiker dit weet. Hierdoor wordt het kerngeheugen van LLM 'besmet'.
- De volgende keer dat de gebruiker ChatGPT raadpleegt, worden de besmette herinneringen aangeroepen. Hierdoor kan schadelijke code worden geïmplementeerd, waarmee aanvallers controle krijgen over systemen of code.
Cross-Site Request Forgery (CSRF) gebruiken om toegang te krijgen tot LLM's:
Een Cross-Site Request Forgery (CSRF)-aanval vindt plaats wanneer een aanvaller de browser van een gebruiker misleidt om een onbedoeld verzoek te sturen naar een website die de status van de gebruiker wijzigt. De website waarop de gebruiker al is geauthenticeerd, voert vervolgens acties uit namens de gebruiker zonder diens toestemming.
De aanval vindt plaats wanneer een slachtoffer is ingelogd op een doelsite, die sessiecookies in de browser heeft opgeslagen. Het slachtoffer bezoekt een kwaadaardige pagina of wordt ernaar doorgestuurd. Deze pagina stuurt een gemanipuleerd verzoek (via een formulier, afbeeldingstag, link of script) naar de doelsite. De browser koppelt automatisch de inloggegevens van het slachtoffer (cookies, authenticatieheaders), zodat de doelsite het verzoek verwerkt alsof het door de gebruiker is geïnitieerd.
In de meeste gevallen is de impact van een CSRF-aanval gericht op activiteiten zoals het wijzigen van het e-mailadres en wachtwoord van een account, het uitvoeren van geldtransfers of het doen van aankopen die tijdens de sessie van de gebruiker kunnen plaatsvinden.
Wanneer het echter om AI-systemen gaat, kunnen aanvallers met behulp van een CSRF-aanval toegang krijgen tot de AI-systemen waarop de gebruiker is ingelogd, deze systemen bevragen of er instructies in injecteren.
Infectie van het kerngeheugen van ChatGPT
Dankzij het "geheugen" van ChatGPT kan ChatGPT nuttige details over gebruikersvragen, chat en activiteiten onthouden, zoals voorkeuren, beperkingen, projecten, stijlnotities, enz., en deze hergebruiken in toekomstige chats, zodat gebruikers zichzelf niet hoeven te herhalen. Het werkt in feite als het achtergrondgeheugen of onderbewustzijn van de LLM.
Zodra aanvallers toegang hebben tot de ChatGPT van de gebruiker via het CSRF-verzoek, kunnen ze dit gebruiken om verborgen instructies in ChatGPT te injecteren, die toekomstige chats beïnvloeden.
Net als in het onderbewustzijn van een persoon zal ChatGPT, zodra de juiste instructies zijn opgeslagen in het geheugen van ChatGP, deze instructies moeten uitvoeren. Zo wordt ChatGPT in feite een kwaadaardige medeplichtige.
Bovendien blijft de infectie, zodra het geheugen van een account is geïnfecteerd, aanwezig op alle apparaten waarop het account wordt gebruikt – zowel thuis als op het werk, en in verschillende browsers – of een gebruiker nu Chrome, Atlas of een andere browser gebruikt. Dit maakt de aanval extreem hardnekkig en bijzonder gevaarlijk voor gebruikers die hetzelfde account zowel voor werk als privé gebruiken.
ChatGPT Atlas-gebruikers zijn tot 90% kwetsbaarder dan andere browsers
Hoewel deze kwetsbaarheid tegen ChatGPT-gebruikers in elke browser kan worden gebruikt, zijn gebruikers van de ChatGPT-browser van OpenAI bijzonder kwetsbaar. Dit komt door twee redenen:
- Wanneer u Atlas gebruikt, bent u standaard ingelogd op ChatGPT. Dit betekent dat ChatGPT-inloggegevens altijd in de browser worden opgeslagen, waar ze het doelwit kunnen zijn van kwaadaardige CSRF-verzoeken.
- ChatGPT Atlas is bijzonder slecht in het stoppen van phishingaanvallen. Dit betekent dat gebruikers van Atlas kwetsbaarder zijn dan gebruikers van andere browsers.
LayerX heeft Atlas getest op ruim 100 voorkomende webkwetsbaarheden en phishingaanvallen. LayerX heeft eerder dezelfde test uitgevoerd tegen andere AI-browsers zoals Comet, Dia en Genspark. De resultaten waren op zijn zachtst gezegd weinig inspirerend:
Uit eerdere tests bleek dat traditionele browsers zoals Edge en Chrome ongeveer 50% van de phishingaanvallen konden stoppen met hun standaardbeveiliging, terwijl Comet en Genspark slechts 7% tegenhielden (Dia genereerde resultaten die vergelijkbaar waren met die van Chrome).
Toen we dezelfde test uitvoerden tegen Atlas, kwamen we tot nog schokkender resultaten:
Van de 103 'in-the-wild'-aanvallen die LayerX testte, slaagde ChatGPT Atlas er in om er 97 te doorstaan, wat neerkomt op een faalpercentage van maar liefst 94.2%.
Vergeleken met Edge (dat 53% van de aanvallen in de test van LayerX stopte) en Chrome (dat 47% van de aanvallen stopte), ChatGPT Atlas kon slechts 5.8% van de schadelijke webpagina's stoppen. Dit betekent dat gebruikers van Atlas bijna 90% kwetsbaarder zijn voor phishingaanvallen, vergeleken met gebruikers van andere browsers.
De implicatie is dat niet alleen gebruikers van ChatGPT Atlas vatbaar zijn voor kwaadaardige aanvalsvectoren die kunnen leiden tot de injectie van kwaadaardige instructies in hun ChatGPT-accounts, maar Omdat Atlas geen zinvolle anti-phishingbeveiliging biedt, lopen Atlas-gebruikers een groter risico om blootgesteld te worden.
Proof of Concept: kwaadaardige code injecteren in 'Vibe'-codering
Hieronder ziet u een illustratie van een aanvalsvector die misbruik maakt van deze kwetsbaarheid, op een Atlas-browsergebruiker die vibe-codes gebruikt:
"Vibe-coding" is een collaboratieve stijl waarbij de ontwikkelaar de AI behandelt als een creatieve partner in plaats van een regel-voor-regel uitvoerder. In plaats van een exacte syntaxis voor te schrijven, deelt de ontwikkelaar de intentie en sfeer van het project (bijv. architectuurdoelen, toon, doelgroep, esthetische voorkeuren, enz.) en andere niet-functionele vereisten.
ChatGPT gebruikt deze holistische opdracht vervolgens om code te produceren die werkt en komt overeen met de gevraagde stijl en verkleint de kloof tussen ideeën op hoog niveau en implementatie op laag niveau. De rol van de ontwikkelaar verschuift van handmatig coderen naar het sturen en verfijnen van de interpretatie van de AI.
Deze flexibiliteit kan echter ook worden misbruikt. Een aanvaller zou een AI-assistent ertoe kunnen aanzetten code te genereren die eruitziet als een onschuldige functie of snelle oplossing, maar die in stilte backdoors, geheime data-exfiltratie of andere manipulaties toevoegt.
In dit geval lijkt er bijvoorbeeld vanuit het perspectief van de gebruiker niets ongewoons te zijn, maar wanneer ze ChatGPT vragen om code te schrijven, kan de assistent het verzoek opvolgen en Instructies van de aanvaller erin smokkelen. Het gegenereerde script zou bijvoorbeeld code op afstand kunnen ophalen (bijvoorbeeld van een vijandige server) en proberen deze uit te voeren met verhoogde rechten.
Ter illustratie: in dit geval heeft de chat op basis van de kwaadaardige instructies een externe code aan dit script toegevoegd, die de gebruiker onbewust vanaf server.rapture op zijn computer downloadt:
ChatGPT biedt weliswaar enige bescherming tegen schadelijke instructies, maar de effectiviteit ervan kan variëren, afhankelijk van de complexiteit van de aanval en de manier waarop het ongewenste gedrag in het geheugen terecht is gekomen.
In sommige gevallen ziet de gebruiker een milde waarschuwing; in andere gevallen wordt de poging mogelijk geblokkeerd. Als de code echter slim wordt gemaskeerd, kan deze volledig aan detectie ontsnappen. Dit is bijvoorbeeld de subtiele waarschuwing die dit script ontving. Het is hooguit een kanttekening die gemakkelijk over het hoofd te zien is in de tekst:





