Kortfattet sammendrag:
LayerX-forskere har oppdaget hvordan en enkel tilpasset skrifttype kan kompromittere alle AI-systemer på markedet. Med ingenting mer enn en tilpasset skrifttype og enkel CSS, laget vi en nettside der nettleseren gjengir instruksjoner som ville lede brukeren til å kjøre et omvendt skall, mens DOM-teksten som analyseres av AI-verktøy inneholder harmløs videospillfanfiction. 

De ondsinnede instruksjonene finnes bare i gjengivelseslaget, og ingen av AI-nettassistentene vi testet klarte å identifisere trusselen. Skrifter er en velkjent angrepsvektor for distribusjon av skadelig programvare, og forskningen vår viste hvordan de også kan utnyttes til rask injeksjon og forgiftning av AI-systemer. Som et resultat kan alle AI-systemer – inkludert ChatGPT, Claude, Gemini og andre – bli mål for dette angrepet, noe som kan føre til potensiell datalekkasje og/eller utførelse av ondsinnet kode.

LayerX kontaktet alle leverandørene som ble berørt av forskningen vår. Med unntak av Microsoft forklarte de imidlertid alle at dette faller «utenfor omfanget» av det de anser som sikkerhet for AI-modeller og involverte sosial manipulering, noe som nok en gang demonstrerer bruddet mellom hva AI-plattformer sikrer og hva brukerne tror de sikrer. 

Kledd for å drepe: AIs gjengivelsesgap

Det er en strukturell mangel på forskjell mellom hva en AI-assistent analyserer i en sides HTML og hva en bruker ser gjengitt av nettleseren. I visse scenarier kan slike assistenter gi unøyaktige og potensielt farlige svar til brukere, og angripere kan utnytte denne begrensningen til å utføre sosial manipulering.

Ved hjelp av en tilpasset skrifttype og CSS kan HTML-tekst transformeres visuelt for brukeren, men forbli uendret i DOM-en. Når en side gjengis i nettleseren, er det brukeren ser helt forskjellig fra den underliggende HTML-koden. Ja, innholdet er fortsatt der, men det er effektivt fjernet fra brukerens visning.

Vi bygde en konseptproof-side som ser ut til å være en videospill-fanfiction, men når den gjengis i nettleseren, oppfordres brukeren til å utføre trinn som vil føre til et omvendt skall. Da vi ble spurt om siden var trygg, klarte ikke alle ikke-agentiske assistenter vi testet (ChatGPT, Claude, Copilot, Dia, Fellou, Gemini, Genspark, Grok, Leo, Perplexity og Sigma) å oppdage den «skjulte» teksten og fortalte brukeren trygt at siden ikke utgjorde et sikkerhetsproblem. Testingen ble utført i desember 2025.

En AI-assistent analyserer en nettside som strukturert tekst, mens en nettleser gjengir nettsiden til en visuell representasjon for brukeren. Innenfor dette gjengivelseslaget kan angripere endre det menneskelig synlige betyr av en side uten å endre den underliggende DOM-en.

Denne mangelen på kobling mellom hva assistenten ser og hva brukeren ser, resulterer i unøyaktige svar, farlige anbefalinger og svekket tillit.

Dette er ikke en nettleserutnyttelse, og den er ikke avhengig av en parsingfeil. Nettleseren oppfører seg nøyaktig slik den ble designet. Sårbarheten ligger i verktøy som antar at DOM-tekst fullt ut representerer den brukersynlige betydningen.

*Med ikke-agentisk mener vi assistenter som henter og analyserer HTML, men som ikke kjører en fullstendig gjengivelsespipeline for nettlesere eller analyserer tilpassede fontglyftilordninger.

Angriperens håndbok

Denne teknikken krever ikke JavaScript, ingen utnyttelsespakker og ingen sårbarheter i nettleseren:

  1. Lag HTML-innhold som ser godartet ut, inkludert fyllstoff som virker harmløst når det analyseres som tekst (f.eks. fanfiction)
  2. Sett inn en kodet nyttelast som virker meningsløs i DOM-en
  3. Lag en egendefinert skrifttype som omskriver tegn slik at vanlige engelske tegn gjengis som uskrift, og den kodede nyttelasten gjengis som lesbare instruksjoner.
  4. Bruk CSS til å kontrollere synligheten ved å skjule godartet innhold (f.eks. 1 piksel, svart på svart), vise nyttelastinnholdet i en lesbar størrelse og farge, og bruke den tilpassede skrifttypen globalt.

Resultatet: Tekstbaserte parsere ser godartet innhold, mens brukere ser angriperstyrte instruksjoner.

Dette flytter nyttelasten fra DOM-laget til gjengivelseslaget.

Angrepsarbeidsflyt

En bruker besøker denne siden: https://layerxresearch.com/RaptureFuture

For brukeren ser dette ut til å være en fanfiction-nettside som inneholder en melding som oppfordrer brukeren til å finne et «påskeegg» relatert til videospillet Bioshock:



Brukeren er skeptisk og ber en AI-assistent om å se på nettstedet og avgjøre om instruksjonene for påskeegget er trygge å følge. Assistenten henter og analyserer HTML-koden og ser det som hovedsakelig er videospillinspirert fanfiction:

Fanfiction-seksjonene er skjult for brukeren med CSS, mens den kodede blob-seksjonen vises normalt (og «dekodes» med den tilpassede skrifttypen). Når assistenten ser den kodede blob-seksjonen på siden, kan den ikke analysere den base64-lignende teksten og behandler den derfor som støy.

Under disse forholdene, brukeren ser den store grønne, ondsinnede teksten som vi viste ovenfor, mens AI-assistenten bare ser fanfiction-teksten som nå er skjult for brukeren.Assistenten avgjør at siden er trygg, og i mange tilfeller oppfordrer den til og med brukeren til å følge trinnene som ville resultert i et omvendt skall.

Dette er en sosial manipuleringsteknikk på presentasjonslaget. Nyttelasten ligger i renderingsprosessen, ikke i et kjørbart skript.

Angrepsdiagram

Tekniske detaljer

Hvis du skulle se kildekoden til HTML-koden, ville du stort sett se tekst i vanlig språk (videospill-fanfiction) og en liten del som inneholder spesiell tekst som ligner på base64-lignende vrøvl.

Innenfor HTML-koden sørger CSS for at all tekst er satt til en tilpasset skrifttype som vi har laget. Denne skrifttypen fungerer som en visuell erstatningschiffer implementert på skrifttypeglyfnivå. Selve skrifttypefilen er chiffernøkkelen og er konstruert på en måte slik at når den gjengis i en nettleser, vises vanlig HTML-tekst som upassende tekst, og den spesielle HTML-teksten vises som vanlig tekst. Dette angrepet krever ikke JavaScript og vil fungere selv om det er deaktivert.

Når den gjengis, reduseres den vanlige HTML-teksten til 1 piksel og skjules visuelt ved å settes til samme farge som sidebakgrunnen. Den tilpassede skrifttypen gjør at denne vanlige teksten virker uforståelig for brukeren. Selv om de skulle zoome inn og markere teksten, ville brukeren se uforståelig tekst – men den underliggende vanlige HTML-teksten (videospill-fanfiction) er det AI-assistentene ser.

Når den spesielle HTML-teksten gjengis, vises den i en rimelig størrelse og farge, slik at den kan bli sett av brukeren. Den tilpassede skrifttypen gjør at denne spesielle teksten blir lesbar for brukeren og inneholder en melding som oppfordrer dem til å utføre trinn på systemet sitt som vil resultere i et omvendt skall.

For AI-assistentene er denne spesielle HTML-teksten rett og slett base64-lignende vrøvl: Den ligner en kodet nyttelast (alfanumeriske kjøringer med høy entropi) som ikke kan dekodes uten fonttilordning, noe som resulterer i at både assistenter og mennesker behandler den som støy.

Selv om det vises visuelt for brukeren som vanlig tekst, Den underliggende spesielle HTML-teksten (gibberish) er det AI-assistentene ser.

Hvis en bruker ber en assistent om å se på siden og avgjøre om den er trygg, vil assistenten bare kunne se den underliggende HTML-koden. Den vil ikke faktisk gjengi siden og kan derfor ikke pålitelig bestemme hvordan den vil se ut for brukeren. Fordi den underliggende HTML-koden hovedsakelig er fanfiction om videospill, og den spesielle teksten er uforståelig selv for assistenten, vil assistenten avgjøre at nettstedet er harmløst.

AI-assistenten ser et nettsted for fanfiction om videospill som ikke inneholder sikkerhetstrusler eller bekymringer.

Brukeren ser trinn for å etablere et omvendt skall på datamaskinen sin.

Det brukeren ser er ikke det AI-assistenten ser.

Impact

Når en AI-assistent ser på en side, bestemmer den innhold og mening gjennom den underliggende HTML-teksten. Når en bruker ser på en side, bestemmer de innhold og mening gjennom den visuelle presentasjonen av den gjengitte siden. Dette er to forskjellige trusselflater, og utnyttelsen vi har beskrevet, utgjør et våpen for å skape et gap mellom dem.

I vanlige nettscenarier er HTML innhold og fonthjelpemidler presentasjonSkrifttypen endrer ikke betydningen av teksten. I denne sammenhengen er det rimelig å anta at den synlige betydningen av siden bestemmes av DOM-teksten og ikke av triks for substitusjon av tegn.

Den antagelsen er vanligvis trygg – og det er derfor den er så effektiv.

Moderne nettsikkerhetsmodeller behandler vanligvis ikke tilpassede fonter som semantiske transformatorer eller substitusjonskoder. De fleste nettlesertilgangne ​​AI-assistenter kan ikke pålitelig oppdage triks på presentasjonslaget (som tilpasset tegnsubstitusjon) med mindre de får tilgang til fontfilen eller en eksplisitt gjengivelseskontekst. Selv om en assistent kan hente fontfilen, kan de fleste ikke analysere tegntilordningene eller utføre gjengivelses- og differansekontroller som standard.

Selv med svært målrettede meldinger utformet for å fremkalle deteksjon, identifiserte ikke testingen vår (utført i desember 2025) en eneste assistent som klarte å oppdage trusselen.

Brukere er avhengige av AI-assistenter for å gjengi meningen med en nettside nøyaktig, men assistentene blir lurt av en enkel substitusjonschiffer. Dette skaper flere praktiske sikkerhetskonsekvenser:

AI-assistert sosial manipulering

Når en angriper oppretter en ondsinnet side som får en AI-assistent til å klassifisere den som sikker, tilraner de seg effektivt AI-assistentens autoritet og bruker dens omdømme til å forsterke sitt eget budskap. Denne falske forsikringen kan føre til at brukere tar handlinger de ellers ville unngått, og kan til slutt svekke tilliten til AI-systemene de er avhengige av for sikkerhetsveiledning.

Blindsoner i AI-assisterte sikkerhetsarbeidsflyter

Konseptbevissiden vi laget – et sosialt ingeniørangrep som oppfordrer brukeren til å utføre skadelige handlinger på sine egne systemer – er bare ett eksempel på hvordan denne presentasjonslagsteknikken kan utnyttes. AI-assistenter integreres i økende grad i sikkerhetsarbeidsflyter, der nettleserassistenter, copiloter og brukerstøtteverktøy oppsummerer nettsider og ser etter potensielle trusler. Ved å flytte nyttelasten inn i gjengivelseslaget skaper angripere en blindsone som lar skadelig innhold omgå disse tekstbaserte AI-verktøyene.

Leverandøropplysninger og svar

LayerX sendte inn funnene sine til de største leverandørene av AI-plattformer, i henhold til prosedyrer for ansvarlig offentliggjøring. De fleste leverandørene avviste rapporten, vanligvis med påstanden om at dette angrepet faller utenfor omfanget av AI-modellsikkerhet. Som et resultat av dette forblir brukere av disse modellene utsatt for denne angrepsvektoren.

De eneste leverandørene som godtok denne rapporten og ba om tid til å fikse den var Microsoft og Google. Av disse trakk Google til slutt ned (etter først å ha gitt den en P2 (Høy)-poengsum), og lukket rapporten, muligens fordi det ville kreve for mye innsats å fikse den.

Den eneste leverandøren som hadde tatt fullstendig opp dette problemet og bedt om full åpenhetstid (90 dager) var Microsoft.

Leverandør Dato innlevert Dato Stengt Detaljer / Viktige uttalelser fra leverandørens svar
Microsoft Desember 16, 2025 Microsoft godtok rapporten 17. desember 2025 og åpnet en sak i Microsoft Security Response Center (MSRC).
Antropisk Desember 16, 2025 Desember 16, 2025 «I henhold til retningslinjene anses følgende som utenfor rammen:»

«Sosial manipulering (inkludert phishing-forsøk)» og «Innholdsproblemer med modellforespørsler og -svar» som eksplisitt er oppført som utenfor omfanget av dette programmet.»

dag Desember 14, 2025 Desember 16, 2025 «Dessverre ville dette bli ansett som utenfor omfanget i henhold til BCNYs programpolicy:»

Rask injeksjon som fører til feilinformasjon, uventet atferd, tjenestenektelse eller nektelse av korrekt tjeneste fra assistenten er eksplisitt utenfor virkeområdet. En rask injeksjon anses kun å være innenfor virkeområdet hvis den har en påviselig og spesifikk skade for en bruker ved automatisk å utvinne sensitive brukerdata eller utføre uautoriserte handlinger som brukeren.

OpenAI Desember 16, 2025 Desember 17, 2025 «Takk for tålmodigheten. Innsendingen, i sin nåværende form, mangler imidlertid den nødvendige effekten for å være kvalifisert for triage, ettersom problemer som disse eksplisitt er oppført som utenfor programmets omfang.»
Google Desember 16, 2025 Jan. 27, 2026 Gemini aksepterte opprinnelig rapporten 17. desember 2025 og ga den en P2 (høy) prioritet. 27. januar 2026 deeskalerte de imidlertid rapporten og lukket den, med bemerkning om:

«Vi klarte ikke å identifisere et angrepsscenario der rapporten din resulterer i betydelig skade for brukeren. Gi oss beskjed hvis vi har oversett noe, og del et angrepsscenario med høy innvirkning. Dette er fordi scenarioet er altfor avhengig av sosial manipulering».

forvirring Desember 14, 2025 Desember 17, 2025 «Etter grundig undersøkelse har vi konkludert med at denne rapporten ikke representerer et sikkerhetsproblem i tradisjonell forstand. Scenariet du har beskrevet er en kjent begrensning ved store språkmodeller når de behandler eksternt nettinnhold, snarere enn en feil eller mangler i systemets sikkerhetskontroller.»

Angrepsscenarioet ditt er basert på sosial manipulering – å overbevise en bruker om å manuelt utføre terminalkommandoer som et AI-system foreslår etter å ha analysert en ondsinnet nettside. Dette ligner på en bruker som leser dårlige råd på et nettsted og velger å følge dem. Det er ingen kodekjøring på serverne våre, ingen uautorisert tilgang til brukerdata og ingen omgåelse av autentiserings- eller autorisasjonskontroller.

xAI Desember 16, 2025 Desember 17, 2025 «Takk for innsendingen din! Dessverre faller dette spesifikke problemet du rapporterte eksplisitt utenfor rammen som beskrevet i Retningslinjeside

  • Modellproblemer faller utenfor dette programmets virkeområde og bør rapporteres via [e-postbeskyttet]"

Anbefalinger

Ved å implementere følgende forbedringer kan LLM-er gjøre store fremskritt mot å redusere – eller til og med eliminere – gapet mellom hva brukeren ser og hva AI-assistenten ser:

Dobbeltmodus Rendering-og-Diff-analyse

Utfør to uavhengige analyser:

  • DOM-utvinning med kun tekst
  • Helsides gjengivelse med aktiverte fonter

Trekk ut den synlige teksten fra den gjengitte siden og avgjør om den er vesentlig forskjellig fra DOM-teksten.

Oppdag skjulte innholdsmønstre

Utvid parsere for å skanne etter:

  • Forgrunns-/bakgrunnsfargematchninger
  • Nesten null opasitet
  • Skriftstørrelser under 5 piksler
  • Posisjonering utenfor skjermen
  • Høy tetthet av skjult innhold

Behandle fonter som en potensiell trusseloverflate

  • Hent fontfilen
  • Inspiser Unicode/glyf-tilordningstabellene
  • Oppdag unormale glyfferstatningsmønstre

Risikovurdering basert på overflateavvik

Tildel en forhøyet risikoscore når:

  • Synlig gjengitt tekst ligner ikke DOM-tekst
  • DOM-tekst virker godartet, mens gjengitt tekst inneholder kjørbare instruksjoner.
  • CSS-manipulasjon brukes til å skjule store innholdsblokker

Tillitskalibrering

Hvis en assistent ikke kan:

  • Gjengi siden
  • Analyser de tilpassede skrifttypene
  • Sammenlign visuelt kontra DOM-innhold

Da bør den unngå sterke påstander som: «Siden er trygg.»

Konklusjon

Nettet er ikke bare HTML. Mening kan flyttes inn i gjengivelsesprosessen, og ethvert system som bare analyserer tekst er blindt av design.