“ChatGPT Tainted Memories:” LayerX Discovers The First Vulnerability in OpenAI Atlas Browser, Allowing Injection of Malicious Instructions into ChatGPT

Natuklasan ng LayerX ang unang kahinaan na nakakaapekto sa bagong ChatGPT Atlas browser ng OpenAI, na nagpapahintulot sa mga masasamang aktor na mag-iniksyon ng mga malisyosong tagubilin sa "memorya" ng ChatGPT at magsagawa ng malayuang code. Ang pagsasamantalang ito ay maaaring magbigay-daan sa mga umaatake na mahawahan ang mga system gamit ang malisyosong code, bigyan ang kanilang sarili ng mga pribilehiyo sa pag-access, o mag-deploy ng malware.
Ang kahinaan ay nakakaapekto sa mga gumagamit ng ChatGPT sa anumang browser, ngunit ito ay partikular na mapanganib para sa mga gumagamit ng bagong ahenteng browser ng OpenAI: ChatGPT Atlas. Nalaman ng LayerX na kasalukuyang walang kasamang anumang makabuluhang proteksyon laban sa phishing ang Atlas, ibig sabihin, ang mga user ng browser na ito ay hanggang 90% na mas mahina sa mga pag-atake ng phishing kaysa sa mga user ng mga tradisyunal na browser tulad ng Chrome o Edge.
Ang pagsasamantala ay naiulat sa OpenAI sa ilalim ng mga pamamaraan ng Responsible Disclosure, at isang buod ang ibinigay sa ibaba, habang pinipigilan ang teknikal na impormasyon na magbibigay-daan sa mga umaatake na gayahin ang pag-atakeng ito.
TL/DR: Paano Gumagana ang Exploit:
Natuklasan ng LayerX kung paano magagamit ng mga umaatake ang isang kahilingan sa Cross-Site Request Forgery (CSRF) na "piggyback" sa mga kredensyal sa pag-access sa ChatGPT ng biktima, upang makapag-inject ng mga malisyosong tagubilin sa memorya ng ChatGPT. Pagkatapos, kapag sinubukan ng user na gamitin ang ChatGPT para sa mga lehitimong layunin, ang mga maruming alaala ay hihingin, at maaaring magsagawa ng malayuang code na magbibigay-daan sa umaatake na magkaroon ng kontrol sa user account, kanilang browser, code na kanilang isinusulat, o mga system na mayroon silang access.
Bagama't ang kahinaang ito ay nakakaapekto sa mga user ng ChatGPT sa anumang browser, partikular na mapanganib ito para sa mga user ng ChatGPT Atlas browser, dahil sila ay, bilang default, ay naka-log in sa ChatGPT, at dahil ang pagsubok ng LayerX ay nagpapahiwatig na ang browser ng Atlas ay hanggang sa 90% na mas nalantad kaysa sa Chrome at Edge sa mga pag-atake sa phishing.
Isang Hakbang-hakbang na Paliwanag:
- Sa una, ang user ay naka-log-in sa ChatGPT, at may hawak na cookie sa pagpapatunay o token sa kanilang browser.
- Nag-click ang user sa isang nakakahamak na link, na humahantong sa kanila sa isang nakompromisong web page.
- Ang nakakahamak na pahina ay humihiling ng kahilingan sa Cross-Site Request Forgery (CSRF) upang samantalahin ang dati nang umiiral na pagpapatotoo ng user sa ChatGPT
- Ang pagsasamantala ng CSRF ay naglalagay ng mga nakatagong tagubilin sa memorya ng ChatGPT, nang hindi nalalaman ng gumagamit, at sa gayon ay "nababahiran" ang pangunahing memorya ng LLM.
- Sa susunod na mag-query ang user sa ChatGPT, ang mga maruming alaala ay invoke, na nagpapahintulot sa pag-deploy ng malisyosong code na maaaring magbigay sa mga attacker ng kontrol sa mga system o code.
Paggamit ng Cross-Site Request Forgery (CSRF) Upang I-access ang mga LLM:
Ang pag-atake ng cross-site request forgery (CSRF) ay kapag nilinlang ng isang attacker ang browser ng user na magpadala ng hindi sinasadya, pagbabago ng estado na kahilingan sa isang website kung saan napatotohanan na ang user, na nagiging sanhi ng site na magsagawa ng mga aksyon bilang user na iyon nang walang pahintulot nila.
Ang pag-atake ay nangyayari kapag ang isang biktima ay naka-log in sa isang target na site, na may session cookies na naka-imbak sa browser. Ang biktima ay bumisita o na-redirect sa isang nakakahamak na pahina na nagbibigay ng isang ginawang kahilingan (sa pamamagitan ng isang form, tag ng larawan, link, o script) sa target na site. Awtomatikong kasama sa browser ang mga kredensyal ng biktima (cookies, auth header), kaya pinoproseso ng target na site ang kahilingan na parang pinasimulan ito ng user.
Sa karamihan ng mga kaso, ang epekto ng pag-atake ng CSRF ay naglalayong sa aktibidad gaya ng pagpapalit ng email/password ng account, pagsisimula ng mga funds transfer, o pagbili sa ilalim ng session ng user ay maaaring mangyari.
Gayunpaman, pagdating sa mga AI system, gamit ang isang CSRF attack, ang mga attacker ay maaaring makakuha ng access sa AI system kung saan naka-log in ang user, itatanong ito, o ipasok ang mga tagubilin dito.
Nakakahawa sa Core “Memory” ng ChatGPT
Binibigyang-daan ng “Memory” ng ChatGPT ang ChatGPT na matandaan ang mga kapaki-pakinabang na detalye tungkol sa mga query, chat at aktibidad ng mga user, gaya ng mga kagustuhan, mga hadlang, proyekto, mga tala ng istilo, atbp., at muling gamitin ang mga ito sa mga chat sa hinaharap nang sa gayon ay hindi na kailangang ulitin ng mga user ang kanilang mga sarili. Sa epekto, kumikilos sila tulad ng background memory o subconscious ng LLM.
Sa sandaling magkaroon ng access ang mga umaatake sa ChatGPT ng user sa pamamagitan ng kahilingan sa CSRF, magagamit nila ito upang mag-inject ng mga nakatagong tagubilin sa ChatGPT, na makakaapekto sa mga chat sa hinaharap.
Tulad ng subconscious ng isang tao, kapag ang mga tamang tagubilin ay naimbak sa loob ng ChatGP's Memory, mapipilitan ang ChatGPT na isagawa ang mga tagubiling ito, na epektibong nagiging malisyosong co-conspiritor.
Bukod pa rito, kapag na-infect na ang Memory ng isang account, ang impeksyong ito ay mananatili sa lahat ng device na ginagamitan ng account - sa mga computer sa bahay at trabaho, at sa iba't ibang browser - ginagamit man ito ng isang user sa Chrome, Atlas, o anumang iba pang browser. Ginagawa nitong lubhang "sticky" ang pag-atake, at lalong mapanganib para sa mga user na gumagamit ng parehong account para sa trabaho at personal na layunin.
Mga Gumagamit ng ChatGPT Atlas Hanggang 90% Mas Nalantad kaysa Iba Pang Mga Browser
Bagama't magagamit ang kahinaang ito laban sa mga user ng ChatGPT sa anumang browser, ang mga user ng ChatGPT browser ng OpenAI ay partikular na mahina. Ito ay para sa dalawang kadahilanan:
- Kapag gumagamit ka ng Atlas, ikaw ay, bilang default, ay naka-log-in sa ChatGPT. Nangangahulugan ito na ang mga kredensyal ng ChatGPT ay palaging nakaimbak sa browser, kung saan maaari silang ma-target ng mga nakakahamak na kahilingan sa CSRF.
- Ang ChatGPT Atlas ay partikular na masama sa paghinto ng mga pag-atake sa phishing. Nangangahulugan ito na ang mga gumagamit ng Atlas ay mas nakalantad kaysa sa mga gumagamit ng iba pang mga browser.
Sinubukan ng LayerX ang Atlas laban sa higit sa 100 in-the-wild na mga kahinaan sa web at pag-atake sa phishing. Dati nang nagsagawa ng parehong pagsubok ang LayerX laban sa iba pang mga AI browser tulad ng Comet, Dia, at Genspark. Ang mga resulta ay hindi kapani-paniwala, upang sabihin ang hindi bababa sa:
Sa mga nakaraang pagsubok, samantalang ang mga tradisyunal na browser gaya ng Edge at Chrome ay nagawang ihinto ang humigit-kumulang 50% ng mga pag-atake sa phishing gamit ang kanilang mga out-of-the-box na proteksyon, ang Comet at Genspark ay huminto lamang ng 7% (ang Dia ay nakabuo ng mga resulta na katulad ng sa Chrome).
Ang pagpapatakbo ng parehong pagsubok laban sa Atlas ay nagpakita ng higit pang malinaw na mga resulta:
Sa 103 in-the-wild na pag-atake na sinubukan ng LayerX, pinayagan ng ChatGPT Atlas ang 97 na dumaan, isang napakalaking 94.2% na rate ng pagkabigo.
Kung ikukumpara sa Edge (na huminto sa 53% ng mga pag-atake sa pagsubok ng LayerX) at Chrome (na huminto sa 47% ng mga pag-atake), Matagumpay na naihinto ng ChatGPT Atlas ang 5.8% lamang ng mga nakakahamak na web page, ibig sabihin, ang mga user ng Atlas ay halos 90% na mas mahina sa mga pag-atake ng phishing, kumpara sa mga user ng iba pang mga browser.
Ang implikasyon ay hindi lamang ang mga user ng ChatGPT Atlas ang madaling kapitan sa mga nakakahamak na vector ng pag-atake na maaaring humantong sa pag-iniksyon ng mga malisyosong tagubilin sa kanilang mga ChatGPT account, ngunit dahil ang Atlas ay walang kasamang anumang makabuluhang proteksyon laban sa phishing, ang mga gumagamit ng Atlas ay nasa mas malaking panganib na malantad.
Patunay ng Konsepto: Pag-iniksyon ng Malicious Code Sa 'Vibe' Coding
Nasa ibaba ang isang paglalarawan ng isang attack vector na nagsasamantala sa kahinaang ito, sa isang user ng browser ng Atlas na vibe coding:
Ang "Vibe coding" ay isang collaborative na istilo kung saan itinuturing ng developer ang AI bilang isang creative partner sa halip na isang line-by-line executor. Sa halip na magreseta ng eksaktong syntax, ibinabahagi ng developer ang layunin at pakiramdam ng proyekto (hal., mga layunin sa arkitektura, tono, madla, mga kagustuhan sa aesthetic, atbp.) at iba pang hindi gumaganang mga kinakailangan.
Pagkatapos ay ginagamit ng ChatGPT ang holistic brief na ito upang makagawa ng code na gumagana at tumutugma sa hiniling na istilo, na nagpapaliit ng agwat sa pagitan ng mataas na antas ng mga ideya at mababang antas ng pagpapatupad. Ang tungkulin ng developer ay nagbabago mula sa hand-coding patungo sa pagpipiloto at pagpino sa interpretasyon ng AI.
Gayunpaman, ang eksaktong flexibility na ito ay maaari ding abusuhin. Maaaring itulak ng isang attacker ang isang AI assistant sa pagbuo ng code na mukhang hindi nakakapinsalang feature o mabilis na pag-aayos ngunit tahimik na nagdaragdag ng mga backdoor, tago na data exfiltration, o iba pang pakikialam.
Halimbawa, sa kasong ito, walang lalabas na kakaiba sa pananaw ng user, ngunit kapag hiniling nila sa ChatGPT na magsulat ng code, maaaring sundin ng assistant ang kahilingan at ipasok ang mga tagubiling ginagabayan ng attacker. Ang nabuong script ay maaaring, halimbawa, kumuha ng malayuang code (hal., mula sa isang pagalit na server) at subukang patakbuhin ito nang may mataas na mga pribilehiyo.
Upang ilarawan, sa kasong ito, batay sa mga nakakahamak na tagubilin ang chat ay nagdagdag ng remote code sa script na ito na hindi sinasadyang ida-download ng user sa kanyang computer mula sa server.rapture:
Bagama't nag-aalok ang ChatGPT ng ilang depensa laban sa mga malisyosong tagubilin, maaaring mag-iba ang bisa sa pagiging sopistikado ng pag-atake at kung paano pumasok sa Memorya ang hindi gustong gawi.
Sa ilang mga kaso, ang gumagamit ay maaaring makakita ng banayad na babala; sa iba, maaaring ma-block ang pagtatangka. Gayunpaman, kung matalinong nakamaskara, ang code ay maaaring makaiwas sa pagtuklas nang buo. Halimbawa, ito ang banayad na babala na natanggap ng script na ito. Sa karamihan, isa itong sidenote na madaling makaligtaan sa loob ng blob ng text:





