«Μολυσμένες αναμνήσεις από το ChatGPT»: Το LayerX ανακαλύπτει την πρώτη ευπάθεια στο πρόγραμμα περιήγησης OpenAI Atlas, επιτρέποντας την εισαγωγή κακόβουλων οδηγιών στο ChatGPT

 

Η LayerX ανακάλυψε την πρώτη ευπάθεια που επηρέαζε το νέο πρόγραμμα περιήγησης ChatGPT Atlas της OpenAI, επιτρέποντας σε κακόβουλους παράγοντες να εισάγουν κακόβουλες οδηγίες στη «μνήμη» του ChatGPT και να εκτελούν απομακρυσμένο κώδικα. Αυτό το exploit μπορεί να επιτρέψει στους εισβολείς να μολύνουν συστήματα με κακόβουλο κώδικα, να παραχωρήσουν στον εαυτό τους δικαιώματα πρόσβασης ή να αναπτύξουν κακόβουλο λογισμικό.

Το θέμα ευπάθειας επηρεάζει τους χρήστες του ChatGPT σε οποιοδήποτε πρόγραμμα περιήγησης, αλλά είναι ιδιαίτερα επικίνδυνο για τους χρήστες του νέου προγράμματος περιήγησης της OpenAI: ChatGPT Atlas. Η LayerX διαπίστωσε ότι το Atlas δεν περιλαμβάνει επί του παρόντος καμία ουσιαστική προστασία κατά του ηλεκτρονικού "ψαρέματος" (phishing), πράγμα που σημαίνει ότι οι χρήστες αυτού του προγράμματος περιήγησης είναι έως και 90% πιο ευάλωτοι σε επιθέσεις ηλεκτρονικού "ψαρέματος" (phishing) από τους χρήστες παραδοσιακών προγραμμάτων περιήγησης όπως το Chrome ή το Edge.

Η εκμετάλλευση έχει αναφερθεί στην OpenAI σύμφωνα με τις διαδικασίες υπεύθυνης αποκάλυψης και παρακάτω παρέχεται μια περίληψη, ενώ παράλληλα αποκρύπτονται τεχνικές πληροφορίες που θα επιτρέψουν στους εισβολείς να αναπαράγουν αυτήν την επίθεση.

TL/DR: Πώς λειτουργεί η εκμετάλλευση:

Η LayerX ανακάλυψε πώς οι εισβολείς μπορούν να χρησιμοποιήσουν ένα αίτημα Cross-Site Request Forgery (CSRF) για να «αντιμετώπίσουν» τα διαπιστευτήρια πρόσβασης ChatGPT του θύματος, προκειμένου να εισάγουν κακόβουλες οδηγίες στη μνήμη του ChatGPT. Στη συνέχεια, όταν ο χρήστης επιχειρήσει να χρησιμοποιήσει το ChatGPT για νόμιμους σκοπούς, οι μολυσμένες μνήμες θα κληθούν και θα μπορούν να εκτελέσουν απομακρυσμένο κώδικα που θα επιτρέψει στον εισβολέα να αποκτήσει τον έλεγχο του λογαριασμού χρήστη, του προγράμματος περιήγησής του, του κώδικα που γράφει ή των συστημάτων στα οποία έχει πρόσβαση.

Ενώ αυτό το θέμα ευπάθειας επηρεάζει τους χρήστες του ChatGPT σε οποιοδήποτε πρόγραμμα περιήγησης, είναι ιδιαίτερα επικίνδυνο για τους χρήστες του προγράμματος περιήγησης ChatGPT Atlas, καθώς είναι, από προεπιλογή, συνδεδεμένοι στο ChatGPT και επειδή οι δοκιμές LayerX δείχνουν ότι το πρόγραμμα περιήγησης Atlas είναι έως και 90% πιο εκτεθειμένο σε επιθέσεις ηλεκτρονικού "ψαρέματος" (phishing) από το Chrome και το Edge.

Μια βήμα προς βήμα εξήγηση:

  1. Αρχικά, ο χρήστης είναι συνδεδεμένος στο ChatGPT και διατηρεί ένα cookie ή διακριτικό ελέγχου ταυτότητας στο πρόγραμμα περιήγησής του.
  2. Ο χρήστης κάνει κλικ σε έναν κακόβουλο σύνδεσμο, ο οποίος τον οδηγεί σε μια παραβιασμένη ιστοσελίδα.
  3. Η κακόβουλη σελίδα καλεί ένα αίτημα Cross-Site Request Forgery (CSRF) για να εκμεταλλευτεί τον προϋπάρχοντα έλεγχο ταυτότητας του χρήστη στο ChatGPT.
  4. Το exploit CSRF εισάγει κρυφές οδηγίες στη μνήμη του ChatGPT, χωρίς τη γνώση του χρήστη, «μολύνοντας» έτσι τη μνήμη του πυρήνα του LLM.
  5. Την επόμενη φορά που ο χρήστης θα υποβάλει ερώτημα στο ChatGPT, θα κληθούν οι μολυσμένες μνήμες, επιτρέποντας την ανάπτυξη κακόβουλου κώδικα που μπορεί να δώσει στους εισβολείς τον έλεγχο συστημάτων ή κώδικα.

Χρήση Cross-Site Request Forgery (CSRF) για πρόσβαση σε LLM:

Μια επίθεση πλαστογράφησης αιτημάτων μεταξύ ιστότοπων (CSRF) συμβαίνει όταν ένας εισβολέας ξεγελάει το πρόγραμμα περιήγησης ενός χρήστη ώστε να στείλει ένα ακούσιο αίτημα αλλαγής κατάστασης σε έναν ιστότοπο όπου ο χρήστης έχει ήδη πιστοποιηθεί, με αποτέλεσμα ο ιστότοπος να εκτελεί ενέργειες ως χρήστης χωρίς τη συγκατάθεσή του. 

Η επίθεση λαμβάνει χώρα όταν ένα θύμα είναι συνδεδεμένο σε έναν ιστότοπο-στόχο, ο οποίος έχει αποθηκευμένα cookies περιόδου σύνδεσης στο πρόγραμμα περιήγησης. Το θύμα επισκέπτεται ή ανακατευθύνεται σε μια κακόβουλη σελίδα που εκδίδει ένα κατασκευασμένο αίτημα (μέσω φόρμας, ετικέτας εικόνας, συνδέσμου ή σεναρίου) στον ιστότοπο-στόχο. Το πρόγραμμα περιήγησης περιλαμβάνει αυτόματα τα διαπιστευτήρια του θύματος (cookies, κεφαλίδες εξουσιοδότησης), επομένως ο ιστότοπος-στόχος επεξεργάζεται το αίτημα σαν να το ξεκίνησε ο χρήστης.

Στις περισσότερες περιπτώσεις, οι επιπτώσεις μιας επίθεσης CSRF στοχεύουν σε δραστηριότητες όπως η αλλαγή email/κωδικού πρόσβασης λογαριασμού, η έναρξη μεταφορών χρημάτων ή η πραγματοποίηση αγορών κατά την περίοδο λειτουργίας του χρήστη.

Ωστόσο, όταν πρόκειται για συστήματα Τεχνητής Νοημοσύνης, χρησιμοποιώντας μια επίθεση CSRF, οι εισβολείς μπορούν να αποκτήσουν πρόσβαση σε συστήματα Τεχνητής Νοημοσύνης στα οποία είναι συνδεδεμένος ο χρήστης, να τα ερωτήσουν ή να εισάγουν οδηγίες σε αυτά.

Μόλυνση της βασικής «μνήμης» του ChatGPT

Η «Μνήμη» του ChatGPT επιτρέπει στο ChatGPT να θυμάται χρήσιμες λεπτομέρειες σχετικά με τα ερωτήματα, τη συνομιλία και τις δραστηριότητες των χρηστών, όπως προτιμήσεις, περιορισμούς, έργα, σημειώσεις στυλ κ.λπ., και να τις επαναχρησιμοποιεί σε μελλοντικές συνομιλίες, ώστε οι χρήστες να μην χρειάζεται να επαναλαμβάνουν τον εαυτό τους. Στην πραγματικότητα, λειτουργούν σαν τη μνήμη υποβάθρου ή το υποσυνείδητο του LLM.

Μόλις οι εισβολείς αποκτήσουν πρόσβαση στο ChatGPT του χρήστη μέσω του αιτήματος CSRF, μπορούν να το χρησιμοποιήσουν για να εισάγουν κρυφές οδηγίες στο ChatGPT, οι οποίες θα επηρεάσουν μελλοντικές συνομιλίες. 

Όπως το υποσυνείδητο ενός ατόμου, μόλις οι σωστές οδηγίες αποθηκευτούν στη μνήμη του ChatGP, το ChatGPT θα αναγκαστεί να εκτελέσει αυτές τις οδηγίες, ουσιαστικά μετατρέποντας το σε κακόβουλο συνεργό.

Επιπλέον, μόλις μολυνθεί η μνήμη ενός λογαριασμού, αυτή η μόλυνση είναι επίμονη σε όλες τις συσκευές στις οποίες χρησιμοποιείται ο λογαριασμός - σε οικιακούς και επαγγελματικούς υπολογιστές, και σε διαφορετικά προγράμματα περιήγησης - είτε ένας χρήστης τα χρησιμοποιεί στο Chrome, στο Atlas είτε σε οποιοδήποτε άλλο πρόγραμμα περιήγησης. Αυτό καθιστά την επίθεση εξαιρετικά «κολλώδη» και είναι ιδιαίτερα επικίνδυνη για χρήστες που χρησιμοποιούν τον ίδιο λογαριασμό τόσο για επαγγελματικούς όσο και για προσωπικούς σκοπούς.

Οι χρήστες του ChatGPT Atlas είναι έως και 90% πιο εκτεθειμένοι από άλλα προγράμματα περιήγησης

Ενώ αυτό το θέμα ευπάθειας μπορεί να χρησιμοποιηθεί εναντίον χρηστών του ChatGPT σε οποιοδήποτε πρόγραμμα περιήγησης, οι χρήστες του προγράμματος περιήγησης ChatGPT του OpenAI είναι ιδιαίτερα ευάλωτοι. Αυτό συμβαίνει για δύο λόγους:

  1. Όταν χρησιμοποιείτε το Atlas, είστε, από προεπιλογή, συνδεδεμένοι στο ChatGPT. Αυτό σημαίνει ότι τα διαπιστευτήρια του ChatGPT αποθηκεύονται πάντα στο πρόγραμμα περιήγησης, όπου μπορούν να στοχευθούν από κακόβουλα αιτήματα CSRF.
  2. Το ChatGPT Atlas είναι ιδιαίτερα κακό στην αποτροπή επιθέσεων ηλεκτρονικού "ψαρέματος" (phishing). Αυτό σημαίνει ότι οι χρήστες του Atlas είναι πιο εκτεθειμένοι από τους χρήστες άλλων προγραμμάτων περιήγησης.

Η LayerX δοκίμασε το Atlas έναντι πάνω από 100 ευπαθειών ιστού και επιθέσεων ηλεκτρονικού "ψαρέματος" (phishing). Η LayerX διεξήγαγε προηγουμένως την ίδια δοκιμή σε άλλα προγράμματα περιήγησης τεχνητής νοημοσύνης. όπως οι Comet, Dia και Genspark. Τα αποτελέσματα ήταν, για να μην πω περισσότερα, καθόλου ενθαρρυντικά:

Στις προηγούμενες δοκιμές, ενώ τα παραδοσιακά προγράμματα περιήγησης όπως το Edge και το Chrome κατάφεραν να σταματήσουν περίπου το 50% των επιθέσεων ηλεκτρονικού "ψαρέματος" (phishing) χρησιμοποιώντας τις έτοιμες προστασίες τους, τα Comet και Genspark σταμάτησαν μόνο το 7% (η Dia παρήγαγε αποτελέσματα παρόμοια με αυτά του Chrome).

Η εκτέλεση της ίδιας δοκιμής στο Atlas έδειξε ακόμη πιο έντονα αποτελέσματα: 

Από τις 103 επιθέσεις in-the-wild που δοκίμασε το LayerX, το ChatGPT Atlas επέτρεψε την ολοκλήρωση των 97, με ένα εντυπωσιακό ποσοστό αποτυχίας 94.2%. 

Σε σύγκριση με το Edge (το οποίο σταμάτησε το 53% των επιθέσεων στη δοκιμή του LayerX) και το Chrome (το οποίο σταμάτησε το 47% των επιθέσεων), Το ChatGPT Atlas κατάφερε να σταματήσει με επιτυχία μόνο το 5.8% των κακόβουλων ιστοσελίδων, πράγμα που σημαίνει ότι οι χρήστες του Atlas ήταν σχεδόν 90% πιο ευάλωτοι σε επιθέσεις ηλεκτρονικού "ψαρέματος" (phishing), σε σύγκριση με τους χρήστες άλλων προγραμμάτων περιήγησης.

Το συμπέρασμα είναι ότι όχι μόνο οι χρήστες του ChatGPT Atlas είναι ευάλωτοι σε κακόβουλους φορείς επίθεσης που μπορούν να οδηγήσουν στην εισαγωγή κακόβουλων οδηγιών στους λογαριασμούς τους στο ChatGPT, αλλά Δεδομένου ότι το Atlas δεν περιλαμβάνει καμία ουσιαστική προστασία κατά του ηλεκτρονικού "ψαρέματος" (phishing), οι χρήστες του διατρέχουν μεγαλύτερο κίνδυνο έκθεσης.

Απόδειξη της ιδέας: Εισαγωγή κακόβουλου κώδικα στον κώδικα του 'Vibe' 

Παρακάτω είναι μια απεικόνιση ενός φορέα επίθεσης που εκμεταλλεύεται αυτό το κενό ασφαλείας, σε έναν χρήστη του προγράμματος περιήγησης Atlas που κάνει κώδικα Vibe:

Ο «κωδικός Vibe» είναι ένα συνεργατικό στυλ όπου ο προγραμματιστής αντιμετωπίζει την Τεχνητή Νοημοσύνη ως δημιουργικό συνεργάτη και όχι ως εκτελεστή γραμμή προς γραμμή. Αντί να ορίζει ακριβή σύνταξη, ο προγραμματιστής μοιράζεται την πρόθεση και την αίσθηση του έργου (π.χ., αρχιτεκτονικούς στόχους, τόνο, κοινό, αισθητικές προτιμήσεις κ.λπ.) και άλλες μη λειτουργικές απαιτήσεις.

Το ChatGPT χρησιμοποιεί στη συνέχεια αυτήν την ολιστική οδηγία για να παράγει κώδικα που λειτουργεί. ταιριάζει με το ζητούμενο στυλ, μειώνοντας το χάσμα μεταξύ ιδεών υψηλού επιπέδου και υλοποίησης χαμηλού επιπέδου. Ο ρόλος του προγραμματιστή μετατοπίζεται από τον χειροκίνητο προγραμματισμό στην καθοδήγηση και τη βελτίωση της ερμηνείας της τεχνητής νοημοσύνης.

Ωστόσο, αυτή ακριβώς η ευελιξία μπορεί επίσης να γίνει αντικείμενο κατάχρησης. Ένας εισβολέας θα μπορούσε να ωθήσει έναν βοηθό τεχνητής νοημοσύνης να δημιουργήσει κώδικα που μοιάζει με μια ακίνδυνη λειτουργία ή μια γρήγορη λύση, αλλά προσθέτει κρυφά backdoors, μυστική εξαγωγή δεδομένων ή άλλες παραβιάσεις.

Για παράδειγμα, σε αυτήν την περίπτωση, τίποτα δεν φαίνεται ασυνήθιστο από την οπτική γωνία του χρήστη, αλλά όταν ζητήσει από το ChatGPT να γράψει κώδικα, ο βοηθός μπορεί να ακολουθήσει το αίτημα. να εισάγουν οδηγίες καθοδηγούμενες από εισβολέα. Το δημιουργημένο σενάριο θα μπορούσε, για παράδειγμα, να ανακτήσει απομακρυσμένο κώδικα (π.χ. από έναν εχθρικό διακομιστή) και να επιχειρήσει να τον εκτελέσει με αυξημένα δικαιώματα.

Για να το δείξουμε, σε αυτήν την περίπτωση, με βάση τις κακόβουλες οδηγίες, η συνομιλία πρόσθεσε απομακρυσμένο κώδικα σε αυτό το σενάριο, τον οποίο ο χρήστης θα κατεβάσει άθελά του στον υπολογιστή του από το server.rapture:

Ενώ το ChatGPT προσφέρει κάποιες άμυνες ενάντια σε κακόβουλες οδηγίες, η αποτελεσματικότητα μπορεί να ποικίλλει ανάλογα με την πολυπλοκότητα της επίθεσης και τον τρόπο με τον οποίο η ανεπιθύμητη συμπεριφορά εισήλθε στη μνήμη. 

Σε ορισμένες περιπτώσεις, ο χρήστης μπορεί να δει μια ήπια προειδοποίηση. Σε άλλες, η προσπάθεια μπορεί να αποκλειστεί. Ωστόσο, εάν καλυφθεί έξυπνα, ο κώδικας θα μπορούσε να διαφύγει εντελώς της ανίχνευσης. Για παράδειγμα, αυτή είναι η διακριτική προειδοποίηση που έλαβε αυτό το σενάριο. Στην καλύτερη περίπτωση, είναι μια σημείωση που είναι εύκολο να παραβλεφθεί μέσα στο κείμενο: