Σας ενδιαφέρουν ΠΡΟΣΦΟΡΕΣ? Εξοικονομήστε χρήματα με τα κουπόνια μας WhatsApp o ΤΗΛΕΓΡΑΦΗΜΑ!

Το jailbreaking ChatGPT και Bard είναι δυνατό και εύκολο

Δεκέμβριος 29 2023

Η εξέλιξη των γλωσσικά μοντέλα μεγάλων διαστάσεων έχει ανοίξει νέους ορίζοντες στην επικοινωνία και την τεχνητή νοημοσύνη, αλλά φέρνει μαζί της σημαντικές προκλήσεις και ηθικά ερωτήματα. Μια πρόσφατη μελέτη από Nanyang Τεχνολογικό Πανεπιστήμιο της Σιγκαπούρης εξερευνά ένας νέος αλγόριθμος, Masterkey, που έχει σχεδιαστεί για να κάνει «jailbreak» ή να ξεπερνά τους περιορισμούς που επιβάλλονται σε άλλα νευρωνικά δίκτυα όπως π.χ ChatGPT e Google Βάρδος, εγείροντας σημαντικά ερωτήματα σχετικά με την ασφάλεια και την ηθική στη χρήση τεχνολογιών τεχνητής νοημοσύνης.

Η καινοτόμος και απλή προσέγγιση του Masterkey για την έρευνα της ασφάλειας των chatbots όπως το ChatGPT και το Bard

Σε πρόσφατη έρευνα που διεξήχθη από το Τεχνολογικό Πανεπιστήμιο Nanyang στη Σιγκαπούρη, εισάγεται μια καινοτόμος προσέγγιση για την αντιμετώπιση και την υπέρβαση αυτών των περιορισμών. Ο αλγόριθμός τους, γνωστός ως Masterkey, έχει σχεδιαστεί για να παράκαμψη περιορισμών που επιβάλλονται σε άλλα νευρωνικά δίκτυα μέσω εξελιγμένων τεχνικών jailbreaking (όρος που χρησιμοποιείται στο οικοσύστημα της Apple). Αυτό όχι μόνο υπογραμμίζει τις πιθανές ευπάθειες των υφιστάμενων μοντέλων γλώσσας, αλλά επίσης ανοίγει το δρόμο για νέες μεθόδους για τη βελτίωση της ασφάλειας και της αποτελεσματικότητάς τους.

Το Masterkey λειτουργεί μέσω συγκεκριμένα αιτήματα κειμένου, το οποίο μπορεί να ωθήσει μοντέλα όπως το ChatGPT να συμπεριφέρονται με απροσδόκητους τρόπους, όπως η επικοινωνία με τρόπους που θεωρούνται ανήθικοι ή η παράκαμψη των φίλτρων ασφαλείας. Αυτές οι τεχνικές jailbreaking, ενώ μπορεί να φαίνονται πλεονεκτικές για μοντέλα δοκιμών και σκλήρυνσης, αντιπροσωπεύουν επίσης ένα δίκοπο μαχαίρι, καθώς θα μπορούσαν να χρησιμοποιηθούν για κακόβουλους σκοπούς.

Η ερευνητική ομάδα ανέλυσε Ειδικά τα τρωτά σημεία ασφαλείας των γλωσσικών μοντέλων όταν αντιμετωπίζουν πολυγλωσσικά γνωστικά φορτία, καλυμμένες εκφράσεις και συλλογισμό αιτίου-αποτελέσματος. Αυτές οι επιθέσεις, ορίζεται ως "γνωστική υπερφόρτωση", είναι ιδιαίτερα ύπουλες καθώς δεν απαιτούν εις βάθος γνώση της αρχιτεκτονικής του μοντέλου ή πρόσβαση στα βάρη του για να διεξαχθούν, γεγονός που τις καθιστά αποτελεσματικές επιθέσεις μαύρου κουτιού.

Διαβάστε επίσης: Πώς να λάβετε καλύτερες απαντήσεις στο ChatGPT: Η αλάνθαστη μέθοδος συμβουλής

Αναλυτικά, η ερευνητική ομάδα υιοθέτησε μια στρατηγική του αντίστροφη μηχανική να κατανοήσουν πλήρως τις άμυνες των συστημάτων τεχνητής νοημοσύνης και να αναπτύξουν καινοτόμες μεθόδους για να τις ξεπεράσουν. Το αποτέλεσμα αυτής της προσέγγισης ήταν το «Masterkey», ένα μοντέλο, ένα είδος πλαισίου σχεδιασμένο για δημιουργούν αυτόματα προτροπές που παρακάμπτουν τους μηχανισμούς ασφαλείας.

Τα αποτελέσματα ήταν σημαντικά: οι προτροπές που δημιουργήθηκαν από το Masterkey έδειξαν ποσοστό μέση επιτυχία 21,58%, πολύ υψηλότερο από το 7,33% των προηγούμενων μεθόδων. Ένα παράδειγμα της τεχνικής τους περιλαμβάνει την προσθήκη επιπλέον κενά μεταξύ των χαρακτήρων για αποφυγή συστημάτων ανίχνευσης λέξεων-κλειδιών στο ChatGPT και στο Bard. Μια πραγματικά «ανόητη» στρατηγική αν σκεφτούμε την πολυπλοκότητα ενός μεγάλου γλωσσικού μοντέλου.

Μπροστά σε αυτά τα ευρήματα, είναι σημαντικό να εξετάσουμε όχι μόνο πώς μπορούν να βελτιωθούν τα γλωσσικά μοντέλα για να αντισταθούν σε τέτοιες επιθέσεις, αλλά και τη σημασία του ηθική ρύθμιση στη χρήση της τεχνητής νοημοσύνης. Η έρευνα υπογραμμίζει την επείγουσα ανάγκη για πιο ισχυρές αμυντικές στρατηγικές και τον συνεχή διάλογο μεταξύ των προγραμματιστών, των ερευνητών και των υπευθύνων χάραξης πολιτικής για να διασφαλιστεί ότι η τεχνολογική πρόοδος δεν ξεπερνά την ικανότητα της κοινωνίας να διαχειριστεί τις επιπτώσεις της.