Οι χάκερς χτυπούν την AI χρησιμοποιώντας… AI

Ήταν θέμα χρόνου να αρχίσουν οι χάκερ να αξιοποιούν την AI για να επιτεθούν στην… ίδια. Μια νέα ερευνητική ανακάλυψη έχει κάνει τις επιθέσεις άμεσης έγχυσης AI ταχύτερες, ευκολότερες και τρομακτικά αποτελεσματικές, ακόμη και εναντίον υποτιθέμενα ασφαλών συστημάτων όπως το Gemini της Google.

Οι επιθέσεις έγχυσης προτροπής (prompt injection) ήταν ένας από τους πιο αξιόπιστους τρόπους χειραγώγησης μεγάλων γλωσσικών μοντέλων (LLM). Με την κρυφή εισαγωγή κακόβουλων οδηγιών στο κείμενο που διαβάζει η AI (όπως ένα σχόλιο σε ένα μπλοκ κώδικα ή ένα κρυφό κείμενο σε μια ιστοσελίδα) οι επιτιθέμενοι μπορούν να κάνουν το μοντέλο να αγνοήσει τους αρχικούς του κανόνες.

Αυτό θα μπορούσε να σημαίνει διαρροή προσωπικών δεδομένων, παροχή λανθασμένων απαντήσεων ή άλλες ανεπιθύμητες συμπεριφορές. Η παγίδα, όμως, είναι ότι οι επιθέσεις prompt injection απαιτούν συνήθως πολλή χειροκίνητη δοκιμή και σφάλμα για να γίνουν σωστές, ειδικά για μοντέλα κλειστού τύπου όπως το GPT-4 ή το Gemini, όπου οι προγραμματιστές δεν μπορούν να δουν τον υποκείμενο κώδικα ή τα δεδομένα εκπαίδευσης.

Αλλά μια νέα τεχνική που ονομάζεται Fun-Tuning το αλλάζει αυτό. Η μέθοδος αυτή, που αναπτύχθηκε από μια ομάδα πανεπιστημιακών ερευνητών, χρησιμοποιεί το ίδιο το API λεπτομερούς ρύθμισης (fine tuning) της Google για το Gemini για να δημιουργήσει αυτόματα prompt injections υψηλού ποσοστού επιτυχίας.

Κάνοντας κατάχρηση της εκπαιδευτικής διεπαφής του Gemini, το Fun-Tuning υπολογίζει τα καλύτερα «προθέματα» και «επιθήματα» που μπορούν να περιτυλιχθούν γύρω από την κακόβουλη προτροπή ενός επιτιθέμενου, αυξάνοντας δραματικά τις πιθανότητες να ακολουθηθεί. Και τα αποτελέσματα μιλούν από μόνα τους.

Σε δοκιμές, το Fun-Tuning πέτυχε ποσοστά επιτυχίας έως και 82% σε ορισμένα μοντέλα Gemini, σε σύγκριση με ποσοστό κάτω του 30% με τις παραδοσιακές επιθέσεις. Λειτουργεί αξιοποιώντας διακριτικές ενδείξεις στη διαδικασία τελειοποίησης -όπως ο τρόπος με τον οποίο το μοντέλο αντιδρά στα σφάλματα εκπαίδευσης- και μετατρέποντάς τες σε ανατροφοδότηση που οξύνει την επίθεση.

Ακόμη πιο ανησυχητικό είναι ότι οι επιθέσεις που αναπτύχθηκαν για μια έκδοση του Gemini μεταφέρθηκαν εύκολα σε άλλες. Αυτό σημαίνει ότι ένας επιτιθέμενος θα μπορούσε δυνητικά να αναπτύξει μια επιτυχημένη προτροπή και να την εφαρμόσει σε πολλές πλατφόρμες. Και δεδομένου ότι η Google προσφέρει αυτό το API δωρεάν, το κόστος για την πραγματοποίηση μιας τέτοιας επίθεσης είναι μόλις 10 δολάρια σε υπολογιστικό χρόνο.

Η Google έχει αναγνωρίσει την απειλή, αλλά δεν έχει σχολιάσει αν σκοπεύει να αλλάξει τα χαρακτηριστικά λεπτής ρύθμισης. Οι ερευνητές πίσω από το Fun-Tuning προειδοποιούν ότι η άμυνα απέναντι σε αυτού του είδους την επίθεση δεν είναι απλή - η αφαίρεση βασικών δεδομένων από τη διαδικασία εκπαίδευσης θα έκανε το εργαλείο λιγότερο χρήσιμο για τους προγραμματιστές. Αλλά η παραμονή τους καθιστά ευκολότερη την εκμετάλλευση από τους επιτιθέμενους.

Ωστόσο, ένα πράγμα είναι βέβαιο. Οι επιθέσεις AI prompt injection όπως αυτή είναι ένα σημάδι ότι το παιχνίδι έχει εισέλθει σε μια νέα φάση - όπου η AI δεν είναι μόνο ο στόχος, αλλά και το όπλο.

[via]