Τα chatbot πέφτουν στην «παγίδα»: Πώς μερικές ερωτήσεις «σβήνουν» τα μέτρα ασφαλείας της AI
Έκθεση - σοκ αποκάλυψε τον τρόπο να προσπεράσει κανείς τα μέτρα ασφαλείας των εργαλείων τεχνητής νοημοσύνης.
Αρκούν μερικές απλές εντολές για να «σβήσουν» τα περισσότερα μέτρα ασφαλείας στα εργαλεία τεχνητής νοημοσύνης. Μια νέα έκθεση έδειξε ότι τα συστήματα τεχνητής νοημοσύνης «ξεχνούν» τα μέτρα ασφαλείας τους όσο περισσότερο τους μιλάει ο χρήστης, με αποτέλεσμα να είναι πιο πιθανό να παρέχουν επιβλαβείς ή ακατάλληλες πληροφορίες.
Η εταιρεία τεχνολογίας Cisco αξιολόγησε τα μεγάλα γλωσσικά μοντέλα (LLM) που βρίσκονται πίσω από τα δημοφιλή chatbot AI των OpenAI, Mistral, Meta, Google, Alibaba, Deepseek και Microsoft, για να δει πόσες ερωτήσεις χρειάστηκαν για να αποκαλύψουν τα μοντέλα μη ασφαλείς ή εγκληματικές πληροφορίες.
Πώς «προσπέρασαν» τα μέτρα ασφαλείας
Αυτό έγινε σε 499 συνομιλίες μέσω μιας τεχνικής που ονομάζεται «multi-turn attacks», όπου κακόβουλοι χρήστες υποβάλλουν πολλαπλές ερωτήσεις στα εργαλεία AI για να παρακάμψουν τα μέτρα ασφαλείας. Κάθε συνομιλία περιελάμβανε από πέντε έως δέκα αλληλεπιδράσεις. Οι ερευνητές συνέκριναν τα αποτελέσματα από διάφορες ερωτήσεις για να προσδιορίσουν πόσο πιθανό ήταν ένα chatbot να συμμορφωθεί με αιτήματα για επιβλαβείς ή ακατάλληλες πληροφορίες. Αυτό θα μπορούσε να περιλαμβάνει οτιδήποτε, από την κοινοποίηση ιδιωτικών δεδομένων εταιρειών έως τη διευκόλυνση της διάδοσης παραπληροφόρησης.
Κατά μέσο όρο, οι ερευνητές κατάφεραν να λάβουν κακόβουλες πληροφορίες από το 64% των συνομιλιών τους όταν έθεσαν πολλαπλές ερωτήσεις στα chatbots τεχνητής νοημοσύνης, σε σύγκριση με μόλις 13% που έθεσαν μόνο μία ερώτηση. Τα ποσοστά επιτυχίας κυμαίνονταν από περίπου 26% με το Gemma της Google έως 93% με το μοντέλο Large Instruct της Mistral.
Τα ευρήματα δείχνουν ότι οι «multi-turn attacks» θα μπορούσαν να επιτρέψουν την ευρεία διάδοση επιβλαβούς περιεχομένου ή να επιτρέψουν στους χάκερ να αποκτήσουν «μη εξουσιοδοτημένη πρόσβαση» σε ευαίσθητες πληροφορίες μιας εταιρείας, ανέφερε η Cisco. Τα συστήματα τεχνητής νοημοσύνης συχνά δεν καταφέρνουν να θυμηθούν και να εφαρμόσουν τους κανόνες ασφαλείας τους κατά τη διάρκεια μακροχρόνιων συνομιλιών, σύμφωνα με τη μελέτη. Αυτό σημαίνει ότι οι «επιτιθέμενοι» μπορούν να βελτιώσουν σταδιακά τις ερωτήσεις τους και να αποφύγουν τα μέτρα ασφαλείας.
Η Mistral – όπως και οι Meta, Google, OpenAI και Microsoft – συνεργάζεται με LLM ανοιχτού τύπου, όπου το κοινό μπορεί να έχει πρόσβαση στις συγκεκριμένες παραμέτρους ασφαλείας στις οποίες έχουν εκπαιδευτεί τα μοντέλα.
Η Cisco αναφέρει ότι αυτά τα μοντέλα διαθέτουν συχνά «ελαφρύτερα ενσωματωμένα χαρακτηριστικά ασφαλείας», ώστε οι χρήστες να μπορούν να τα κατεβάσουν και να τα προσαρμόσουν. Αυτό μεταφέρει την ευθύνη για την ασφάλεια στον χρήστη που χρησιμοποίησε τις πληροφορίες ανοιχτού κώδικα για να προσαρμόσει το δικό του μοντέλο. Σημειωτέον ότι η Cisco ανέφερε ότι οι εταιρείες Google, OpenAI, Meta και Microsoft έχουν δηλώσει ότι έχουν καταβάλει προσπάθειες για να μειώσουν τυχόν κακόβουλες τροποποιήσεις των μοντέλων τους.
Οι εταιρείες τεχνητής νοημοσύνης έχουν δεχτεί κριτική για τα χαλαρά μέτρα ασφαλείας που έχουν διευκολύνει την προσαρμογή των συστημάτων τους για εγκληματική χρήση.