ChatGPT: Κλωνοποιεί ακούσια τη φωνή του χρήστη!

Το ChatGPT μπορεί μερικές φορές να φαίνεται ικανό να σκέφτεται όπως εσείς, αλλά περιμένατε ποτέ ότι θα μπορούσε να ακούγεται σαν εσάς; Αυτή είναι μια δυνατότητα που φέρνει στο φως η νέα λειτουργία Advanced Voice Mode για το ChatGPT, και συγκεκριμένα το πιο προηγμένο μοντέλο GPT-4o. Ο OpenAI κυκλοφόρησε την προηγούμενη εβδομάδα την καρτέλα του συστήματος που εξηγεί τι μπορεί και τι δεν μπορεί να κάνει το GPT-4o, η οποία περιλαμβάνει την πολύ απίθανη, αλλά και πάλι πραγματική πιθανότητα του Advanced Voice Mode, να μιμείται τις φωνές των χρηστών χωρίς τη συγκατάθεσή τους.

Το Advanced Voice Mode επιτρέπει στους χρήστες να συμμετέχουν σε προφορικές συνομιλίες με το AI chatbot. Η ιδέα είναι να γίνουν οι αλληλεπιδράσεις πιο φυσικές και προσιτές. Η τεχνητή νοημοσύνη διαθέτει μερικές προκαθορισμένες φωνές από τις οποίες οι χρήστες μπορούν να επιλέξουν. Ωστόσο, η καρτέλα του συστήματος αναφέρει ότι αυτή η λειτουργία έχει παρουσιάσει απροσδόκητη συμπεριφορά υπό ορισμένες συνθήκες. Κατά τη διάρκεια των δοκιμών, μια εισερχόμενη πηγή θορύβου ενεργοποίησε την AI προκειμένου να μιμηθεί τη φωνή του χρήστη.

Το μοντέλο GPT-4o παράγει φωνές χρησιμοποιώντας μια προτροπή συστήματος, ένα κρυφό σύνολο οδηγιών που καθοδηγεί τη συμπεριφορά του μοντέλου κατά τη διάρκεια των αλληλεπιδράσεων. Στην περίπτωση της σύνθεσης φωνής, αυτή η προτροπή βασίζεται σε ένα εξουσιοδοτημένο δείγμα φωνής. Όμως, ενώ η προτροπή του συστήματος καθοδηγεί τη συμπεριφορά της Τεχνητής Νοημοσύνης, δεν είναι αλάνθαστη. Η ικανότητα του μοντέλου να συνθέτει φωνή από σύντομα ηχητικά αποσπάσματα σημαίνει ότι, υπό ορισμένες συνθήκες, θα μπορούσε να δημιουργήσει άλλες φωνές, συμπεριλαμβανομένης της δικής σας.

«Η παραγωγή φωνής μπορεί επίσης να συμβεί σε μη αντιπαραθετικές καταστάσεις, όπως η χρήση αυτής της δυνατότητας για τη δημιουργία φωνών για την προηγμένη λειτουργία φωνής του ChatGPT. Κατά τη διάρκεια των δοκιμών, παρατηρήσαμε επίσης σπάνιες περιπτώσεις όπου το μοντέλο δημιουργούσε ακούσια μια έξοδο που προσομοίαζε τη φωνή του χρήστη», εξήγησε ο OpenAI στην καρτέλα του συστήματος. «Ενώ η ακούσια παραγωγή φωνής εξακολουθεί να υφίσταται ως αδυναμία του μοντέλου, χρησιμοποιούμε τους δευτερεύοντες ταξινομητές για να διασφαλίσουμε ότι η συνομιλία διακόπτεται εάν συμβεί αυτό, ώστε να καταστήσουμε ελάχιστο τον κίνδυνο ακούσιας παραγωγής φωνής».

Όπως ανέφερε ο OpenAI, έκτοτε έχει εφαρμόσει μέτρα ασφαλείας για την αποφυγή τέτοιων περιστατικών. Αυτό σημαίνει ότι χρησιμοποιεί έναν ταξινομητή εξόδου που έχει σχεδιαστεί για να ανιχνεύει αποκλίσεις από τις προεπιλεγμένες εξουσιοδοτημένες φωνές. Αυτός ο ταξινομητής λειτουργεί ως δικλείδα ασφαλείας, βοηθώντας να διασφαλιστεί ότι η AI δεν παράγει μη εξουσιοδοτημένο ήχο. Παρόλα αυτά, το γεγονός ότι συνέβη κάτι τέτοιο ενισχύει το πόσο γρήγορα εξελίσσεται αυτή η τεχνολογία και το πώς οι όποιες διασφαλίσεις πρέπει να εξελίσσονται ώστε να ταιριάζουν με το τι μπορεί να κάνει η Τεχνητή Νοημοσύνη.

[via]