Voice Engine: Το νέο AI εργαλείο κλωνοποίησης φωνής από τον OpenAI

Καθώς τα deepfakes πολλαπλασιάζονται, ο OpenAI τελειοποιεί την τεχνολογία που χρησιμοποιείται για την κλωνοποίηση φωνών, αλλά ταυτόχρονα ισχυρίζεται ότι το κάνει με υπευθυνότητα.

Σήμερα πραγματοποιείται το ντεμπούτο του Voice Engine του OpenAI, μιας επέκτασης του υπάρχοντος API του οργανισμού για τη μετατροπή κειμένου σε ομιλία. Το Voice Engine βρίσκεται υπό ανάπτυξη εδώ και περίπου δύο χρόνια και επιτρέπει στους χρήστες να ανεβάζουν οποιοδήποτε δείγμα φωνής διάρκειας 15 δευτερολέπτων για να δημιουργηθεί ένα συνθετικό αντίγραφο αυτής της φωνής. Παρόλα αυτά, δεν έχει ανακοινωθεί ημερομηνία για δημόσια διαθεσιμότητα, δίνοντας στον οργανισμό χρόνο να ανταποκριθεί στον τρόπο με τον οποίο θα χρησιμοποιείται το μοντέλο.

Το παραγωγικό μοντέλο AI που τροφοδοτεί το Voice Engine κρυβόταν σε κοινή θέα για αρκετό καιρό. Το ίδιο μοντέλο υποστηρίζει τις δυνατότητες φωνής και "ανάγνωσης" στο ChatGPT, το AI-powered chatbot του OpenAI, καθώς και τις προκαθορισμένες φωνές που είναι διαθέσιμες στο text-to-speech API του OpenAI. Και το Spotify το χρησιμοποιεί από τις αρχές Σεπτεμβρίου για τη μεταγλώττιση podcasts κορυφαίων παρουσιαστών όπως ο Lex Fridman σε διάφορες γλώσσες.

Παρόλα αυτά, ο OpenAI δεν αποκαλύπτει ακριβώς τα δεδομένα που χρησιμοποίησε για να εκπαιδεύσει το μοντέλο. Ο εκπρόσωπος του οργανισμού αρκέστηκε απλά να αναφέρει ότι το Voice Engine εκπαιδεύτηκε σε ένα μείγμα αδειοδοτημένων και δημόσια διαθέσιμων δεδομένων.

Μοντέλα όπως αυτό που τροφοδοτεί το Voice Engine εκπαιδεύονται σε έναν τεράστιο αριθμό παραδειγμάτων, στην προκειμένη περίπτωση, ηχογραφήσεις ομιλίας, που συνήθως προέρχονται από δημόσιες ιστοσελίδες και βάσεις δεδομένων στο Διαδίκτυο.

Πολλοί προμηθευτές παραγωγικής AI θεωρούν τα δεδομένα εκπαίδευσης ως ανταγωνιστικό πλεονέκτημα και, ως εκ τούτου, κρατούν τα δεδομένα αυτά και τις πληροφορίες που τα αφορούν κρυφά. Όμως, οι λεπτομέρειες των δεδομένων εκπαίδευσης αποτελούν επίσης μια πιθανή πηγή αγωγών που σχετίζονται με την πνευματική ιδιοκτησία, ένα ακόμη αντικίνητρο για την αποκάλυψη πολλών στοιχείων.

Παραδόξως, το Voice Engine δεν έχει εκπαιδευτεί ή ρυθμιστεί με βάση τα δεδομένα των χρηστών. Αυτό οφείλεται εν μέρει στον εφήμερο τρόπο με τον οποίο το μοντέλο παράγει ομιλία.

"Παίρνουμε ένα μικρό δείγμα ήχου και ένα κείμενο και δημιουργούμε ρεαλιστική ομιλία που ταιριάζει με τον αρχικό ομιλητή", δήλωσε ο Jeff Harris στην ιστοσελίδα TechCrunch. "Ο ήχος που χρησιμοποιείται απορρίπτεται μετά την ολοκλήρωση του αιτήματος".

Όπως εξήγησε, το μοντέλο αναλύει ταυτόχρονα τα δεδομένα ομιλίας από τα οποία αντλεί και τα δεδομένα κειμένου που προορίζονται να διαβαστούν δυνατά, δημιουργώντας μια φωνή που ταιριάζει χωρίς να χρειάζεται να δημιουργηθεί ένα προσαρμοσμένο μοντέλο ανά ομιλητή. Το Voice Engine δεν προσφέρει δυνατότητες ρύθμισης του τόνου, του ύψους ή του ρυθμού της φωνής. Για την ακρίβεια, δεν προσφέρει προς το παρόν κανένα κουμπί ή επιλογέα λεπτομερούς ρύθμισης, αν και ο Harris σημειώνει ότι οποιαδήποτε εκφραστικότητα στο δείγμα φωνής των 15 δευτερολέπτων θα μεταφερθεί και στις επόμενες παραγωγές (για παράδειγμα, αν μιλάτε με ενθουσιασμένο τόνο, η συνθετική φωνή που θα προκύψει θα ακούγεται σταθερά ενθουσιασμένη).

Οι εφαρμογές κλωνοποίησης φωνής μπορούν να χρησιμοποιηθούν και έχουν χρησιμοποιηθεί ήδη με τρόπους που προκαλούν έντονες ανησυχίες. Υπάρχουν φόβοι ότι οι επιτήδειοι θα προσπαθήσουν να επηρεάσουν τις εκλογές με την κλωνοποίηση φωνής. Και δεν είναι αβάσιμοι: Τον Ιανουάριο, μια τηλεφωνική καμπάνια χρησιμοποίησε μια ψεύτικη φωνή του προέδρου Biden για να αποτρέψει τους πολίτες του New Hampshire από το να ψηφίσουν.

Εκτός λοιπόν από την απαγόρευση των deepfakes σε επίπεδο πολιτικής, τι μέτρα λαμβάνει ο OpenAI, για να αποτρέψει την κατάχρηση του Voice Engine; Ο Harris ανέφερε μερικά.

Κατ' αρχάς, το Voice Engine διατίθεται μόνο σε μια εξαιρετικά μικρή ομάδα προγραμματιστών - περίπου 10 - για αρχή. Ο OpenAI δίνει προτεραιότητα σε περιπτώσεις χρήσης που είναι "χαμηλού κινδύνου" και "κοινωνικά ωφέλιμες", λέει ο Harris, όπως αυτές της υγειονομικής περίθαλψης και της προσβασιμότητας, εκτός από τον πειραματισμό με "υπεύθυνα" συνθετικά μέσα.
Δεύτερον, οι κλώνοι που δημιουργούνται με το Voice Engine φέρουν υδατογράφημα χρησιμοποιώντας μια τεχνική που ανέπτυξε ο OpenAI, η οποία ενσωματώνει μη ακουστά αναγνωριστικά στις ηχογραφήσεις. Ο Harris δεν υποσχέθηκε ότι δεν υπάρχουν τρόποι να παρακαμφθεί το υδατογράφημα, αλλά το περιέγραψε ως "ανθεκτικό στην παραποίηση".
Τρίτον, ο OpenAI σκοπεύει να παρέχει στα μέλη της ομάδας red teaming, μια ομάδα εμπειρογνωμόνων που συμβάλλει στην ενημέρωση της εταιρείας για την αξιολόγηση των κινδύνων και τις στρατηγικές μετριασμού των μοντέλων Τεχνητής Νοημοσύνης, πρόσβαση στο Voice Engine για να εντοπίσουν κακόβουλες χρήσεις.

Ανάλογα με την πορεία της δοκιμής προεπισκόπησης και την ανταπόκριση του κοινού στο Voice Engine, ο OpenAI θα μπορούσε να διαθέσει το εργαλείο στην ευρύτερη βάση προγραμματιστών, αλλά προς το παρόν η εταιρεία διστάζει να δεσμευτεί για οτιδήποτε συγκεκριμένο.

Ωστόσο, ο Harris έδωσε μια κρυφή ματιά στον οδικό χάρτη του Voice Engine, αποκαλύπτοντας ότι ο OpenAI δοκιμάζει έναν μηχανισμό ασφαλείας που βάζει τους χρήστες να διαβάζουν τυχαία παραγόμενο κείμενο ως απόδειξη ότι είναι παρόντες και γνωρίζουν πώς χρησιμοποιείται η φωνή τους. Αυτό θα μπορούσε να δώσει στον OpenAI την σιγουριά που χρειάζεται για να φέρει το Voice Engine σε περισσότερους ανθρώπους, δήλωσε ο Harris - ή μπορεί να είναι απλώς η αρχή.

"Αυτό που θα μας ωθήσει προς τα εμπρός όσον αφορά την πραγματική τεχνολογία αντιστοίχισης φωνής θα εξαρτηθεί πραγματικά από το τι μαθαίνουμε από την πιλοτική εφαρμογή, τα θέματα ασφάλειας που αποκαλύπτονται και τα μέτρα αντιμετώπισης που εφαρμόζουμε. Δεν θέλουμε οι άνθρωποι να μπερδεύονται μεταξύ των τεχνητών φωνών και των πραγματικών ανθρώπινων φωνών".

*Η κεντρική εικόνα προέρχεται από το VentureBeat.

[OpenAI]