Seamless: Η Meta κοντά στην υλοποίηση του Καθολικού Μεταφραστή Ομιλίας!

Οι ερευνητές του τμήματος AI της Meta ανακοίνωσαν ότι ανέπτυξαν μια νέα σειρά μοντέλων Τεχνητής Νοημοσύνης με την ονομασία Seamless Communication, τα οποία στοχεύουν να καταστήσουν πιο φυσική και αυθεντική την επικοινωνία μεταξύ διαφορετικών γλωσσών - υλοποιώντας ουσιαστικά την ιδέα ενός Καθολικού Μεταφραστή Ομιλίας. Τα εν λόγω μοντέλα δόθηκαν στη δημοσιότητα αυτήν την εβδομάδα μαζί με ερευνητικά έγγραφα και συνοδευτικά δεδομένα.

Το κορυφαίο μοντέλο, που ονομάζεται Seamless, συγχωνεύει τις δυνατότητες των τριών άλλων μοντέλων - SeamlessExpressive, SeamlessStreaming και SeamlessM4T v2 - σε ένα ενιαίο σύστημα. Σύμφωνα με το ερευνητικό άρθρο, το Seamless είναι «το πρώτο δημόσια διαθέσιμο σύστημα που ξεκλειδώνει την εκφραστική διαγλωσσική επικοινωνία σε πραγματικό χρόνο».

Το Seamless translator αντιπροσωπεύει ένα νέο κεφάλαιο στη χρήση της Τεχνητής Νοημοσύνης για την επικοινωνία μέσω του διαδικτύου. Συνδυάζει τρία εξελιγμένα μοντέλα νευρωνικών δικτύων για να επιτρέπει τη μετάφραση σε πραγματικό χρόνο μεταξύ περισσότερων από 100 γλωσσών σε προφορική και γραπτή μορφή, διατηρώντας παράλληλα το φωνητικό ύφος, το συναίσθημα και την χροιά της φωνής του ομιλητή.

Το SeamlessExpressive εστιάζει στη διατήρηση του φωνητικού ύφους και των συναισθηματικών αποχρώσεων της φωνής του ομιλητή κατά τη μετάφραση μεταξύ των διαφορετικών γλωσσών. Όπως περιγράφεται στο άρθρο, «οι μεταφράσεις θα πρέπει να αποτυπώνουν τις λεκτικές διαφοροποιήσεις της ανθρώπινης έκφρασης. Ενώ τα υπάρχοντα μεταφραστικά εργαλεία είναι ικανά να καταγράφουν το περιεχόμενο μέσα σε μια συνομιλία, συνήθως βασίζονται σε μονότονα, ρομποτικά συστήματα μετατροπής κειμένου σε ομιλία για την παραγωγή τους».

Το SeamlessStreaming επιτρέπει τη μετάφραση σχεδόν σε πραγματικό χρόνο με καθυστέρηση μόλις δύο δευτερολέπτων. Οι ερευνητές λένε ότι είναι το «πρώτο μαζικά πολύγλωσσο μοντέλο» που παρέχει τόσο γρήγορες ταχύτητες μετάφρασης σε σχεδόν 100 γλώσσες σε προφορικό και γραπτό λόγο.

Το τρίτο μοντέλο, το SeamlessM4T v2, χρησιμεύει ως βάση για τα άλλα δύο μοντέλα. Πρόκειται για μια αναβαθμισμένη έκδοση του αρχικού μοντέλου SeamlessM4T που κυκλοφόρησε πέρυσι. Η νέα αρχιτεκτονική παρέχει «βελτιωμένη συνοχή μεταξύ της παραγωγής κειμένου και ομιλίας».

«Συνοψίζοντας, το Seamless μας δίνει μια κομβική ματιά στα τεχνικά θεμέλια που είναι απαραίτητα για να μετατραπεί ο Καθολικός Μεταφραστής Ομιλίας από ιδέα επιστημονικής φαντασίας σε τεχνολογία του πραγματικού κόσμου», σημειώνουν οι ερευνητές.

Οι δυνατότητες των μοντέλων θα μπορούσαν να επιτρέψουν νέες εμπειρίες επικοινωνίας με βάση τη φωνή, από πολύγλωσσες συνομιλίες σε πραγματικό χρόνο με τη χρήση έξυπνων γυαλιών έως την αυτόματη μεταγλώττιση βίντεο και podcasts. Οι ερευνητές προτείνουν ότι θα μπορούσαν επίσης να βοηθήσουν στην άρση των γλωσσικών εμποδίων για τους μετανάστες και άλλους που δυσκολεύονται με την επικοινωνία.

Ωστόσο, οι ερευνητές αναγνωρίζουν ότι η τεχνολογία θα μπορούσε επίσης να χρησιμοποιηθεί καταχρηστικά για απάτες φωνητικού phishing, deepfakes και άλλες κακόβουλες εφαρμογές. Για να προωθήσουν την ασφάλεια και την υπεύθυνη χρήση των μοντέλων, εφάρμοσαν διάφορα μέτρα, όπως υδατογράφημα ήχου.

[Meta]