Μετατροπή εγκεφαλικών σημάτων σε ομιλία σε σχεδόν πραγματικό χρόνο

Ερευνητές από το UC Berkeley και το UC San Francisco έκαναν ένα σημαντικό βήμα προς τα εμπρός στην τεχνολογία διεπαφής εγκεφάλου-υπολογιστή (BCI) αναπτύσσοντας ένα σύστημα που αποκαθιστά σχεδόν τη φυσική ομιλία σε άτομα με σοβαρή παράλυση. Η νέα μέθοδος επικεντρώνεται στην επίλυση μιας βασικής πρόκλησης στις νευροπροσθέσεις ομιλίας: την καθυστέρηση μεταξύ της στιγμής που ένα άτομο προσπαθεί να μιλήσει και της στιγμής που οι σκέψεις του μετατρέπονται σε ήχο.

Η επαναστατική τεχνολογία αξιοποιεί την τεχνητή νοημοσύνη (AI) για να αποκωδικοποιεί τα εγκεφαλικά σήματα σε προφορικές λέξεις σχεδόν αμέσως. Με τη ροή της εγκεφαλικής δραστηριότητας σε ακουστική ομιλία σε σχεδόν πραγματικό χρόνο, το σύστημα αυτό δίνει μια πιο ομαλή και φυσική ροή στην ομιλία, επιτρέποντας τη συνεχή έκφραση χωρίς σημαντικές παύσεις.

«Το σύστημα συνεχούς ροής μας αξιοποιεί αλγορίθμους παρόμοιους με αυτούς που υπάρχουν σε συσκευές όπως η Alexa ή η Siri για να αποκωδικοποιεί τα εγκεφαλικά σήματα και να παράγει ομιλία σχεδόν τόσο γρήγορα όσο σκέφτεται», εξήγησε ο Gopala Anumanchipalli, ερευνητής και επίκουρος καθηγητής στο UC Berkeley. «Είναι η πρώτη φορά που καταφέρνουμε να επιτύχουμε ρευστή, συνεχή σύνθεση ομιλίας απευθείας από νευρωνικά δεδομένα».

Η νέα τεχνολογία λειτουργεί επίσης σε ένα ευρύ φάσμα συσκευών. Υποστηρίζει μη επεμβατικές μεθόδους που χρησιμοποιούν αισθητήρες στο δέρμα για τη μέτρηση της δραστηριότητας των μυών του προσώπου και πιο σύνθετα συστήματα που περιλαμβάνουν ηλεκτρόδια τοποθετημένα πάνω ή μέσα στον εγκέφαλο. Σύμφωνα με τον Kaylo Littlejohn, διδακτορικό φοιτητή και συν-συγγραφέα, ο αλγόριθμος μπορεί να προσαρμοστεί σε διάφορες διατάξεις παρακολούθησης του εγκεφάλου, αρκεί να έχει πρόσβαση σε αξιόπιστα σήματα.

Η νευροπρόθεση μετατρέπει τη νευρική δραστηριότητα από τον κινητικό φλοιό του εγκεφάλου, ο οποίος ελέγχει την ομιλία, σε λέξεις. Αυτό γίνεται αφού το άτομο έχει ήδη σχηματίσει τη σκέψη και ετοιμάζεται να κινήσει τους φωνητικούς του μύες. Για να εκπαιδευτεί το σύστημα, ένας συμμετέχων προσπαθούσε σιωπηλά να εκφωνήσει προτάσεις, ενώ οι ερευνητές κατέγραφαν την εγκεφαλική του δραστηριότητα. Τα AI μοντέλα συμπλήρωναν τις λεπτομέρειες που έλειπαν, όπως τα ηχητικά μοτίβα, για να δημιουργήσουν την παραγωγή προφορικού λόγου.

Αξίζει να σημειωθεί ότι η ομάδα χρησιμοποίησε τη φωνή του συμμετέχοντα πριν από τον τραυματισμό ως αναφορά, διασφαλίζοντας ότι η έξοδος ακούγεται οικεία και προσωπική. Προηγούμενες μελέτες έδειξαν καθυστέρηση 8 δευτερολέπτων στην αποκωδικοποίηση πλήρων προτάσεων, αλλά η νέα μέθοδος επιτυγχάνει ακουστική ομιλία σε λιγότερο από ένα δευτερόλεπτο. Αυτή η ταχύτερη απόκριση συνδυάζεται με υψηλή ακρίβεια, αποδεικνύοντας ότι η ροή σε πραγματικό χρόνο είναι δυνατή χωρίς να θυσιάζεται η ποιότητα.

Για να δοκιμάσουν την ευελιξία, οι ερευνητές συνέθεσαν σπάνιες λέξεις που δεν αποτελούσαν μέρος των δεδομένων εκπαίδευσης του συστήματος, όπως εκείνες από το φωνητικό αλφάβητο του ΝΑΤΟ («Alpha», «Bravo» κ.λπ.). Η τεχνολογία απέδωσε καλά, υποδεικνύοντας τις δυνατότητές της για ευρύτερη χρήση λεξιλογίου.

Ο Edward Chang, ανώτερος ερευνητής και νευροχειρουργός στο UCSF, έδωσε έμφαση στις εφαρμογές στον πραγματικό κόσμο. «Αυτή η καινοτομία μας φέρνει πιο κοντά σε πρακτικά BCIs που μπορούν να βελτιώσουν σημαντικά την επικοινωνία για άτομα με σοβαρές διαταραχές ομιλίας».

Οι μελλοντικές προσπάθειες στοχεύουν στην ενίσχυση του συναισθηματικού τόνου και της εκφραστικότητας της ομιλίας. Ο στόχος είναι να αντικατοπτρίζονται οι αλλαγές στο ύψος, την ένταση και το συναίσθημα, καθιστώντας την έξοδο πιο αληθοφανή. Με περαιτέρω βελτίωση, η τεχνολογία αυτή θα μπορούσε να βελτιώσει σημαντικά τις επιλογές επικοινωνίας για άτομα που δεν μπορούν να μιλήσουν.

[via]

Loading