Voicebox: Το νέο AI εργαλείο για δημιουργία αρχείων ήχου από τη Meta
Το νέο μοντέλο παραγωγικής Τεχνητής Νοημοσύνης της Meta είναι το Voicebox, ένα AI εργαλείο που έχει σχεδιαστεί και εκπαιδευτεί με σκοπό να δημιουργεί αρχεία ήχου (π.χ. samples) από γραπτό κείμενο και να προσφέρει στον χρήστη τη δυνατότητα να τα επεξεργάζεται, ούτως ώστε να βοηθήσει ανθρώπους με προβλήματα όρασης αλλά και γενικότερα να δίνει την δυνατότητα σε όλους να μιλούν σε ξένες γλώσσες χρησιμοποιώντας την φωνή τους.
Οι δημιουργίες του Voicebox είναι υψηλής πιστότητας και μάλιστα από τα τελικά αρχεία αφαιρούνται οι ανεπιθύμητοι εξωτερικοί θόρυβοι (π.χ. κόρνες αυτοκινήτων, βαβούρα), ενώ μελλοντικά θα υποστηρίζει την αυτόματη ηχογράφηση σε περισσότερες γλώσσες (σ.σ. για την ώρα είναι 6) και θα μπορεί να χρησιμοποιηθεί για την ενίσχυση των φωνητικών βοηθών, αλλά και των NPCs στα video games του metaverse.
Η Meta δεν παρέλειψε να συγκρίνει το Voicebox και με άλλα ανταγωνιστικά AI μοντέλα ήχου όπως τα Vall-E και YourTTS, τονίζοντας ότι το δικό της είναι σημαντικά πιο ανεπτυγμένο και πιο αποδοτικό, παράγοντας πολύ μικρότερο αριθμό λανθασμένων λέξεων και μεγαλύτερη ακρίβεια στις ξένες γλώσσες. Η εταιρεία εκπαίδευσε το AI εργαλείο με περισσότερες από 50.000 ώρες ηχογραφημένου υλικού από δημόσια διαθέσιμα audiobooks στα Αγγλικά, Γαλλικά, Ισπανικά, Γερμανικά, Πολωνικά και Πορτογαλικά.
Να σημειωθεί, πάντως, ότι για την ώρα δεν διαθέτει το Voicebox ή τον κώδικα του για δημόσια χρήση, πιθανότατα επειδή θέλει να αναπτύξει περισσότερο το AI εργαλείο και να εξασφαλίσει με διάφορες δικλείδες ασφαλείας πως δεν θα χρησιμοποιηθεί για κακόβουλους σκοπούς.
[Meta]