GPT-4o: Νέα επανάσταση στην AI με φωνή, κείμενο και εικόνα σε πραγματικό χρόνο! [Video]
Ο OpenAI πραγματοποίησε την εκδήλωση Spring Update, η οποία μεταδόθηκε ζωντανά πριν από λίγη ώρα στο YouTube. Ο CEO, Sam Altman, δήλωσε ότι ήταν κάτι που «ονειρευόταν», αλλά δεν μπήκε σε πολλές λεπτομέρειες. Ωστόσο, η εταιρεία αποκάλυψε τελικά αυτό που αποκαλεί GPT-4o, το οποίο θα είναι διαθέσιμο δωρεάν για όλους τους χρήστες.
Όπως αναφέρει ο οργανισμός, το GPT-4o θα λειτουργεί παρόμοια με το GPT-4, αλλά θα είναι πολύ πιο γρήγορο. Ωστόσο, προσθέτει μια νέα τεχνολογία πίσω από τη φωνητική λειτουργία του, την οποία χρησιμοποιούν οι χρήστες για να μιλήσουν στο ChatGPT μέσω του μικροφώνου τους. Ο OpenAI θέλει να καταστήσει τη συνομιλία με το ChatGPT να μοιάζει με τη συναναστροφή με ένα πραγματικό πρόσωπο, αλλά μέχρι σήμερα παρατηρούνταν καθυστερήσεις που χαλούσαν την εμπειρία. Τώρα, όμως, ο οργανισμός προσθέτει νέες τεχνολογίες πίσω από το GPT-4o για να κάνει την επικοινωνία με ένα chatbot πολύ πιο γρήγορη.
Ο OpenAI πραγματοποίησε μια επίδειξη συνομιλίας με το GPT-4o χρησιμοποιώντας φωνή. Το GPT-4o όχι μόνο ανταποκρίθηκε σχεδόν αμέσως μόλις ο παρουσιαστής τελείωσε την ομιλία του, αλλά ανταποκρίθηκε επίσης με κείμενο σε ομιλία, ώστε να αισθάνεστε σαν να μιλάτε με κάποιον σε πραγματικό χρόνο. Κατά τη διάρκεια της επίδειξης, το GPT-4o έδωσε οδηγίες στον παρουσιαστή, τον Mark, για το πώς να αναπνέει καλύτερα, λαμβάνοντας δείγματα ήχου από την αναπνοή του και δίνοντάς του συμβουλές για το πώς να το κάνει καλύτερα.
Ένα άλλο demo έδειξε το GPT-4o να αφηγείται ένα παραμύθι με την προτροπή «ρομπότ και αγάπη». Στα μισά της ιστορίας, ο Mark παρενέβη και ζήτησε από το GPT-4o να προσαρμόσει το συναίσθημα που χρησιμοποιούσε για να μιλήσει. Και βέβαια, το GPT-4o μπορούσε να αλλάξει τη φωνή του ανάλογα με το τι του ζητήθηκε, από μια υπερβολικά δραματική απόδοση σε έναν ψυχρό, ρομποτικό τόνο. Τέλος, έδειξαν μερικές από τις δυνατότητες του GPT-4o στο τραγούδι για να ολοκληρώσουν την ιστορία.
Στο επόμενο demo, οι παρουσιαστές έγραψαν μια εξίσωση και την έδειξαν στο GPT-4o μέσω της κάμερας ενός τηλεφώνου. Δόθηκε η εντολή να βοηθήσει στην επίλυση της, αλλά να μην προδώσει την απάντηση. Πράγματι, το GPT-4o καθοδήγησε τους παρουσιαστές της επίδειξης κατά τη διαδικασία επίλυσης μιας απλής εξίσωσης, αναλαμβάνοντας σχεδόν το ρόλο του δασκάλου. Επιπλέον, είχε ακόμη και απάντηση στην τυπική ερώτηση «Πότε θα το χρησιμοποιήσω αυτό στην πραγματική ζωή;», εξηγώντας πώς οι εξισώσεις μπορούν να μας βοηθήσουν σε καθημερινές εργασίες.
Οι παρουσιαστές χρησιμοποίησαν επίσης την desktop έκδοση του GPT-4o για να ελέγξουν κάποιο κώδικα που είχαν. Το GPT-4o μπορούσε όχι μόνο να εξηγήσει τι κάνει ο κώδικας, αλλά και να πει τι θα συνέβαινε αν τροποποιούσατε συγκεκριμένα μέρη του. Και οι επιδεικνύοντες έδειξαν ότι το GPT-4o μπορεί να λειτουργήσει ως μεταφραστής σε πραγματικό χρόνο, ακούγοντας δύο άτομα που μιλούν διαφορετικές γλώσσες και λέγοντας στο ένα άτομο τι είπε ο άλλος στη μητρική του γλώσσα.
Συνήθως, όταν ο OpenAI ανακοινώνει μια νέα έκδοση του μοντέλου ChatGPT, αυτή κλειδώνεται πίσω από ένα paywall. Ωστόσο, η εταιρεία αποφάσισε να επιτρέψει σε όλους να χρησιμοποιήσουν αυτή τη νέα τεχνολογία, αν και οι χρήστες που πληρώνουν θα έχουν πέντε φορές μεγαλύτερη χωρητικότητα.
Η νέα τεχνολογία θα διατεθεί μέσα στις επόμενες εβδομάδες.
[OpenAI]