ChatGPT: Φαίνεται ότι σύντομα θα αποκτήσει και ψηφιακή όραση!

Η λειτουργία Advanced Voice Mode του ChatGPT, η οποία επιτρέπει στους χρήστες να συνομιλούν με το chatbot σε πραγματικό χρόνο, θα μπορούσε σύντομα να αποκτήσει και τη δυνατότητα όρασης, σύμφωνα με τον κώδικα που ανακαλύφθηκε στην τελευταία beta έκδοση της πλατφόρμας. Αν και η OpenAI δεν έχει ακόμη επιβεβαιώσει την κυκλοφορία του νέου χαρακτηριστικού, ο κώδικας στο build beta του ChatGPT v1.2024.317 που εντοπίστηκε από το Android Authority υποδηλώνει ότι η λεγόμενη «live camera» θα μπορούσε να είναι άμεσα διαθέσιμη.

Η OpenAI είχε παρουσιάσει για πρώτη φορά τις δυνατότητες όρασης του Advanced Voice Mode για το ChatGPT τον περασμένο Μάιο, όταν η λειτουργία ξεκίνησε για πρώτη φορά σε έκδοση alpha. Κατά τη διάρκεια μιας επίδειξης που δημοσιεύτηκε τότε, το σύστημα ήταν σε θέση να αναγνωρίσει ότι κοιτούσε έναν σκύλο μέσω της κάμερας του smartphone, να ταυτοποιήσει τον σκύλο με βάση τις προηγούμενες αλληλεπιδράσεις, να αναγνωρίσει τη μπάλα του σκύλου και να συσχετίσει τη σχέση του σκύλου με τη μπάλα. Το χαρακτηριστικό αυτό είχε άμεση επιτυχία και στους δοκιμαστές της alpha.

Η λειτουργία Advanced Voice Mode κυκλοφόρησε στη συνέχεια σε beta για τους συνδρομητές Plus και Enterprise τον Σεπτέμβριο, αν και χωρίς τις πρόσθετες οπτικές δυνατότητες. Το Advanced Voice, «προσφέρει πιο φυσικές συνομιλίες σε πραγματικό χρόνο, σας επιτρέπει να διακόπτετε ανά πάσα στιγμή και αντιλαμβάνεται και ανταποκρίνεται στα συναισθήματά σας», σύμφωνα με την εταιρεία.

Η προσθήκη ψηφιακής όρασης θα διαφοροποιούσε σίγουρα το Advanced Voice Mode από τους κύριους ανταγωνιστές της OpenAI, τη Google και τη Meta, οι οποίες τους τελευταίους μήνες εισήγαγαν δικές τους λειτουργίες συνομιλίας.

Το Gemini Live μπορεί να είναι σε θέση να μιλάει περισσότερες από 40 γλώσσες, αλλά δεν μπορεί να δει τον κόσμο γύρω του (τουλάχιστον μέχρι το Project Astra να πάρει μπροστά) - ούτε οι Natural Voice Interactions της Meta, που έκαναν το ντεμπούτο τους στην εκδήλωση Connect 2024 τον περασμένο Σεπτέμβριο, μπορούν να χρησιμοποιήσουν δεδομένα από την κάμερα.

[via]

Loading