Την περασμένη εβδομάδα γίναμε μάρτυρες της αρχής αυτού που φαίνεται να είναι το επόμενο μεγάλο βήμα στην παραγωγική τεχνητή νοημοσύνη. Η Anthropic παρουσίασε το Computer Use, έναν AI agent ικανό να αναλάβει τον έλεγχο του υπολογιστή μας για να εκτελέσει κάθε είδους σύνθετες ενέργειες. Το χαρακτηριστικό αυτό ξύπνησε και τους άλλους κατασκευαστές, με την ιστοσελίδα The Information να αποκαλύπτει τα σχέδια της Google.
Project Jarvis είναι το κωδικό όνομα του AI agent της Google που θα αναλάβει τον έλεγχο του web browser του χρήστη για να εκτελεί κάθε είδους εργασίες. Μεταξύ αυτών είναι η εκτέλεση αναζητήσεων και ερευνών από τον browser, η αγορά ενός προϊόντος ή η κράτηση μιας πτήσης.
Όλα δείχνουν ότι η επιλογή θα είναι μέρος του Gemini, της οικογένειας μεγάλων γλωσσικών μοντέλων (LLM) της Google. Σε αντίθεση με το Claude της Anthropic, ο Jarvis θα αναλάβει τον έλεγχο του browser και όχι ολόκληρου του υπολογιστή. Υποτίθεται ότι θα είναι ειδικά σχεδιασμένος για να λειτουργεί με το Chrome και στοχεύει στην "αυτοματοποίηση καθημερινών εργασιών που βασίζονται στο web".
Η επιλογή computer use του Claude μας έδειξε την περασμένη εβδομάδα πώς το chatbot του ήταν σε θέση όχι μόνο να μιλάει στον χρήστη και να απαντά στις ερωτήσεις του, αλλά και να κάνει πράγματα για αυτόν απευθείας από σύνθετες εντολές. Για παράδειγμα, "να δημιουργήσει μια ιστοσελίδα της δεκαετίας του '90 για ένα ροκ συγκρότημα", όπως έδειξαν στην Anthropic.
Αυτού του είδους η δυνατότητα βρίσκεται ακόμα στα πρώτα της βήματα και στην Anthropic προειδοποίησαν ήδη ότι η απόδοση είναι αργή. Αυτό συμβαίνει επειδή για να λειτουργήσει, το σύστημα AI δεν σταματά να παίρνει screenshots από αυτό που δείχνει η οθόνη και στη συνέχεια να τα αναλύει και να ενεργεί αναλόγως. Αυτή η μορφή αυτοματοποίησης είναι επίσης δαπανηρή προς το παρόν: απαιτούνται πολλές κλήσεις στο API της Anthropic για να ολοκληρωθούν κάπως πιο σύνθετες εργασίες, όπως το demo.
Τις τελευταίες εβδομάδες είδαμε πώς οι "εικονικοί πράκτορες" φαίνεται να είναι η επόμενη μεγάλη μάχη στην παραγωγική τεχνητή νοημοσύνη. Εκτός από την Anthropic και το υποτιθέμενο Project Jarvis της Google, έχουμε και τη Microsoft, η οποία παρουσίασε πριν από μερικές εβδομάδες το Copilot Vision, το οποίο μας επιτρέπει να αλληλεπιδρούμε με τις ιστοσελίδες που επισκεπτόμαστε. Επιπλέον, αναμένεται ότι και η νοημοσύνη της Apple θα μπορεί να αναγνωρίζει τι υπάρχει στην οθόνη μας για να εκτελεί ενέργειες σε αυτήν κατά τη σύνδεση με διάφορες εφαρμογές.
Η Google αναμένεται να παρουσιάσει το "Gemini 2.0" τον Δεκέμβριο και ίσως τότε να αποκαλύψει το Project Jarvis, του οποίου το τελικό όνομα δεν είναι γνωστό. Στο The Information αναφέρουν ότι η Google θα μπορούσε να προσφέρει αυτόν τον AI agent σε ορισμένους χρήστες σε προκαταρκτική βάση για να τον δοκιμάσουν και έτσι να ξεκινήσει αυτό το project με τον μικρότερο δυνατό αριθμό αποτυχιών.