Gemini 1.5: Το νέο ακόμα πιο ισχυρό AI μοντέλο της Google [Video]

Μετά το λανσάρισμα της έκδοσης 1.0 τον περασμένο Δεκέμβριο, η Google ανακοίνωσε το Gemini 1.5 ως το μοντέλο επόμενης γενιάς με "δραματικά βελτιωμένες επιδόσεις".

Μία από τις κύριες εξελίξεις στο Gemini 1.5 Pro είναι «ένα σημαντικά μεγαλύτερο παράθυρο πλαισίου».

Το "παράθυρο πλαισίου" ενός μοντέλου AI αποτελείται από tokens, τα οποία είναι τα δομικά στοιχεία που χρησιμοποιούνται για την επεξεργασία πληροφοριών. Τα tokens μπορεί να είναι ολόκληρα τμήματα ή υποτμήματα λέξεων, εικόνων, βίντεο, ήχου ή κώδικα. Όσο μεγαλύτερο είναι το παράθυρο πλαισίου ενός μοντέλου, τόσο περισσότερες πληροφορίες μπορεί να προσλάβει και να επεξεργαστεί σε μια δεδομένη προτροπή - καθιστώντας τα αποτελέσματά του πιο συνεπή, συναφή και χρήσιμα.

Το Gemini 1.5 Pro - η μεσαία βαθμίδα της Google - διαθέτει ένα τυπικό παράθυρο πλαισίου 128.000 tokens (έναντι 32.000 tokens για το Gemini 1.0). Αυτό μεταφράζεται σε πάνω από 700.000 λέξεις, βάσεις κώδικα με πάνω από 30.000 γραμμές κώδικα, 11 ώρες ήχου ή 1 ώρα βίντεο. Το GPT-4 Turbo φτάνει επίσης τις 128.000 και το Claude 2.1 προσφέρει 200.000. Παραδείγματα αυτού σε δράση περιλαμβάνουν:

Το Gemini 1.5 Pro μπορεί να αναλύσει, να ταξινομήσει και να συνοψίσει απρόσκοπτα μεγάλες ποσότητες περιεχομένου μέσα σε μια δεδομένη προτροπή. Για παράδειγμα, όταν του δίνονται τα απομαγνητοφωνημένα πρακτικά 402 σελίδων από την αποστολή του Apollo 11 στο φεγγάρι, μπορεί να αιτιολογήσει τις συζητήσεις, τα γεγονότα και τις λεπτομέρειες που βρίσκονται σε όλο το έγγραφο.

Το Gemini 1.5 Pro μπορεί να εκτελεί ιδιαίτερα εξελιγμένες εργασίες κατανόησης και συλλογισμού για διάφορες μορφές, συμπεριλαμβανομένου του βίντεο. Για παράδειγμα, όταν του δίνεται μια 44λεπτη βωβή ταινία του Buster Keaton, το μοντέλο μπορεί να αναλύσει με ακρίβεια διάφορα σημεία της πλοκής και γεγονότα, και ακόμη και να αιτιολογήσει μικρές λεπτομέρειες στην ταινία που θα μπορούσαν εύκολα να διαφύγουν.

Το Gemini 1.5 Pro μπορεί να εκτελέσει πιο σημαντικές εργασίες επίλυσης προβλημάτων σε μεγαλύτερα τμήματα κώδικα. Όταν του δίνεται μια προτροπή με περισσότερες από 100.000 γραμμές κώδικα, μπορεί να σκεφτεί καλύτερα σε διάφορα παραδείγματα, να προτείνει χρήσιμες τροποποιήσεις και να δώσει εξηγήσεις για το πώς λειτουργούν τα διάφορα μέρη του κώδικα.

Αυτό που είναι πιο αξιοσημείωτο είναι ότι η Google έχει τρέξει έως και 1 εκατομμύριο tokens στην παραγωγή και το διαθέτει σε κάποιους πρώιμους δοκιμαστές, ενώ έχει "δοκιμάσει με επιτυχία έως και 10 εκατομμύρια tokens".

Αυτές οι εξελίξεις καθίστανται δυνατές χάρη σε μια νέα αρχιτεκτονική Mixture-of-Experts (MoE), όπου τα μοντέλα "χωρίζονται σε μικρότερα εξειδικευμένα νευρωνικά δίκτυα". Αυτό καθιστά το Gemini 1.5 πιο αποτελεσματικό τόσο στην εκπαίδευση όσο και στην εξυπηρέτηση.

Ανάλογα με τον τύπο της παρεχόμενης εισαγωγής δεδομένων, τα μοντέλα MoE μαθαίνουν να ενεργοποιούν επιλεκτικά μόνο τα πιο σχετικά εξειδικευμένα μονοπάτια στο νευρωνικό δίκτυο. Αυτή η εξειδίκευση ενισχύει μαζικά την αποδοτικότητα του μοντέλου.

Όσον αφορά τις επιδόσεις, το 1.5 Pro ξεπερνά το 1.0 Pro στο 87% των συγκριτικών μετρήσεων σε αξιολογήσεις κειμένου, κώδικα, εικόνας, ήχου και βίντεο. Μάλιστα αποδίδει σε γενικές γραμμές σε παρόμοιο επίπεδο με το 1.0 Ultra.

Το Gemini 1.5 Pro παρουσιάζει επίσης εντυπωσιακές δεξιότητες "μάθησης εντός πλαισίου", πράγμα που σημαίνει ότι μπορεί να μάθει μια νέα δεξιότητα από πληροφορίες που δίνονται σε μια μακροσκελή προτροπή, χωρίς να χρειάζεται πρόσθετη βελτιστοποίηση.

Το Gemini 1.5 Pro (128.000 token context window) κυκλοφορεί ως limited preview σε προγραμματιστές και εταιρικούς πελάτες μέσω των AI Studio και Vertex AI. Περιγράφεται ως πειραματικό κατά τη διάρκεια αυτής της περιόδου.

[Google]