Το Chatbot Arena είναι μια ανοικτή πλατφόρμα για συγκριτική αξιολόγηση Τεχνητής Νοημοσύνης από το κοινό. Τα τελευταία δύο χρόνια, τα μοντέλα του OpenAI παρέμεναν στην κορυφή των περισσότερων συγκριτικών αξιολογήσεων τεχνητής νοημοσύνης. Σε ορισμένες κατηγορίες, τα μοντέλα Gemini της Google και τα μοντέλα Claude της Anthropic σημείωσαν καλύτερα αποτελέσματα από τα μοντέλα του OpenAI, αλλά συνολικά τα μοντέλα του OpenAI διατηρήθηκαν άνετα στην κορυφή.
Ωστόσο τώρα, το Chatbot Arena αποκάλυψε ένα νέο πειραματικό μοντέλο από την Google με την ονομασία Gemini-Exp-1114 που δοκιμάστηκε με πάνω από 6.000 ψήφους της κοινότητας κατά τη διάρκεια της προηγούμενης εβδομάδας και τώρα βρίσκεται από κοινού στην 1η θέση μαζί με το ChatGPT-4o-latest (2024-09-03) του OpenAI. Σε σύγκριση με το τελευταίο μοντέλο Gemini, η συνολική βαθμολογία στο Arena αυξήθηκε από 1301 σε 1344. Είναι σημαντικό να σημειωθεί ότι η βαθμολογία αυτού του νέου μοντέλου ξεπερνά ακόμη και το μοντέλο o1-preview του OpenAI.
Σύμφωνα με το Chatbot Arena, το Gemini-Exp-1114 κατατάσσεται πλέον στο Νο. 1 του πίνακα κατάταξης Vision. Κατατάσσεται επίσης στο Νο. 1 στις ακόλουθες κατηγορίες:
- Μαθηματικά
- Δημιουργική γραφή
- Μακρύτερο ερώτημα
- Παρακολούθηση οδηγιών
- Πολλαπλές εναλλαγές
- Δύσκολες προτροπές
Αυτό το νέο μοντέλο κατατάσσεται στο Νο. 3 στην κωδικοποίηση και στις Δύσκολες Προτροπές με Έλεγχο Στυλ. Το μοντέλο o1-preview του OpenAI ηγείται στην κατηγορία κωδικοποίησης και ελέγχου στυλ. Όταν το Gemini συγκρίνεται με άλλα παρόμοια AI μοντέλα όσον αφορά τον γενικό πίνακα ποσοστού νίκης, κερδίζει κατά 50% έναντι του GPT-4o-latest, κατά 56% έναντι του o1-preview και κατά 62% έναντι του Claude-3.5-Sonnet.
Τον περασμένο Σεπτέμβριο, η Google κυκλοφόρησε τα ανανεωμένα μοντέλα της σειράς Gemini 1.5 που προσφέρουν αύξηση ~7% στο MMLU-Pro, βελτίωση ~20% στα benchmarks MATH και HiddenMath και βελτιώσεις ~2-7% στις περιπτώσεις χρήσης όρασης και κώδικα. Η συνολική χρησιμότητα των απαντήσεων των μοντέλων έχει επίσης βελτιωθεί. Η Google ισχυρίζεται ότι το νέο μοντέλο απαντά με πιο συνοπτικό ύφος. Επίσης, το προεπιλεγμένο μήκος εξόδου των ενημερωμένων μοντέλων είναι ~5-20% μικρότερο από τα προηγούμενα μοντέλα.
Οι προγραμματιστές μπορούν να δοκιμάσουν αυτό το μοντέλο στο Google AI Studio αυτή τη στιγμή, ενώ σύντομα θα είναι διαθέσιμο και μέσω του API.
[via]