OpenAI Deep Research: Διέλυσε το ρεκόρ στο δυσκολότερο τεστ Τεχνητής Νοημοσύνης

Το δυσκολότερο τεστ Τεχνητής Νοημοσύνης στον κόσμο, το Humanity's Last Exam, λανσαρίστηκε πριν από λιγότερο από δύο εβδομάδες και ήδη έχουμε δει ένα τεράστιο άλμα στην ακρίβεια, με το o3-mini και τώρα το Deep Research της OpenAI να βρίσκονται στην κορυφή της κατάταξης. Το σημείο αναφοράς της AI που δημιουργήθηκε από εμπειρογνώμονες από όλο τον κόσμο περιέχει μερικά από τα δυσκολότερα προβλήματα και ερωτήσεις συλλογισμού που είναι γνωστά στον άνθρωπο.

Το παγκόσμιο φαινόμενο DeepSeek R1 βρισκόταν στην κορυφή της κατάταξης, με ακρίβεια 9,4%, όταν αξιολογούνταν μόνο σε κείμενο, αλλά τώρα, το o3-mini της OpenAI, σημείωσε ακρίβεια 10,5% στη ρύθμιση o3-mini και 13% ακρίβεια στη ρύθμιση o3-mini-high, η οποία είναι πιο έξυπνη αλλά χρειάζεται περισσότερο χρόνο για να παράγει απαντήσεις.

Πιο εντυπωσιακή, ωστόσο, είναι η βαθμολογία του νέου AI agent Deep Research της OpenAI στο benchmark, με το νέο εργαλείο να σημειώνει 26,6%, μια τεράστια αύξηση της ακρίβειας των αποτελεσμάτων κατά 183% σε λιγότερο από 10 ημέρες. Τώρα, αξίζει να σημειωθεί ότι το Deep Research διαθέτει δυνατότητες αναζήτησης, γεγονός που καθιστά τις συγκρίσεις ελαφρώς άδικες, καθώς τα άλλα μοντέλα AI δεν πραγματοποιούν αναζήτηση στο Διαδίκτυο. Η τελευταία είναι χρήσιμη για ένα τεστ όπως το Humanity's Last Exam, καθώς περιλαμβάνει κάποιες ερωτήσεις που βασίζονται σε γενικές γνώσεις.

Όπως και να 'χει, η ακρίβεια των αποτελεσμάτων των μοντέλων που δοκιμάζονται στο Humanity's Last Exam βελτιώνεται σταθερά και μας κάνει να αναρωτιόμαστε πόσο καιρό θα χρειαστεί να περιμένουμε για να δούμε ένα AI μοντέλο να πλησιάζει την ολοκλήρωση του benchmark.

Το Deep Research είναι σε θέση να λειτουργήσει ως ο προσωπικός σας αναλυτής, αφιερώνοντας χρόνο για να διεξάγει εντατική έρευνα και να καταλήξει σε αναφορές και απαντήσεις που διαφορετικά θα έπαιρναν ώρες και ώρες για να ολοκληρώσουν οι άνθρωποι.

Παρόλο που η βαθμολογία του 26,6% στο Humanity's Last Exam είναι πραγματικά εντυπωσιακή, ειδικά αν αναλογιστεί κανείς πόσο μακριά έχει φτάσει ο πίνακας κατάταξης του benchmark μέσα σε μόλις δύο εβδομάδες, εξακολουθεί να είναι μια χαμηλή βαθμολογία σε απόλυτους όρους, αφού κανείς δεν θα ισχυριζόταν ότι πέρασε ένα τεστ με λιγότερο από 50% στον πραγματικό κόσμο.

Το Humanity's Last Exam είναι ένα εξαιρετικό μέτρο σύγκρισης, το οποίο θα αποδειχθεί ανεκτίμητο καθώς τα AI μοντέλα εξελίσσονται, επιτρέποντάς μας να μετρήσουμε πόσο μακριά έχουν φτάσει.

It looks like the latest OpenAI model is very doing well across many topics.
My guess is that Deep Research particularly helps with subjects including medicine, classics, and law. pic.twitter.com/x8Ilmq1aQS
— Dan Hendrycks (@DanHendrycks) February 3, 2025