Η OpenAI ανακοίνωσε τρία μοντέλα: GPT-4.1, GPT-4.1 mini και GPT-4.1 nano. Αυτά τα μοντέλα έρχονται με τεράστια παράθυρα πλαισίου έως και 1 εκατομμύριο tokens και με λήξη της γνώσης τον Ιούνιο του 2024. Η εταιρεία αναφέρει ότι αυτά τα μοντέλα ξεπερνούν τα πρόσφατα ενημερωμένα GPT-4o και το GPT-4o mini, το οποίο κυκλοφόρησε τον περασμένο Ιούλιο. Το GPT-4.1 είναι μόνο για API προς το παρόν, οπότε δεν θα το χρησιμοποιείτε μέσα στο ChatGPT ακόμα.
Σημειώστε ότι το GPT-4.1 θα είναι διαθέσιμο μόνο μέσω του API. Στο ChatGPT, πολλές από τις βελτιώσεις στην παρακολούθηση εντολών, την κωδικοποίηση και την ευφυΐα έχουν ενσωματωθεί σταδιακά στην τελευταία έκδοση του GPT-4o και θα συνεχίσουμε να ενσωματώνουμε περισσότερες με τις μελλοντικές εκδόσεις.
Οι αριθμοί αναφοράς δείχνουν τις βελτιώσεις που φέρνει η 4.1. Σημειώνει 54,6% στο SWE-bench Verified, σημειώνοντας αύξηση 21,4 μονάδων σε σχέση με το GPT-4o. Πετυχαίνει 38,3% στο MultiChallenge, ένα benchmark που ακολουθεί οδηγίες, και σημειώνει νέο ρεκόρ στην κατανόηση βίντεο μεγάλης διάρκειας με σκορ 72,0% στο benchmark Video-MME, όπου τα μοντέλα αναλύουν βίντεο διάρκειας έως και μιας ώρας χωρίς υπότιτλους.
Η OpenAI συνέπραξε επίσης με τους alpha συνεργάτες της για να δοκιμάσει τις επιδόσεις του GPT-4.1 σε πραγματικές περιπτώσεις χρήσης.
Η Thomson Reuters δοκίμασε το GPT-4.1 με το CoCounsel, τον νομικό βοηθό τεχνητής νοημοσύνης της. Σε σύγκριση με το GPT-4o, είδαν 17% αύξηση στην ακρίβεια της αναθεώρησης πολλαπλών εγγράφων. Αυτό το είδος εργασίας βασίζεται σε μεγάλο βαθμό στην παρακολούθηση του πλαισίου σε πολλαπλές πηγές και στον εντοπισμό πολύπλοκων σχέσεων, όπως αντικρουόμενες ρήτρες ή κρυφές εξαρτήσεις, και το GPT-4.1 παρείχε σταθερά ισχυρές επιδόσεις.
Η Carlyle έθεσε το GPT-4.1 σε λειτουργία για την εξαγωγή οικονομικών δεδομένων από μακροσκελή, πυκνά έγγραφα, συμπεριλαμβανομένων αρχείων Excel και PDF. Σύμφωνα με τα εσωτερικά τους benchmarks, είχε 50% καλύτερες επιδόσεις από τα προηγούμενα μοντέλα στην ανάκτηση εγγράφων. Ήταν το πρώτο που χειρίστηκε αξιόπιστα ζητήματα όπως αναζητήσεις με βελόνα στο άχυρο, απώλεια πληροφοριών στη μέση των εγγράφων και συλλογισμούς που απαιτούσαν τη σύνδεση πληροφοριών σε όλα τα αρχεία.
Οι επιδόσεις είναι ένα πράγμα, αλλά και η ταχύτητα έχει σημασία. Η OpenAI λέει ότι το GPT-4.1 επιστρέφει το πρώτο του token σε περίπου 15 δευτερόλεπτα όταν επεξεργάζεται 128.000 tokens και έως και 30 δευτερόλεπτα σε ένα πλήρες εκατομμύριο. Τα mini και nano είναι ακόμη πιο γρήγορα.
Το GPT-4.1 nano ανταποκρίνεται συνήθως σε λιγότερο από 5 δευτερόλεπτα για προτροπές με 128.000 μάρκες εισόδου. Η προσωρινή αποθήκευση προτροπών μπορεί να συμβάλει στην ακόμη μεγαλύτερη μείωση της καθυστέρησης, εξοικονομώντας παράλληλα κόστος.
Η κατανόηση εικόνας σημείωσε επίσης ένα αξιοσημείωτο άλμα. Το GPT-4.1 mini, ειδικότερα, ξεπέρασε το GPT-4o σε μια σειρά από δείκτες αναφοράς όρασης.
- Στο MMMU (το οποίο περιλαμβάνει διαγράμματα, γραφήματα και χάρτες), η GPT-4.1 mini σημειώνει βαθμολογία 73%. Αυτό είναι υψηλότερο από το GPT-4.5 και πολύ καλύτερο από το 56% του GPT-4o mini.
- Στο MathVista (το οποίο δοκιμάζει τα μοντέλα σε οπτικά μαθηματικά προβλήματα), το GPT-4.1 και το GPT-4.1 mini φτάνουν και τα δύο το 57%, αφήνοντας πίσω τους το 37% του GPT-4o mini.
- Στο CharXiv-Reasoning, όπου τα μοντέλα απαντούν σε ερωτήσεις βασισμένες σε επιστημονικά διαγράμματα, το GPT-4.1 συνεχίζει να προηγείται.
- Στο Video-MME (μεγάλα βίντεο χωρίς υπότιτλους), το GPT-4.1 σημειώνει 72%, βελτιώνοντας σημαντικά το 65% του GPT-4o.
Η OpenAI ετοιμάζεται επίσης να αποσύρει το GPT-4.5 Preview μέχρι τις 14 Ιουλίου 2025, επικαλούμενη καλύτερες επιδόσεις, χαμηλότερη καθυστέρηση και χαμηλότερο κόστος από το GPT-4.1.
[via]