Μόλις πριν από μερικές εβδομάδες η DeepSeek κατάφερε να προκαλέσει σεισμό στον τομέα της Τεχνητής Νοημοσύνης, καθώς απέδειξε ότι ένα AI μοντέλο με συλλογιστική σκέψη δεν απαιτεί απαραίτητα επενδύσεις δισεκατομμυρίων δολαρίων και μήνες εκπαίδευσης για να αναπτυχθεί. Πολύ σύντομα, η εταιρεία είδε αρκετές εταιρείες να στρέφονται στα AI μοντέλα της (βλ. Tencent, Microsoft, Alibaba, Oppo, Huawei) για τις πλατφόρμες τους, ενώ τώρα ο επόμενος στόχος της εταιρείας είναι να λανσάρει AI μοντέλα που αυτοβελτιώνονται.
Σε μια προκαταρκτική δημοσίευση, οι ερευνητές της DeepSeek και του Πανεπιστημίου Tsinghua της Κίνας περιγράφουν μια νέα προσέγγιση που θα μπορούσε να καταστήσει τα AI μοντέλα πιο έξυπνα και αποδοτικά με έναν αυτοβελτιούμενο τρόπο. Η υποκείμενη τεχνολογία ονομάζεται self-principled critique tuning (SPCT) και η προσέγγιση είναι τεχνικά γνωστή ως generative reward modeling (GRM).
Με τους απλούστερους όρους, είναι κάπως σαν να δημιουργείται ένας βρόχος ανατροφοδότησης σε πραγματικό χρόνο. Ένα μοντέλο Τεχνητής Νοημοσύνης βελτιώνεται θεμελιωδώς με την κλιμάκωση του μεγέθους του μοντέλου κατά τη διάρκεια της εκπαίδευσης. Αυτό απαιτεί πολλή ανθρώπινη εργασία και υπολογιστικούς πόρους. Η DeepSeek προτείνει ένα σύστημα όπου ο υποκείμενος «κριτής» έρχεται με το δικό του σύνολο κριτικών και αρχών για ένα μοντέλο AI καθώς ετοιμάζει μια απάντηση σε ερωτήματα χρηστών.
Αυτό το σύνολο κριτικών και αρχών συγκρίνεται στη συνέχεια με τους στατικούς κανόνες που βρίσκονται στην καρδιά ενός AI μοντέλου και το επιθυμητό αποτέλεσμα. Εάν υπάρχει υψηλός βαθμός ταύτισης, δημιουργείται ένα σήμα ανταμοιβής, το οποίο ουσιαστικά καθοδηγεί την AI να αποδώσει ακόμη καλύτερα στον επόμενο κύκλο.
Οι ειδικοί πίσω από το έγγραφο αναφέρονται στην επόμενη γενιά αυτοβελτιούμενων AI μοντέλων ως DeepSeek-GRM. Τα benchmarks που παρατίθενται στο έγγραφο υποδηλώνουν ότι αυτά τα μοντέλα αποδίδουν καλύτερα από τα μοντέλα Gemini της Google, Llama της Meta και GPT-4o της OpenAI. Η DeepSeek αναφέρει ότι αυτά τα AI μοντέλα επόμενης γενιάς θα κυκλοφορήσουν ως open source..
Το ζήτημα της AI που μπορεί να αυτοβελτιωθεί έχει προσελκύσει κάποια φιλόδοξα και αμφιλεγόμενα σχόλια. Ο πρώην CEO της Google, Eric Schmidt, υποστήριξε ότι ίσως χρειαζόμαστε έναν διακόπτη θανάτου για τέτοια συστήματα. «Όταν το σύστημα μπορεί να αυτοβελτιωθεί, πρέπει να σκεφτούμε σοβαρά να το αποσυνδέσουμε από την πρίζα», ανέφερε ο Schmidt σύμφωνα με το Fortune.
Η ιδέα μιας αναδρομικά αυτοβελτιούμενης τεχνητής νοημοσύνης δεν είναι ακριβώς καινούργια. Η ιδέα μιας υπερ-ευφυούς μηχανής, η οποία στη συνέχεια είναι ικανή να δημιουργεί ακόμη καλύτερες μηχανές, χρονολογείται από τον μαθηματικό I.J. Good το 1965. Το 2007, ο ειδικός σε θέματα AI, Eliezer Yudkowsky, έκανε την υπόθεση για την Seed AI, μια AI «σχεδιασμένη για αυτοκατανόηση, αυτο-τροποποίηση και αναδρομική αυτοβελτίωση».
Το 2024, η ιαπωνική Sakana AI περιέγραψε λεπτομερώς την έννοια ενός «AI Scientist» για ένα σύστημα ικανό να διανύσει ολόκληρο τον αγωγό μιας ερευνητικής εργασίας από την αρχή έως το τέλος. Σε μια ερευνητική εργασία που δημοσιεύθηκε τον Μάρτιο του τρέχοντος έτους, οι ειδικοί της Meta αποκάλυψαν αυτο-επιβραβευόμενα γλωσσικά μοντέλα, όπου η ίδια η Τεχνητή Νοημοσύνη ενεργεί ως κριτής για να παρέχει ανταμοιβές κατά τη διάρκεια της εκπαίδευσης.
Οι εσωτερικές δοκιμές της Meta στο AI μοντέλο Llama 2 που χρησιμοποίησε τη νέα τεχνική αυτο-ανταμοιβής το είδαν να ξεπερνάει τους αντιπάλους του, όπως το Claude 2 της Anthropic, το Gemini Pro της Google και τα μοντέλα GPT-4 της OpenAI. Η Anthropic, που υποστηρίζεται από την Amazon, περιέγραψε λεπτομερώς αυτό που ονόμασε reward-tampering, μια απροσδόκητη διαδικασία «όπου ένα μοντέλο τροποποιεί άμεσα τον δικό του μηχανισμό ανταμοιβής».
Η Google δεν είναι πολύ πίσω στην ιδέα. Σε μια μελέτη που δημοσιεύθηκε στο περιοδικό Nature στις αρχές του μήνα, οι ειδικοί της Google DeepMind παρουσίασαν έναν αλγόριθμο τεχνητής νοημοσύνης που ονομάζεται Dreamer και μπορεί να αυτοβελτιωθεί, χρησιμοποιώντας το παιχνίδι Minecraft ως παράδειγμα άσκησης. Οι ειδικοί της IBM εργάζονται πάνω στη δική τους προσέγγιση που ονομάζεται εκπαίδευση με επαγωγικό κλείσιμο, όπου ένα AI μοντέλο χρησιμοποιεί τις δικές του απαντήσεις και τις αξιολογεί σε σχέση με τα δεδομένα εκπαίδευσης για να βελτιωθεί.
Δεν είναι όλα, όμως, ρόδινα. Οι έρευνες δείχνουν ότι όταν τα μοντέλα AI προσπαθούν να εκπαιδευτούν σε αυτοδημιούργητα συνθετικά δεδομένα, αυτό οδηγεί σε ελαττώματα που στην καθομιλουμένη είναι γνωστά ως «κατάρρευση του μοντέλου». Θα ήταν ενδιαφέρον να δούμε πώς ακριβώς η DeepSeek εκτελεί την ιδέα, και αν μπορεί να το κάνει με πιο λιτό τρόπο από τους αντιπάλους της από τη Δύση.
[via]