DeepSeek V3: Διαθέσιμο το νέο AI μοντέλο που τρέχει σε οικιακό υπολογιστή

Η κινεζική DeepSeek επιστρέφει στο προσκήνιο με το νέο μεγάλο γλωσσικό μοντέλο της, το DeepSeek-V3-0324. Το μοντέλο μεγέθους 641 gigabyte κυκλοφόρησε στην πλατφόρμα AI Hugging Face με ελάχιστη προαναγγελία, σύμφωνα με την πρακτική της εταιρείας για συγκρατημένες παρουσιάσεις προϊόντων.

Το μοντέλο είναι μοναδικό ως προς την άδεια χρήσης που επιτρέπει την ελεύθερη εμπορική χρήση. Τα πρώτα benchmarks δείχνουν ότι το DeepSeek-V3-0324 είναι ικανό να τρέξει σε εμπορικά διαθέσιμο hardware, όπως το Mac Studio της Apple με τον επεξεργαστή M3 Ultra. Ο επιστήμονας του τομέα της Τεχνητής Νοημοσύνης Awni Hannun ανέφερε ότι είναι εφικτό να επιτευχθεί ταχύτητα επεξεργασίας πάνω από 20 tokens ανά δευτερόλεπτο χρησιμοποιώντας αυτή τη ρύθμιση. Αυτή η δυνατότητα εκτέλεσης ενός μεγάλου γλωσσικού μοντέλου σε τοπικό έτοιμο hardware είναι το ακριβώς αντίθετο του συμβατικού τρόπου χρήσης των άλλων AI μοντέλων που απαιτούν τεράστιες υποδομές κέντρων δεδομένων για την υποστήριξη AI μοντέλων  υψηλών προδιαγραφών.

Σύμφωνα με την DeepSeek, οι πρώτες δοκιμές έχουν δείξει σημαντική βελτίωση σε σχέση με τις προηγούμενες εκδόσεις. Το μοντέλο έχει δοκιμαστεί αυστηρά από τους εσωτερικούς ενδιαφερόμενους και έχει εξαιρετική απόδοση, ξεπερνώντας ενδεχομένως όλα τα άλλα ανταγωνιστικά μοντέλα και ξεπερνώντας ακόμη και το Claude Sonnet 3.5 της Anthropic σε μη λογικές εργασίες. Ωστόσο, σε αντίθεση με τα συνδρομητικά μοντέλα τύπου Sonnet, το DeepSeek-V3-0324 είναι ελεύθερο να το κατεβάσετε και να το χρησιμοποιήσετε.

Τεχνικά, το μοντέλο είναι μια αρχιτεκτονική μίξης εμπειρογνωμόνων (MoE). Χρησιμοποιεί επιλεκτικά περίπου 37 δισεκατομμύρια από τις 685 δισεκατομμύρια παραμέτρους του ανά εργασία, ενθαρρύνοντας την αποδοτικότητα με τη μείωση των υπολογιστικών αναγκών, διατηρώντας παράλληλα την απόδοση. Το μοντέλο χρησιμοποιεί επίσης τεχνολογίες Multi-Head Latent Attention (MLA) και Multi-Token Prediction (MTP), οι οποίες συμβάλλουν στη βελτιωμένη διατήρηση συμφραζομένων και στην ταχύτερη ταχύτητα εξόδου.

Η πρόσβαση στο μοντέλο μπορεί να γίνει μέσω του Hugging Face, του API και της διεπαφής συνομιλίας του OpenRouter και της πλατφόρμας συνομιλίας της DeepSeek, εάν είναι επιθυμητό. Ο πάροχος συμπερασμάτων Hyperbolic Labs προσφέρει επίσης πρόσβαση στο μοντέλο.

Loading