DeepSeek: Καχυποψία για το κόστος εκπαίδευσης, αλλά και δύο πολύ σημαντικά ατού

Το hardware που χρησιμοποιεί η DeepSeek για την εκπαίδευση του open source μοντέλου Τεχνητής Νοημοσύνης συνεχίζει να προκαλεί καχυποψία. Αν επιμείνουμε στις πληροφορίες που δημοσιοποίησε αυτή η κινεζική εταιρεία, η υποδομή που χρησιμοποιείται για την εκπαίδευση του DeepSeek R1 συγκεντρώνει 2.048 τσιπ NVIDIA H800. Και η εκπαίδευση με 671 δισεκατομμύρια παραμέτρους έχει κοστίσει 5,6 εκατομμύρια δολάρια. Ωστόσο, ορισμένοι αναλυτές υποστηρίζουν ότι αυτά τα στοιχεία δεν αντικατοπτρίζουν την πραγματικότητα.

Στην πολύ καυστική αναφορά που εκπόνησε η SemiAnalysis υποστηρίζεται ότι, στην πραγματικότητα, η υποδομή που χρησιμοποιείται από τη DeepSeek για την εκπαίδευση του μοντέλου AI απασχολούνται περίπου 50.000 GPUs της NVIDIA με μικροαρχιτεκτονική Hopper. Σύμφωνα με τους Dylan Patel, AJ Kourabi, Doug O'Laughlin και Reyk Knuhtsen, τουλάχιστον 10.000 από αυτά τα τσιπ είναι NVIDIA GPUH100 και τουλάχιστον άλλα 10.000 είναι GPU H800. Τα υπόλοιπα τσιπ, σύμφωνα με αυτούς τους αναλυτές, είναι οι H20 cropped GPUs.

Αν έχουν δίκιο, το πραγματικό κόστος της εκπαίδευσης του DeepSeek R1 θα πρέπει να είναι πολύ υψηλότερο. Ο Patel και οι συνεργάτες του διαβεβαιώνουν ότι η συνολική επένδυση που πραγματοποίησε η κινεζική εταιρεία σε διακομιστές ανέρχεται σε περίπου 1,6 δισεκατομμύρια δολάρια. Αυτή η υποδομή είναι κατανεμημένη σε διάφορες τοποθεσίες και δεν χρησιμοποιείται μόνο για την εκπαίδευση AI μοντέλων, αλλά και για έρευνα και χρηματοοικονομική μοντελοποίηση, σύμφωνα πάντα με την SemiAnalysis.

Όπως και να έχει, η DeepSeek έχει δύο πολύ σημαντικά πλεονεκτήματα υπέρ της που αξίζει να μην παραβλέψουμε. Το πρώτο από αυτά είναι ότι, όπως μόλις είδαμε, λειτουργεί τη δική της υποδομή επεξεργασίας. Άλλες αναδυόμενες εταιρείες που έχουν παρόμοια στόχευση αναγκάζονται να καταφεύγουν στις φάρμες μεγάλων παρόχων υπηρεσιών cloud. Η κατοχή του δικού της hardware επιτρέπει στην DeepSeek να είναι πολύ αποτελεσματική κατά τη διαδικασία ανάπτυξης και βελτιστοποίησης των AI μοντέλων της.

Το δεύτερο ατού της είναι η στρατηγική απόκτησης ταλέντων. Και μάλιστα είναι ότι η DeepSeek προσλαμβάνει μηχανικούς αποκλειστικά εντός της ηπειρωτικής Κίνας και δεν τους αναζητά στις ΗΠΑ ή την Ταϊβάν, όπως κάνουν άλλες παρόμοιες κινεζικές εταιρείες. Επιπλέον, πληρώνει πολύ καλά με τις πληροφορίες να κάνουν λόγο για περισσότερα από 1,3 εκατομμύρια δολάρια ετησίως στους καλύτερους ερευνητές της. Αυτή η στρατηγική που επικεντρώνεται στην απόκτηση ταλέντων επέτρεψε στην DeepSeek να υλοποιήσει σημαντικές καινοτομίες στον τομέα της Τεχνητής Νοημοσύνης και να δώσει προτεραιότητα στην αποτελεσματικότητα έναντι της ωμής βελτίωσης.

Επιπλέον, και αυτό είναι επίσης σημαντικό να μην το παραβλέψουμε, η DeepSeek δεν εξαρτάται πλήρως από το hardware της NVIDIA. Οι AI GPU που αναπτύσσονται από τη Huawei, όπως τα τσιπ Ascend 910C, αποδεικνύονται πολύ αποτελεσματικές στις διαδικασίες εξαγωγής συμπερασμάτων. Η εξαγωγή συμπερασμάτων είναι, σε γενικές γραμμές, η υπολογιστική διαδικασία που πραγματοποιείται από τα γλωσσικά μοντέλα με σκοπό τη δημιουργία των απαντήσεων που αντιστοιχούν στα αιτήματα που λαμβάνουν.

[via]