Μια από τις κορυφαίες εταιρείες Τεχνητής Νοημοσύνης στην Ευρώπη, η Mistral AI, παρουσίασε ένα νέο μοντέλο με την ονομασία Mistral Small 3. Πρόκειται για ένα μοντέλο με 24 δισεκατομμύρια παραμέτρους, αλλά είναι ισάξιο με μεγαλύτερα μοντέλα όπως το Llama 3.3 70B και το Qwen 32B (τουλάχιστον στο benchmark MMLU-Pro). Όχι μόνο λειτουργεί στο ίδιο επίπεδο με το Llama 3.3 70B, αλλά είναι και πιο γρήγορο.
Το πιο συχνά χρησιμοποιούμενο μοντέλο στο ChatGPT είναι το GPT-4o mini, το εφεδρικό μοντέλο όταν οι χρήστες ξεμένουν από αιτήσεις για το GPT-4o. Το Mistral Small 3 παρουσιάζει καλύτερες επιδόσεις από αυτό το μοντέλο της OpenAI και λέγεται επίσης ότι εμφανίζει χαμηλότερη καθυστέρηση.
Κυκλοφορούμε τόσο ένα pretrained όσο και ένα instruction-tuned checkpoint κάτω από το Apache 2.0. Τα σημεία ελέγχου μπορούν να χρησιμεύσουν ως μια ισχυρή βάση για την επιτάχυνση της προόδου. Σημειώστε ότι το Mistral Small 3 δεν έχει εκπαιδευτεί ούτε με RL ούτε με συνθετικά δεδομένα, οπότε βρίσκεται νωρίτερα στον αγωγό παραγωγής μοντέλων από μοντέλα όπως το Deepseek R1 (ένα σπουδαίο και συμπληρωματικό κομμάτι τεχνολογίας ανοιχτού κώδικα!). Μπορεί να χρησιμεύσει ως ένα εξαιρετικό μοντέλο βάσης για την οικοδόμηση συσσωρευμένων ικανοτήτων συλλογιστικής. Ανυπομονούμε να δούμε πώς θα το υιοθετήσει και θα το προσαρμόσει η κοινότητα ανοικτού κώδικα.
Ως μικρότερο μοντέλο, είναι δυνατό να το τρέξετε τοπικά στον υπολογιστή σας, αν έχετε υψηλότερες προδιαγραφές hardware. Η Mistral AI δήλωσε ότι μπορεί να εκτελεστεί σε μία μόνο κάρτα γραφικών Nvidia RTX 4090 ή σε ένα MacBook με 32 GB μνήμης RAM.
Παρόλο που το μοντέλο τα πήγε καλύτερα έναντι των άλλων προαναφερθέντων μοντέλων στο σημείο αναφοράς MMLU-Pro, δεν αποτελεί πάντα την προτιμώμενη επιλογή των ανθρώπων που το αξιολογούν. Η Mistral συνέκρινε το μοντέλο της με άλλα μοντέλα σε ένα σύνολο από πάνω από 1k ιδιόκτητες προτροπές κωδικοποίησης και γενικών προτροπών. Διαπίστωσε ότι το Mistral Small 3 ήταν η προτιμώμενη επιλογή σε σύγκριση με τα Gemma-2 27B και Qwen-32B, αλλά ήταν λιγότερο προτιμώμενο σε σύγκριση με τα Llama 3.3 70B και GPT-4o mini.
Το Mistral Small 3 είναι τώρα διαθέσιμο στο la Plateforme ως mistral-small-latest ή mistral-small-2501.
[via]