Gemma 3: Το νέο AI μοντέλο της Google που τρέχει άνετα σε ένα smartphone

Οι δραστηριότητες της Google στον τομέα της Τεχνητής Νοημοσύνης είναι συνώνυμες με το Gemini, το οποίο έχει γίνει πλέον αναπόσπαστο στοιχείο των πιο δημοφιλών προϊόντων της σε όλο το φάσμα του Worksuite. Ωστόσο, η εταιρεία έχει επίσης κυκλοφορήσει πολλαπλά μοντέλα τεχνητής νοημοσύνης ανοικτού κώδικα υπό την ονομασία Gemma εδώ και πάνω από ένα χρόνο.

Σήμερα, η Google αποκαλύπτει την τρίτη γενιά μοντέλων AI ανοιχτού κώδικα με εντυπωσιακούς ισχυρισμούς στο ενεργητικό της. Τα μοντέλα Gemma 3 έρχονται σε τέσσερις παραλλαγές - 1 δισεκατομμύριο, 4 δισεκατομμύρια, 12 δισεκατομμύρια και 27 δισεκατομμύρια παράμετροι - και έχουν σχεδιαστεί για να τρέχουν σε συσκευές που κυμαίνονται από smartphones έως ισχυρά workstations.

Η Google υποστηρίζει ότι το Gemma 3 είναι το καλύτερο single-accelerator μοντέλο στον κόσμο, πράγμα που σημαίνει ότι μπορεί να τρέξει σε μία μόνο GPU ή TPU αντί να απαιτεί ένα ολόκληρο cluster. Θεωρητικά, αυτό σημαίνει ότι ένα μοντέλο AI Gemma 3 μπορεί να τρέξει εγγενώς στη μονάδα Tensor Processing Core (TPU) του Pixel smartphone, όπως ακριβώς τρέχει το μοντέλο Gemini Nano τοπικά στα τηλέφωνα.

Το μεγαλύτερο πλεονέκτημα του Gemma 3 σε σχέση με την οικογένεια μοντέλων τεχνητής νοημοσύνης Gemini είναι ότι, δεδομένου ότι είναι ανοικτού κώδικα, οι προγραμματιστές μπορούν να το συσκευάσουν και να το παραδώσουν σύμφωνα με τις μοναδικές απαιτήσεις τους μέσα σε εφαρμογές κινητών τηλεφώνων και λογισμικό γραφείου. Ένα άλλο κρίσιμο πλεονέκτημα είναι ότι το Gemma υποστηρίζει πάνω από 140 γλώσσες, με 35 από αυτές να έρχονται ως μέρος ενός πακέτου προεκπαίδευσης. Και όπως και τα τελευταία μοντέλα της σειράς Gemini 2.0, το Gemma 3 είναι επίσης ικανό να κατανοεί κείμενο, εικόνες και βίντεο.

Από πλευράς επιδόσεων, το Gemma 3 υποστηρίζεται ότι ξεπερνά άλλα δημοφιλή μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα, όπως το DeepSeek V3, το έτοιμο για συλλογισμό OpenAI o3-mini και την παραλλαγή Llama-405B της Meta.

Όσον αφορά το εύρος εισόδου, το Gemma 3 προσφέρει ένα παράθυρο πλαισίου αξίας 128.000 tokens. Αυτό είναι αρκετό για να καλύψει ένα πλήρες βιβλίο 200 σελίδων που προωθείται ως είσοδος. Για σύγκριση, το παράθυρο πλαισίου για το μοντέλο Gemini 2.0 Flash Lite της Google ανέρχεται σε ένα εκατομμύριο tokens. Στο πλαίσιο των μοντέλων τεχνητής νοημοσύνης, μια μέση λέξη της αγγλικής γλώσσας ισοδυναμεί περίπου με 1,3 tokens.

Το Gemma 3 υποστηρίζει επίσης την κλήση συναρτήσεων και τη δομημένη έξοδο, πράγμα που ουσιαστικά σημαίνει ότι μπορεί να αλληλεπιδράσει με εξωτερικά σύνολα δεδομένων και να εκτελέσει εργασίες όπως ένας αυτοματοποιημένος πράκτορας. Η πλησιέστερη αναλογία θα ήταν το Gemini και το πώς μπορεί να κάνει εργασίες σε διαφορετικές πλατφόρμες, όπως το Gmail ή το Docs, απρόσκοπτα.

Τα τελευταία μοντέλα AI ανοιχτού κώδικα της Google μπορούν να αναπτυχθούν είτε τοπικά, είτε μέσω των cloud-based πλατφορμών της εταιρείας, όπως η σουίτα Vertex AI. Τα μοντέλα AI Gemma 3 είναι πλέον διαθέσιμα μέσω του Google AI Studio, καθώς και σε αποθετήρια τρίτων, όπως το Hugging Face, το Ollama και το Kaggle.

Το Gemma 3 αποτελεί μέρος μιας τάσης του κλάδου, όπου οι εταιρείες εργάζονται σε μεγάλα γλωσσικά μοντέλα (Gemini, στην περίπτωση της Google) και ταυτόχρονα προωθούν και μικρά γλωσσικά μοντέλα (SLM). Η Microsoft ακολουθεί επίσης παρόμοια στρατηγική με τη σειρά μικρών γλωσσικών μοντέλων ανοικτού κώδικα Phi.

Τα μικρά γλωσσικά μοντέλα, όπως το Gemma και το Phi, είναι εξαιρετικά αποδοτικά ως προς τους πόρους, γεγονός που τα καθιστά ιδανική επιλογή για εκτέλεση σε συσκευές όπως τα smartphones. Παράλληλα, καθώς προσφέρουν χαμηλότερη καθυστέρηση, είναι ιδιαίτερα κατάλληλα για κινητές εφαρμογές.

[via]