Το Gemma 3n προσφέρει ισχυρές AI δυνατότητες σε φορητές συσκευές

Το Gemma 3n προσφέρει ισχυρές AI δυνατότητες σε φορητές συσκευές

SHARE IT

03 Ιουλίου 2025

Η Google παρουσίασε επίσημα το Gemma 3n, το νεότερο μέλος της οικογένειας ανοιχτών μοντέλων τεχνητής νοημοσύνης, προσφέροντας μια ισχυρή νέα γενιά δυνατοτήτων τεχνητής νοημοσύνης που έχουν σχεδιαστεί ειδικά για κινητές συσκευές και συσκευές με περιορισμένους πόρους. Παρουσιάστηκε για πρώτη φορά σε ένα teaser κατά τη διάρκεια του Google I/O τον περασμένο μήνα, ενώ η πλήρης έκδοση είναι πλέον διαθέσιμη και περιλαμβάνει πολλές καινοτομίες που στοχεύουν στη δημοκρατικοποίηση της προηγμένης τεχνητής νοημοσύνης.

Σε αντίθεση με το Gemini, το κορυφαίο ιδιόκτητο μοντέλο τεχνητής νοημοσύνης της Google που λειτουργεί στο cloud και είναι προσβάσιμο κυρίως μέσω των δικών της εφαρμογών και υπηρεσιών, το Gemma είναι ανοιχτού κώδικα και έχει δημιουργηθεί για προγραμματιστές. Η σειρά Gemma προορίζεται για όσους θέλουν να κατεβάσουν, να τροποποιήσουν και να αναπτύξουν οι ίδιοι μοντέλα τεχνητής νοημοσύνης — και με το Gemma 3n, αυτή η εργασία έγινε πιο εφικτή για ένα πολύ ευρύτερο κοινό.

Αυτό που ξεχωρίζει το Gemma 3n από τους προκατόχους του είναι η πολυτροπική του ικανότητα — η δυνατότητα να επεξεργάζεται εγγενώς όχι μόνο κείμενο, αλλά και εικόνες, ήχο και βίντεο. Στη συνέχεια, παράγει απαντήσεις κειμένου με βάση αυτές τις εισόδους, ανοίγοντας το δρόμο για μια σειρά από νέες περιπτώσεις χρήσης σε συσκευές. Είτε δημιουργείτε μια εφαρμογή που χρειάζεται μεταγραφή φωνής σε πραγματικό χρόνο είτε έναν βοηθό για κινητά που μπορεί να αναλύει εικόνες, το Gemma 3n έχει σχεδιαστεί για να το χειριστεί — και να το κάνει χωρίς να χρειάζεται υψηλής τεχνολογίας υλικό.

Ένα από τα πιο εντυπωσιακά χαρακτηριστικά είναι το πόσο ελαφρύ είναι το μοντέλο. Το Gemma 3n διατίθεται σε δύο παραλλαγές: το E2B, με αποτελεσματική μνήμη 2 GB, και το E4B, που απαιτεί περίπου 3 GB. Παρά το γεγονός ότι έχουν ακατέργαστους αριθμούς παραμέτρων 5 δισεκατομμυρίων και 8 δισεκατομμυρίων αντίστοιχα, οι εσωτερικές αλλαγές στην αρχιτεκτονική επιτρέπουν στα μοντέλα να συμπεριφέρονται περισσότερο όπως τα παραδοσιακά μοντέλα παραμέτρων 2B και 4B. Αυτό σημαίνει ότι οι προγραμματιστές μπορούν να εκτελούν προηγμένα μοντέλα τεχνητής νοημοσύνης σε σχετικά μέτριες συσκευές, συμπεριλαμβανομένων των smartphone.

Η Google αποδίδει αυτές τις βελτιώσεις στην απόδοση σε μια νέα αρχιτεκτονική που ονομάζεται MatFormer. Η εταιρεία την περιγράφει χρησιμοποιώντας την αναλογία μιας κούκλας Matryoshka — ένα μοντέλο μέσα σε ένα μοντέλο — που επιτρέπει ευελιξία στην ανάπτυξη. Αυτός ο σχεδιασμός επιτρέπει στην τεχνητή νοημοσύνη να προσαρμόζει την απόδοσή της με βάση την εκάστοτε εργασία, εξοικονομώντας πόρους όταν χρειάζεται, αλλά και αυξάνοντας την κλίμακα για πιο σύνθετες λειτουργίες. Ως αποτέλεσμα, το μοντέλο E4B του Gemma 3n έγινε το πρώτο μοντέλο παραμέτρων κάτω των 10B που ξεπέρασε το όριο των 1300 πόντων στο benchmark LMArena, ένα ευρέως αναγνωρισμένο μέτρο απόδοσης AI.

Άλλες τεχνικές βελτιώσεις περιλαμβάνουν το Per Layer Embeddings (PLE) για πιο αποτελεσματική χρήση της μνήμης και ένα σύνολο νέων κωδικοποιητών που έχουν βελτιστοποιηθεί για κινητά σενάρια. Στον τομέα του ήχου, ένας επανασχεδιασμένος κωδικοποιητής παρέχει υψηλής ακρίβειας μετατροπή ομιλίας σε κείμενο και μετάφραση στην ίδια τη συσκευή, εξαλείφοντας την ανάγκη αποστολής δεδομένων στο cloud. Αυτό αποτελεί ένα σημαντικό βήμα προόδου για εφαρμογές που δίνουν έμφαση στην προστασία της ιδιωτικότητας. Παράλληλα, η επεξεργασία βίντεο επωφελείται από το MobileNet-V5, έναν νέο οπτικό κωδικοποιητή ικανό να χειρίζεται ροές βίντεο με ταχύτητα έως 60 καρέ ανά δευτερόλεπτο σε συσκευές όπως το Google Pixel.

Όσον αφορά τις γλωσσικές και λογικές δεξιότητες, το Gemma 3n προσφέρει εκτεταμένη υποστήριξη για 140 γλώσσες σε κείμενο και πολυτροπικές εργασίες σε 35 γλώσσες, καθιστώντας το ένα από τα πιο γλωσσικά περιεκτικά ανοιχτά μοντέλα της Google μέχρι σήμερα. Οι βελτιώσεις στη μαθηματική λογική, τη βοήθεια κωδικοποίησης και την επίλυση προβλημάτων αποτελούν επίσης μέρος της ενημέρωσης, ενισχύοντας τη φιλοδοξία της Google να δημιουργήσει ευέλικτα εργαλεία τεχνητής νοημοσύνης που μπορούν να χρησιμοποιήσουν προγραμματιστές σε όλο τον κόσμο.

Για τους προγραμματιστές που ανυπομονούν να ξεκινήσουν, το Gemma 3n είναι ήδη διαθέσιμο σε πολλές πλατφόρμες. Μπορείτε να εξερευνήσετε και να εκτελέσετε τα μοντέλα μέσω του Hugging Face, του Kaggle ή απευθείας στο Google AI Studio, καθιστώντας την πρόσβαση απλή, είτε εργάζεστε από έναν browser είτε ενσωματώνετε το μοντέλο σε μια γραμμή παραγωγής.

Τελικά, το Gemma 3n είναι ένα σαφές σημάδι της δέσμευσης της Google να κάνει την ισχυρή τεχνητή νοημοσύνη πιο προσβάσιμη. Εστιάζοντας στην αποδοτικότητα, την πολυτροπικότητα και την ανοιχτή ανάπτυξη, η Google ανταποκρίνεται στις ανάγκες μιας αναπτυσσόμενης κοινότητας προγραμματιστών που θέλει να δημιουργήσει έξυπνες, ανταποκρινόμενες και φιλικές προς την ιδιωτικότητα εφαρμογές που δεν εξαρτώνται από το cloud computing.

Καθώς οι κινητές συσκευές συνεχίζουν να γίνονται όλο και πιο ικανές, εργαλεία όπως το Gemma 3n είναι πιθανό να διαδραματίσουν κεντρικό ρόλο στη μετατόπιση της επεξεργασίας AI πιο κοντά στον χρήστη. Και ενώ το Gemini μπορεί να κυριαρχεί από άποψη απόλυτης ισχύος, είναι το Gemma 3n που φέρνει την πρωτοποριακή AI στην τσέπη σας — χωρίς να απαιτείται σύνδεση στο cloud.

Δες τα όλα