Η Google παρουσιάζει το Gemini, το μεγαλύτερο και πιο ικανό μοντέλο AI της

SHARE IT

07 Δεκεμβρίου 2023

Η Google ανακοίνωσε το Gemini 1.0, το επόμενης γενιάς θεμελιώδες μοντέλο της, το οποίο είχε προαναγγελθεί στο I/O 2023 τον Μάιο, και το καθιστά διαθέσιμο μέσω της Bard. Το Gemini είναι το "πιο ικανό και γενικό μοντέλο" της Google, με δυνατότητα κατανόησης, λειτουργίας σε κείμενο, κώδικα, ήχο, φωτογραφίες και βίντεο και συνδυασμού αυτών. Το γεγονός ότι είναι "εγγενώς πολυτροπικό" προσφέρει βελτιωμένη κατανόηση, συλλογισμό και ικανότητα κωδικοποίησης.

Η παρούσα μέθοδος για την ανάπτυξη πολυτροπικών μοντέλων συνίσταται στην "εκπαίδευση ξεχωριστών συστατικών για διαφορετικές μορφές και στη συνέχεια στη συρραφή τους". Ενώ αυτά τα μοντέλα υπερέχουν σε ορισμένες εργασίες, η Google ισχυρίζεται ότι "δυσκολεύονται με πιο εννοιολογική και σύνθετη συλλογιστική". Η Google "προ-εκπαιδεύτηκε από την αρχή σε διαφορετικές λειτουργίες" για το Gemini χρησιμοποιώντας τις TPU 4 και TPU v5e. Η Google παρουσίασε επίσης σήμερα την TPU v5p (εικόνα παρακάτω) ως τον "πιο ισχυρό, αποδοτικό και κλιμακούμενο" επιταχυντή AI, που απευθύνεται ειδικά για προηγμένα μοντέλα.

Η Google έδειξε ότι το Gemini αφομοιώνει 200.000 επιστημονικές ερευνητικές εργασίες, επιλέγει τις σχετικές και συνοψίζει τα αποτελέσματα σε περίπου μία ώρα, για να επιδείξει τις ικανότητές του σε "εξελιγμένη συλλογιστική". Μια άλλη σημαντική εστίαση είναι η κωδικοποίηση, με το Gemini να μπορεί να "κατανοεί, να εξηγεί και να παράγει κώδικα υψηλής ποιότητας" σε Python, Java, C++ και Go.

Το Gemini 1.0 είναι διαθέσιμο σε τρία μεγέθη που κυμαίνονται από κέντρα δεδομένων έως τηλέφωνα:

Gemini Ultra: Το πιο ισχυρό και ικανό μοντέλο για εξαιρετικά πολύπλοκες εργασίες.
Gemini Pro: Το καλύτερο μοντέλο για επεκτασιμότητα σε πολλές εργασίες.
Gemini Nano: Το πιο αποδοτικό μοντέλο στη συσκευή.

Όσον αφορά τις επιδόσεις, η Google απέδειξε ότι το Gemini Ultra ξεπέρασε το GPT-4 σε δοκιμασίες αναφοράς που βασίζονται σε κείμενο και αξιολογούν τη λογική, τα μαθηματικά και τον προγραμματισμό. Το Gemini Ultra είναι το "πρώτο μοντέλο που ξεπερνά τους ανθρώπινους εμπειρογνώμονες στο MMLU (massive multitask language understanding)" σε ποσοστό 90,0%, σύμφωνα με την επιχείρηση. Αυτό το πρότυπο "χρησιμοποιεί έναν συνδυασμό 57 θεμάτων, όπως μαθηματικά, φυσική, ιστορία, δίκαιο, ιατρική και ηθική, για τον έλεγχο τόσο της γνώσης του κόσμου όσο και των ικανοτήτων επίλυσης προβλημάτων", με το προϊόν της OpenAI να λαμβάνει 86,4%.

Στο πολυτροπικό μέτωπο, ο Gemini Ultra ξεπερνά τον GPT-4V σε δοκιμές εικόνας, βίντεο και ήχου και η Google DeepMind έχει συντάξει μια τεχνική έκθεση με περισσότερες λεπτομέρειες. Το Gemini Ultra ξεπέρασε τα προηγούμενα μοντέλα τελευταίας τεχνολογίας στα σημεία αναφοράς εικόνων που δοκιμάσαμε, ακόμη και χωρίς τη βοήθεια συστημάτων αναγνώρισης χαρακτήρων αντικειμένων (OCR), τα οποία εξάγουν κείμενο από εικόνες για περαιτέρω επεξεργασία. Αυτά τα benchmarks αποδεικνύουν τη φυσική πολυτροπικότητα του Gemini και τις πρώτες ενδείξεις της πιο περίπλοκης ικανότητας συλλογισμού του Gemini.

Ο Gemini δηλώνεται ότι διαθέτει "τις πιο ολοκληρωμένες αξιολογήσεις ασφάλειας από οποιοδήποτε μοντέλο ΤΝ της Google μέχρι σήμερα", με νέες διασφαλίσεις που έχουν τεθεί σε εφαρμογή για να ληφθούν υπόψη οι πολυτροπικές δυνατότητες. Η Google εργάζεται σκληρά για την καταπολέμηση της προκατάληψης και της εχθρότητας.

Η πρώτη μέθοδος για να αποκτήσετε μια αίσθηση αυτού του νέου βασικού παραδείγματος είναι να παίξετε το "Bard with Gemini Pro". Αυτή η "ειδικά ρυθμισμένη έκδοση" του Gemini Pro, η οποία είναι επί του παρόντος διαθέσιμη, παρέχει πιο προηγμένη σκέψη, σχεδιασμό και γραφή, καθώς και κατανόηση και περίληψη περιεχομένου. Η Google τόνισε συγκεκριμένα ότι η απόδοση ξεπερνά το GPT 3.5 (σε έξι από τα οκτώ συγκριτικά κριτήρια, συμπεριλαμβανομένων των MMLU και GSM8K) και ότι παρέχει τη μεγαλύτερη αύξηση της ποιότητας του Bard από την κυκλοφορία του.

Το Bard είναι πλέον το πιο προτιμώμενο δωρεάν chatbot σε σύγκριση με εξέχουσες εναλλακτικές λύσεις σε τυφλές αξιολογήσεις με τους αξιολογητές μας από τρίτους. Το Bard με το Gemini Pro είναι τώρα διαθέσιμο στα αγγλικά για 170 χώρες/περιοχές, ενώ το Ηνωμένο Βασίλειο και η Ευρώπη θα ακολουθήσουν "στο εγγύς μέλλον". Το Gemini Pro θα τροφοδοτήσει πρώτα τις προτροπές που βασίζονται σε κείμενο, ενώ η υποστήριξη για "άλλες μορφές θα έρθει σύντομα".

Εν τω μεταξύ, το Gemini Ultra θα κυκλοφορήσει στις αρχές του επόμενου έτους. Η Google επί του παρόντος "ολοκληρώνει εκτεταμένους ελέγχους εμπιστοσύνης και ασφάλειας", καθώς και βελτιώσεις του μοντέλου, προτού το διαθέσει ευρύτερα σε προγραμματιστές και εταιρικούς πελάτες. Θα διατεθεί μέσω μιας νέας επιλογής "Bard Advanced", την οποία η Google διαφημίζει ότι επιτρέπει την πρώιμη πρόσβαση στα πιο προηγμένα μοντέλα και τις δυνατότητές της, όπως το Gemini Ultra.

Το Gemini θα είναι διαθέσιμο στο Google Search, το Chrome, το Duet AI και τις διαφημίσεις τους επόμενους μήνες. Το Gemini έχει βρεθεί σε πρώιμες δοκιμές να μειώνει την καθυστέρηση SGE (Search Generative Experience) κατά 40%.

Δες τα όλα

Η Google παρουσιάζει το Gemini, το μεγαλύτερο και πιο ικανό μοντέλο AI της

Η Apple παρουσιάζει το ανανεωμένο Siri AI αλλά η Ευρώπη μένει στο περιθώριο

Πώς η γνωστική AI διαμορφώνει σιωπηλά την ανθρώπινη αυτονομία και την ιδιωτικότητα

Η Google επιστρατεύει την AI για την αποκωδικοποίηση της επιστημονικής ανακάλυψης