Η DeepSeek λανσάρει το Janus Pro 7B για να ανταγωνιστεί το DALL-E της OpenAI

Η DeepSeek λανσάρει το Janus Pro 7B για να ανταγωνιστεί το DALL-E της OpenAI

SHARE IT

28 Ιανουαρίου 2025

Το DeepSeek έκανε θόρυβο στο διαδίκτυο μετά την εμφάνιση φημών που ισχυρίζονται ότι ξεπερνά τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης στον κόσμο. Παραδόξως, η DeepSeek πλήρωσε λιγότερα από 6 εκατομμύρια δολάρια για να εκπαιδεύσει τα μοντέλα τεχνητής νοημοσύνης της, ενώ η OpenAI δέσμευσε 100 εκατομμύρια δολάρια. Αυτό είχε ως αποτέλεσμα το DeepSeek να γίνει η νούμερο ένα δωρεάν εφαρμογή στο App Store, καθώς και μια άνευ προηγουμένου εξουδετέρωση της κεφαλαιοποίησης της NVIDIA στις Ηνωμένες Πολιτείες, η οποία ξεπέρασε τα 400 δισεκατομμύρια δολάρια. Το AI chatbot είχε συντριπτική επισκεψιμότητα, με αποτέλεσμα να υπάρξουν διακοπές του διακομιστή DeepSeek και προβλήματα απόδοσης, ενώ η εταιρεία κατηγόρησε επίσης μια κυβερνοεπίθεση.

Παρά τα εμπόδια αυτά, το κινεζικό εργαστήριο τεχνητής νοημοσύνης σημείωσε σημαντική πρόοδο, παρουσιάζοντας το Janus-Pro, ένα πρωτοποριακό μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα. Το νέο μοντέλο δημιουργεί ήδη πρωτοσέλιδα, καθώς οι αναφορές δείχνουν ότι ξεπερνά το DALL-E του OpenAI, το Stable Diffusion του Stability AI και άλλα μοντέλα παραγωγής εικόνων σε διάφορα benchmarks.

Το Janus-Pro είναι μια αναβάθμιση του Janus, το οποίο κυκλοφόρησε στα τέλη του περασμένου έτους. Το Janus-Pro είναι διαθέσιμο σε διάφορα μεγέθη, από τη μικροσκοπική έκδοση με 1 δισεκατομμύριο παραμέτρους έως την έκδοση με 7 δισεκατομμύρια παραμέτρους, η οποία έχει περίπου το μέγεθος ενός SD 3.5L. Σύμφωνα με την DeepSeek, το μεγαλύτερο μοντέλο, Janus-Pro-7B, έχει καλύτερες επιδόσεις από τους κορυφαίους ανταγωνιστές PixArt-alpha, Emu3-Gen και SDXL στα βιομηχανικά benchmarks GenEval και DPG-Bench. Το Huggingface, ένας διακεκριμένος ιστότοπος τεχνητής νοημοσύνης και μηχανικής μάθησης, προσφέρει δωρεάν λήψη του μοντέλου Janus-Pro-7B.

Το Janus-Pro-7B βασίζεται σε ένα αυτοπαλίνδρομο πλαίσιο που διαχωρίζει τις διαδικασίες οπτικής κωδικοποίησης, διατηρώντας παράλληλα μια ενιαία αρχιτεκτονική μετασχηματιστή για την επεξεργασία. Αυτό «όχι μόνο αμβλύνει τη σύγκρουση μεταξύ των ρόλων του οπτικού κωδικοποιητή στην κατανόηση και την παραγωγή, αλλά και ενισχύει την ευελιξία του πλαισίου». Ενώ το Janus-Pro ξεπερνά τους ανταγωνιστές του σε πολλές εργασίες, δεν ξεπερνά τα εξειδικευμένα μοντέλα που έχουν σχεδιαστεί για συγκεκριμένες διαδικασίες.

Αυτό το νέο μοντέλο δημιουργίας εικόνων ακολουθεί την προηγούμενη επιτυχία της DeepSeek με το γλωσσικό μοντέλο R1, το οποίο αμφισβητεί τις δυνάμεις του GPT-4 σε ένα κλάσμα του κόστους. Το χαμηλό κόστος ανάπτυξης αυτών των προηγμένων μοντέλων προκάλεσε σοκ στη βιομηχανία τεχνητής νοημοσύνης των ΗΠΑ.

Δες τα όλα