Η Meta παρουσιάζει το Voicebox, ένα νέο εργαλείο παραγωγικής Τεχνητής Νοημοσύνης

Η Meta παρουσιάζει το Voicebox, ένα νέο εργαλείο παραγωγικής Τεχνητής Νοημοσύνης

SHARE IT

19 Ιουνίου 2023

Χάθηκαν λίγο στο Meta, αλλά τις τελευταίες εβδομάδες έχουν αυξήσει σημαντικά τις προσπάθειές τους στον τομέα της τεχνητής νοημοσύνης. Πρόσφατα παρουσίασαν το MusicGen, την παραγωγική τεχνητή νοημοσύνη τους για την παραγωγή μουσικής, με μεγάλη επιτυχία από την κοινότητα του ανοιχτού κώδικα, η οποία αγκάλιασε το λανσάρισμα του μοντέλου LLaMA και το χρησιμοποίησε ως βάση για πολλά ανεξάρτητα έργα. Ένα άλλο εντυπωσιακό οπτικά έργο πρόκειται να ξεκινήσει. Voicebox είναι το όνομά του.

Το Voicebox παρουσιάστηκε από τους ερευνητές της Meta την περασμένη Παρασκευή, υποστηρίζοντας ότι είναι το πρώτο μοντέλο που είναι ικανό να γενικεύει εργασίες παραγωγής ομιλίας χωρίς να έχει διδαχθεί ειδικά γι' αυτές και να παράγει εξαιρετικά αποτελέσματα. και πετυχαίνει περισσότερα από ό,τι άλλα μοντέλα.

Κατ' αρχάς, το Voicebox δεν απαιτεί προηγούμενη εκπαίδευση- το μόνο που απαιτείται είναι ο χρήστης να γράψει μια πρόταση που επιθυμεί να του διαβαστεί, και το σύστημα θα παράγει στη συνέχεια μια ποικιλία από αληθοφανείς, αν και όχι εντελώς άψογες, συνθετικές φωνές στο ύφος της επιλογής του.

Η πιο "παραδοσιακή" λειτουργία είναι η δυνατότητα μίμησης της φωνής κάποιου άλλου για την εκφώνηση οποιασδήποτε πρότασης, και το Voicebox είναι σε θέση να κάνει ακριβώς αυτό. απλώς τοποθετήστε ένα μικρό ηχητικό απόσπασμα (για παράδειγμα, το δικό μας, το οποίο διαρκεί δύο δευτερόλεπτα) δίπλα στη γραπτή πρόταση που πρέπει να εκφωνηθεί, και το μοντέλο θα είναι σε θέση να παράγει τη φωνή για τη συγκεκριμένη πρόταση.

Τώρα μπορείτε να συνομιλήσετε σε μια ποικιλία γλωσσών. Ένα γραπτό κείμενο σε οποιαδήποτε γλώσσα και ένα ηχητικό κλιπ στη μητρική σας γλώσσα είναι επίσης επιλογές. προκειμένου να σπάσετε τα γλωσσικά εμπόδια σε διάφορες καταστάσεις, το Voicebox θα σας αναγκάσει να "πείτε" αυτή την πρόταση στη συγκεκριμένη γλώσσα σαν να ήταν η φυσική σας γλώσσα.

Απαλλαγείτε από το θόρυβο. Εάν ένας σκύλος γαβγίζει ενώ τραβάτε ένα βίντεο και δεν θέλετε να ακούγεται αυτό το γαβγίσματα ενώ μιλάτε, το Voicebox μπορεί επίσης να εντοπίσει και να αφαιρέσει αυτόν τον θόρυβο του περιβάλλοντος.

Τέλος, η ανάπτυξη Meta μπορεί επίσης να αλλάξει οποιαδήποτε λέξη δηλώσατε στο αρχικό ηχητικό κλιπ που καταγράψατε με τη φωνή σας και να εισαγάγει έναν νέο όρο που καθορίζεται στην προτροπή κειμένου. Για παράδειγμα, μπορείτε εύκολα να αλλάξετε τη φράση "Γεια σας παιδιά, σήμερα θα μιλήσουμε για την τεχνητή νοημοσύνη" σε "Κυρίες και κύριοι, σήμερα θα μιλήσουμε για την τεχνητή νοημοσύνη".

Οι μηχανικοί της Meta τροφοδότησαν το Voicebox με 50.000 ώρες ακουστικών βιβλίων στα αγγλικά και άλλες 60.000 ώρες ακουστικών βιβλίων σε άλλες γλώσσες για να το εκπαιδεύσουν. εξαιτίας αυτού, τα φωνητικά στα demo δεν υιοθετούν έναν πιο χαλαρό, συνομιλιακό ρυθμό και αντίθετα ακούγονται σαν να διαβάζουν από ένα βιβλίο. η ιδέα είναι ότι το μοντέλο εξελίσσεται προς αυτή την κατεύθυνση. για άλλη μια φορά, η Meta αδυνατεί να προσδιορίσει τα ακουστικά βιβλία που χρησιμοποιήθηκαν, αν και ένας εκπρόσωπος της εταιρείας δήλωσε στο Gizmodo ότι πρόκειται για "δημόσια" ακουστικά βιβλία.

Μπορούν να γίνουν αντιληπτά τα deepfakes. Παρόλο που αυτό το είδος συστήματος έχει ορισμένα αξιοσημείωτα οφέλη και πολλές χρήσιμες εφαρμογές, μπορεί επίσης να γίνει κατάχρηση για την παραγωγή deepfakes. επειδή επιτρέπουν τη χρήση ταυτότητας που υποδύεται την ταυτότητα σε απάτες κάθε είδους, η Meta έπρεπε να επιλέξει το Voicebox στη συγκεκριμένη περίπτωση.

Το λογισμικό δεν θα είναι ανοικτού κώδικα. Στη Meta, έχουν επιλέξει να μην δημοσιεύσουν τον πηγαίο κώδικα του Voicebox, σε αντίθεση με το LLaMA, το οποίο είναι Ανοιχτού Κώδικα και διανεμήθηκε στην ακαδημαϊκή κοινότητα. Η εταιρεία ισχυρίζεται ότι λόγω της κακής χρήσης, θα προτιμούσε να μην το καταστήσει προσβάσιμο στο ευρύ κοινό, προκειμένου να διεξάγει με υπευθυνότητα περαιτέρω έρευνα για την τεχνητή νοημοσύνη. ναι, το κάνουν για να διατηρήσουν την ανοιχτότητα σχετικά με την ανάπτυξη αυτού του τομέα.

Δες τα όλα