Η Voice Engine του OpenAI κλωνοποιεί τη φωνή σας ακούγοντας μόνο ένα δείγμα 15 δευτερολέπτων

SHARE IT

01 Απριλίου 2024

Το OpenAI αντιμετωπίζει ένα μεγάλο δίλημμα. Η εταιρεία ανησυχεί για την πιθανή εκμετάλλευση του εξελιγμένου μοντέλου τεχνητής νοημοσύνης της για κλωνοποίηση φωνής λόγω των υψηλών επιδόσεών της. Αυτός είναι ο λόγος για τον οποίο η OpenAI διστάζει να μοιραστεί το μοντέλο με το κοινό. Η επιχείρηση έδειξε απλώς μια προεπισκόπηση του μοντέλου Voice Engine, επιδεικνύοντας τις δυνατότητές του. Και είναι πραγματικά εκπληκτικό.

Τα βασικά στοιχεία της τεχνολογίας κλωνοποίησης φωνής με βάση την τεχνητή νοημοσύνη είναι μάλλον βασικά. Το μοντέλο απαιτεί μόνο δύο εισόδους: ένα ηχητικό δείγμα της αρχικής φωνής και το κείμενο που πρόκειται να διαβάσει η συνθετική φωνή. Τροφοδοτήστε το εργαλείο με αρκετά δείγματα και το αποτέλεσμα θα πρέπει να ακούγεται αρκετά ρεαλιστικό. Εδώ είναι που τα πράγματα γίνονται συναρπαστικά και λίγο επικίνδυνα. Σε αντίθεση με άλλα μοντέλα που είναι ήδη δημόσια διαθέσιμα, το Voice Engine απαιτεί μόνο 15 δευτερόλεπτα ήχου από τον αρχικό ομιλητή. Παρά την περιορισμένη είσοδο, οι εκφράσεις της φωνής είναι εξαιρετικά αληθοφανείς.

Αυτός ακριβώς είναι ο λόγος για τον οποίο το OpenAI παίρνει το χρόνο του για να αποφασίσει τι θα κάνει στη συνέχεια, επικαλούμενο τη δέσμευσή του να δημιουργήσει ασφαλή και ευρέως ωφέλιμη τεχνητή νοημοσύνη. Κακόβουλοι φορείς ενδέχεται να χρησιμοποιήσουν αυτό το σπουδαίο εργαλείο για τη διάδοση παραπληροφόρησης.

Το Voice Engine αναπτύχθηκε αρχικά στα τέλη του 2022. Έκτοτε, τροφοδοτεί τις προκαθορισμένες φωνές του API μετατροπής κειμένου σε ομιλία, καθώς και τις φωνές ChatGPT Voice και Read Aloud. Στα τέλη του περασμένου έτους, η OpenAI άρχισε να δοκιμάζει αθόρυβα τις δυνατότητες κλωνοποίησης φωνής της με ένα επιλεγμένο σύνολο αξιόπιστων συνεργατών. Η επιχείρηση ισχυρίζεται ότι έχει εντυπωσιαστεί με τις εφαρμογές που αναπτύχθηκαν από αυτή την ομάδα.

Ένας από τους σκοπούς αυτών των δοκιμών είναι να προσδιοριστεί ο τρόπος με τον οποίο οι άνθρωποι και οι διάφοροι τομείς μπορούν να επωφεληθούν από αυτές. Η άλλη αιτία είναι να εντοπιστεί η πιθανότητα για κατάχρησή του και να αποφασιστούν τα μέτρα που πρέπει να ληφθούν.

Ταυτόχρονα, υιοθετούμε μια προσεκτική και τεκμηριωμένη προσέγγιση για μια ευρύτερη απελευθέρωση λόγω της πιθανότητας κατάχρησης της συνθετικής φωνής. Ελπίζουμε να ξεκινήσουμε έναν διάλογο σχετικά με την υπεύθυνη ανάπτυξη των συνθετικών φωνών και τον τρόπο με τον οποίο η κοινωνία μπορεί να προσαρμοστεί σε αυτές τις νέες δυνατότητες. Με βάση αυτές τις συζητήσεις και τα αποτελέσματα αυτών των δοκιμών μικρής κλίμακας, θα λάβουμε μια πιο τεκμηριωμένη απόφαση σχετικά με το αν και πώς θα αναπτύξουμε αυτή την τεχνολογία σε κλίμακα.

Το OpenAI υποστηρίζει πολιτικές και αντίμετρα για την αποτροπή της κακής χρήσης της τεχνολογίας καθώς αυτή γίνεται ευρύτερα διαθέσιμη. Για παράδειγμα, οι αυθεντικοί ομιλητές θα πρέπει να παρέχουν πρόθυμα τις φωνές τους στην υπηρεσία και η υπηρεσία θα πρέπει να είναι σε θέση να το επαληθεύει αυτό. Επιπλέον, οι υπηρεσίες θα πρέπει να περιλαμβάνουν μια "λίστα απαγόρευσης" διασημοτήτων, πολιτικών και άλλων σημαντικών προσώπων των οποίων η αναδημιουργία φωνής δεν επιτρέπεται.

Η παρουσίαση του Voice Engine θα πρέπει να εμπνεύσει τη δημόσια συζήτηση. Η εταιρεία προτείνει τις ακόλουθες διαδικασίες για τον μετριασμό τυχόν προβλημάτων:

Σταδιακή κατάργηση του φωνητικού ελέγχου ταυτότητας ως μέτρου ασφαλείας για την πρόσβαση σε τραπεζικούς λογαριασμούς και άλλες ευαίσθητες πληροφορίες
Διερεύνηση πολιτικών για την προστασία της χρήσης των φωνών των ατόμων στην τεχνητή νοημοσύνη
Εκπαίδευση του κοινού για την κατανόηση των δυνατοτήτων και των περιορισμών των τεχνολογιών ΤΝ, συμπεριλαμβανομένης της πιθανότητας παραπλανητικού περιεχομένου ΤΝ
Επιτάχυνση της ανάπτυξης και υιοθέτησης τεχνικών για τον εντοπισμό της προέλευσης του οπτικοακουστικού περιεχομένου, ώστε να είναι πάντα σαφές πότε αλληλεπιδράτε με πραγματικό πρόσωπο ή με τεχνητή νοημοσύνη

Αξίζει να σημειωθεί ότι η ιδέα της OpenAI δεν θα είναι η μόνη δημόσια διαθέσιμη λύση κλωνοποίησης φωνής. Επί του παρόντος, η ElevenLabs είναι η πιο δημοφιλής. Ωστόσο, ακόμη και με πολλά δείγματα ήχου, τα αποτελέσματα δεν είναι πάντα ικανοποιητικά.

Το Voice Engine φαίνεται να αποτελεί σημαντική βελτίωση τόσο από άποψη απλότητας χρήσης όσο και από άποψη ποιότητας της κλωνοποιημένης φωνής.

Δες τα όλα

Η Voice Engine του OpenAI κλωνοποιεί τη φωνή σας ακούγοντας μόνο ένα δείγμα 15 δευτερολέπτων

Η συμφωνία του μέλλοντος: Η Google ξαναγράφει τους κανόνες της μουσικής με το Lyria 3 Pro

Η OpenAI εγκαταλείπει τη δημιουργία βίντεο για τον επικερδή χώρο του κώδικα

Το απόλυτο κέντρο AI: Η στρατηγική της OpenAI για το desktop superapp