Σας ενδιαφέρουν ΠΡΟΣΦΟΡΕΣ? Εξοικονομήστε χρήματα με τα κουπόνια μας WhatsApp o ΤΗΛΕΓΡΑΦΗΜΑ!

Το Microsoft VALL-E θα μιμηθεί τη φωνή μας μετά από μόλις 3 δευτερόλεπτα ομιλίας

Ιανουάριος 11 2023

Σε μόλις 3 δευτερόλεπτα, μια τεχνητή νοημοσύνη που δεν σας έχει ακούσει ποτέ να μιλάτε μπορεί να μιμηθεί τέλεια τη φωνή σας. Αυτό είναι το τελευταίο επίτευγμα της τεχνητής νοημοσύνης της Microsoft - το μοντέλο VALL-E μετατροπής κειμένου σε ομιλία, το οποίο μπορεί να αντιγράψει τη φωνή οποιουδήποτε κατά βούληση με μόλις 3 δευτερόλεπτα ομιλίας.

Το Microsoft VALL-E θα μιμηθεί τη φωνή μας μετά από μόλις 3 δευτερόλεπτα ομιλίας

Προέρχεται από το DALL E, αλλά ειδικεύεται στον ηχητικό τομέα και το εφέ κειμένου σε ομιλία έγινε δημοφιλές μετά την κυκλοφορία του στο διαδίκτυο.

Μερικοί χρήστες είπαν ότι αν συνδυαστούν VALL·E και ChatGPT, το αποτέλεσμα θα είναι εκπληκτικό. Για άλλους, φαίνεται ότι η μέρα που θα είναι δυνατή η πραγματοποίηση βιντεοκλήσεων με AI δεν είναι μακριά. Υπάρχουν ακόμη και εκείνοι που αστειεύονται ότι αφού η AI έχει φροντίσει τους συγγραφείς και τους ζωγράφους, ακολουθούν οι ηθοποιοί φωνής.

Πώς όμως το VALL·E μιμείται έναν «ανήκουστο» ήχο σε 3 δευτερόλεπτα;

Το VALL-E αναλύει τον ήχο με γλωσσικά μοντέλα. Συνθέτει ομιλία με βάση ήχους «ανήκουστους» με τεχνητή νοημοσύνη, δηλαδή μάθηση μηδενικού δείγματος.

Η παραδοσιακή λύση μετατροπής κειμένου σε ομιλία είναι βασικά μια λειτουργία πριν από την προπόνηση μαζί με μια τελειοποίηση. Εάν χρησιμοποιηθεί σε σενάριο μηδενικού δείγματος, θα οδηγήσει σε κακή ομοιότητα και φυσικότητα της παραγόμενης ομιλίας.

Με βάση αυτό, το VALL-E βγήκε από το πουθενά, προτείνοντας μια διαφορετική ιδέα από το παραδοσιακό φωνητικό μοντέλο.

Σε σύγκριση με το παραδοσιακό μοντέλο που χρησιμοποιεί το φάσμα Mel για την εξαγωγή χαρακτηριστικών, το VALL-E παίρνει απευθείας τη σύνθεση ομιλίας ως εργασία του γλωσσικού μοντέλου, το πρώτο είναι συνεχές και το δεύτερο είναι διακριτό.

Συγκεκριμένα, η παραδοσιακή διαδικασία σύνθεσης ομιλίας είναι συχνά η διαδρομή του «φωνήματος → φασματογράμματος μελ (mel-φασματογράμματος) → κυματομορφής».

Αλλά το VALL -E μετέτρεψε αυτή τη διαδικασία σε "φώνημα→ διακριτή κωδικοποίηση ήχου→ κυματομορφή":

Όσον αφορά τον σχεδιασμό του μοντέλου, το VALL-E είναι επίσης παρόμοιο με το VQVAE. Κβαντίζει τον ήχο σε μια σειρά από διακριτά διακριτικά. Ο πρώτος κβαντιστής είναι υπεύθυνος για την καταγραφή του ηχητικού περιεχομένου και των χαρακτηριστικών ταυτότητας του ηχείου, ενώ ο δεύτερος κβαντιστής είναι υπεύθυνος για τη βελτίωση του σήματος. που ακούγεται πιο φυσικό:

Στη συνέχεια, υπό τον όρο του κειμένου και της προτροπής ήχου 3 δευτερολέπτων, εξάγει αυτόματα μια διακριτή κωδικοποίηση ήχου:

Αλλά όχι μόνο αυτό, εκτός από τη σύνθεση μηδενικού δείγματος ομιλίας, το VALL-E υποστηρίζει επίσης επεξεργασία φωνής και δημιουργία φωνητικού περιεχομένου σε συνδυασμό με το GPT-3.

Ο ήχος περιβάλλοντος περιβάλλοντος μπορεί επίσης να αποκατασταθεί

Κρίνοντας από τα συνθετικά φωνητικά εφέ, το VALL-E μπορεί να αποκαταστήσει περισσότερα από το ηχόχρωμα του ηχείου.

Όχι μόνο μιμείται ο τόνος επί τόπου, αλλά υποστηρίζει επίσης μια ποικιλία διαφορετικών ταχυτήτων ομιλίας. Για παράδειγμα, αυτές είναι δύο διαφορετικές ταχύτητες ομιλίας που παρέχονται από το VALL-E όταν η ίδια πρόταση εκφωνείται δύο φορές, αλλά η τονική ομοιότητα εξακολουθεί να είναι υψηλή:

Ταυτόχρονα, ο ήχος περιβάλλοντος περιβάλλοντος του άλλου μέρους μπορεί επίσης να αποκατασταθεί με ακρίβεια.

Επιπλέον, το VALL-E μπορεί να μιμηθεί μια ποικιλία συναισθημάτων του ομιλητή, συμπεριλαμβανομένων πολλών τύπων όπως θυμό, υπνηλία, ουδέτερο, χαρά και ναυτία.

Αξίζει να αναφέρουμε ότι το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση VALL·E δεν είναι ιδιαίτερα μεγάλο.

Σε σύγκριση με το Whisper του OpenAI, το οποίο απαιτούσε 680.000 ώρες εκπαίδευσης ήχου και χρησιμοποιούσε μόνο περισσότερους από 7.000 ομιλητές και 60.000 ώρες εκπαίδευσης, το VALL-E ξεπέρασε το προεκπαιδευμένο κείμενο σε ομιλία όσον αφορά την ομοιότητα με το μοντέλο YourTTS κείμενο σε ομιλία.

Επιπλέον, το YourTTS άκουσε τις φωνές 97 από τα 108 ηχεία εκ των προτέρων κατά τη διάρκεια της εκπαίδευσης, αλλά εξακολουθεί να υπολείπεται του VALL-E στην πραγματική δοκιμή.

Όσον αφορά τα πεδία στα οποία μπορεί να εφαρμοστεί:

Όχι μόνο μπορεί να χρησιμοποιηθεί για να μιμηθεί τη δική σας φωνή, όπως βοηθώντας άτομα με ειδικές ανάγκες να ολοκληρώσουν μια συνομιλία με άλλους, αλλά μπορείτε επίσης να το χρησιμοποιήσετε για να μιλήσετε για εσάς όταν δεν το θέλετε. Φυσικά, μπορεί να χρησιμοποιηθεί και για ηχογράφηση βιβλίων.

Ωστόσο, το VALL-E δεν είναι ακόμη ανοιχτού κώδικα και ίσως χρειαστεί να περιμένετε λίγο ακόμα για να το δοκιμάσετε.