Général

Cette nouvelle technologie permet d'éditer l'audio comme du texte


Les ingénieurs de l'Université de Princeton ont développé Photoshop pour l'édition audio. Il est annoncé comme le copier-coller du son. Ce nouveau logiciel peut ajouter des mots ou remplacer des mots dans l'enregistrement audio d'une voix humaine.

[Source de l'image: Pixabay]

Les ingénieurs du son ont pu supprimer les morsures sonores en éditant la transcription du clip pendant plusieurs années. Cependant, ils n'ont jamais été en mesure d'ajouter ou de remplacer un mot par souci de clarté. Ce nouveau logiciel - VoCo - synthétise facilement les nouveaux mots dans la voix de l'orateur, même si ce mot n'apparaît nulle part ailleurs dans l'enregistrement.

"VoCo automatise le processus de recherche et d'assemblage, et produit des résultats qui sonnent généralement mieux que ceux créés manuellement par des experts audio", a déclaré Adam Finkelstein. Finkelstein est professeur d'informatique à Princeton.

Comment fonctionne le logiciel

Le logiciel utilise un algorithme qui scanne tout l'enregistrement et assemble une combinaison de sons de mots. Ces sons, appelés phonèmes, aboutissent au nouveau mot de la voix originale. L'algorithme s'adapte même au placement du mot dans une phrase. Il prend en compte le contexte du mot et ajoute l'accent approprié.

"VoCo donne un aperçu d'une technologie très pratique pour l'édition de pistes audio, mais c'est aussi un signe avant-coureur pour les technologies futures qui permettront à la voix humaine d'être synthétisée et automatisée de manière remarquable", a déclaré Finkelstein.

En fait, plusieurs personnes ont déjà approché les ingénieurs pour les aider à retrouver leur voix. L'étudiant diplômé Zeyu Jin présentera la recherche en juillet. Jin a noté que le logiciel VoCo pourrait donner une voix aux sans voix.

"Nous avons été approchés par un homme atteint d'une maladie neurodégénérative et qui ne peut parler que par le biais d'un système de synthèse vocale contrôlé par ses paupières", a déclaré Jin. "La voix semble robotique, comme le système utilisé par Steven Hawking, mais il veut que sa jeune fille entende sa vraie voix. Il sera peut-être un jour possible d'analyser les enregistrements passés de lui parlant et de créer un appareil d'assistance qui parle de sa propre voix. . "

Questions éthiques

La technologie pose également des questions éthiques intéressantes. Les chercheurs le reconnaissent et souhaitent aborder les éventuels problèmes.

"Aujourd'hui, nous tenons pour acquis que les photos peuvent être retouchées, et nous jugeons les photos avec un peu plus de scepticisme", a déclaré Finkelstein. "Nous comprenons qu'il y a une responsabilité journalistique attachée aux photos."

Serait-ce autorisé dans les clips d'actualités à ajouter des mots qui disparaissent souvent comme «a», «et» et «le»? Ces mots peuvent parfois être ajoutés dans le texte par souci de clarté. Cependant, ils peuvent changer la signification entière d'une déclaration. Par exemple, Neil Armstrong avait l'intention de dire «Un petit pas pour un homme» plutôt que «Un petit pas pour l'homme». Comment cette technologie pourrait-elle avoir un impact potentiel sur la façon dont nous entendons et mémorisons les clips audio? Une question encore plus paranoïaque pourrait concerner la vérité en général. À une époque où les faits deviennent subjectifs, pourrait-on blâmer l'existence de cette technologie pour déformer la vérité?

Pour l'instant, l'équipe d'ingénierie anticipe une discussion plus large sur les utilisations du logiciel.

"Cet outil alimentera presque certainement la conversation sur l'audio qui a été précédée d'une conversation sur les photos", a déclaré Finkelstein. "Bientôt, elle sera suivie d'une conversation sur la vidéo."

L'ensemble du projet de recherche se trouve dans la revue Transactions sur les graphiques. Vous pouvez en savoir plus sur le projet à partir de la pré-impression de l'article sur le site Web de Princeton.

VOIR AUSSI: Ce petit appareil peut convertir l'air pollué en hydrogène


Voir la vidéo: Say, transformer un texte en fichier audio sur Mac OS (Mai 2021).