Général

La nouvelle IA vocale de Google est hyper réaliste


L'intelligence artificielle ne fait plus partie des esprits imaginatifs de la science-fiction. Si vous vous inquiétez de certains des derniers développements de l'IA en 2017, 2018 ne semble pas mieux. L'un des développements les plus effrayants doit être le dernier progrès avec l'IA de génération de voix de Google.

Maintenant, si vous avez utilisé l'un des produits Google ou même simplement utilisé le service de traduction Google, vous connaissez la voix IA de Google. Disponible avec une voix masculine ou féminine, la voix robotique est un incontournable de notre culture, tout comme Siri d'Apple ou Cortana de Microsoft.

Au fil des années, la voix de Google a commencé à sonner moins robotique et plus comme un humain. À ce stade, la nouvelle IA vocale Google Tacotron 2 est presque impossible à distinguer des humains.

L'IA générée par la voix de Google

Dans un article de recherche récemment publié par les gens de Google, l'équipe présente des détails sur l'impressionnant système de parole appelé Tacotron 2. Dans l'article, Google met en évidence la capacité du système à parler presque de manière identique à ses créateurs humains. L'équipe décrit le système vocal de deuxième génération dans le rapport en indiquant: " leTacotron 2, une architecture de réseau neuronal pour la synthèse vocale directement à partir de texte. Le système est composé d'un réseau récurrent de prédiction de caractéristiques séquence à séquence qui mappe les incorporations de caractères à mel-spectrogrammes à l'échelle, suivis d'un modèle WaveNet modifié agissant comme un vocodeur pour synthétiser les formes d'onde de domaine temporel à partir de ces spectrogrammes."

Comme indiqué dans le rapport, la technologie comprend deux réseaux de neurones profonds. Le premier réseau traduit le texte en spectrogramme, puis les envoie dans le Esprit profondsystème créé, WaveNet. Qu'obtenez-vous lorsque vous implémentez ces systèmes? Une voix qui ressemble à ses homologues humains. Écoutez l'enregistrement vocal présenté ci-dessous. L'un des enregistrements est le Tacotron 2 tandis que l'autre est une actrice rémunérée. Pouvez-vous faire la différence?

Dans ces enregistrements, la voix dit "Cette fille a fait une vidéo sur le rouge à lèvres Star Wars."

Ou que diriez-vous de celui-ci«Elle a obtenu un doctorat en sociologie à l'Université de Columbia.»

Si vous entendez la puissance du Tacotron 2, écoutez-le essayer ces virelangues.

«Peter Piper a cueilli un bec de poivrons marinés. Combien de poivrons marinés Peter Piper a-t-il cueillis? »

«Elle vend des coquillages sur le bord de la mer. Les coquillages qu'elle vend sont des coquillages, j'en suis sûr.

L'IA fait également un travail fantastique pour analyser le contexte et comprendre où le stress est censé se trouver. Écoutez l'inflexion parfaite qu'il utilise dans la déclaration"Il a pensé qu'il était temps de présenter le cadeau."

Il peut également faire la différence entre les homonymes, comme être capable de faire la différence entre le passé lis et l'infinitif lire.Même certains anglophones (humains) natifs peuvent avoir du mal avec ceux-ci en lisant à voix haute!

Bien que le système lutte parfois avec la prononciation des mots multi-syllabes, Tacotron 2 offre une acoustique vocale impressionnante. Une fois le système finalisé pour la production, le Tacotron 2 est sûr d'être une voix puissante dans l'écosystème de Google.


Voir la vidéo: CRÉER SON INTELLIGENCE ARTIFICIELLE IA (Mai 2021).