Los días del teclado y la pantalla como el único método para interactuar con una computadora quedaron atrás. Ahora estamos rodeados de interfaces de usuario más naturales, agregando reconocimiento táctil y de voz a nuestro repertorio de interacciones. Lo mismo ocurre con la forma en que las computadoras nos responden, usando hápticos y texto a voz.

VER: Habilidades de Alexa: una guía para profesionales (PDF gratuito) (TechRepublic)

El habla es cada vez más importante, ya que proporciona una forma remota y manos libres de trabajar con dispositivos. No hay necesidad de tocarlos o mirarlos, todo lo que se necesita es un puñado de palabras desencadenantes y un buen sistema de reconocimiento de voz. Es posible que estemos más familiarizados con los asistentes digitales como Cortana, Alexa, Siri y el Asistente de Google, pero las tecnologías de voz están apareciendo en los sistemas de asistencia, las aplicaciones del vehículo y otros entornos donde las operaciones manuales son difíciles, distraen o son francamente peligrosas.

Índice
  • Voces artificiales para nuestro código
  • Uso de redes neuronales para un discurso más persuasivo
  • Agregue voces neuronales a sus aplicaciones
  • Voces artificiales para nuestro código

    El otro lado de la historia del reconocimiento de voz es, por supuesto, texto a voz. Las computadoras son buenas para mostrar texto, pero no tanto para leerlo. Lo que se necesita es una manera fácil de tomar el contenido del texto y convertirlo en un habla humana reconocible, no en el extraño tono monótono de un robot de ciencia ficción. Todos conocemos las herramientas de conversión de texto a voz en los sistemas telefónicos automatizados o las aplicaciones de GPS que fallan en las pruebas de pronunciación básicas y obtienen nombres y direcciones divertidamente erróneos.

    La conversión de texto a voz de alta calidad no es fácil. Si adopta el enfoque estándar, asignando texto a cadenas de fonemas, el resultado suele ser sofocante y propenso a la mala pronunciación. Lo que es más desconcertante es que hay poca o ninguna inflexión. Incluso el uso de SSML (Lenguaje de marcado de síntesis de voz) para agregar énfasis e inflexión no hace mucha diferencia y solo aumenta la carga de trabajo del desarrollador, lo que requiere que cada expresión se marque con anticipación para agregar las construcciones vocales adecuadas.

    Parte del problema es cómo funciona la conversión de texto a voz tradicional, con modelos separados para analizar texto y predecir el audio requerido. Como se trata de pasos separados, el resultado es claramente artificial. Lo que se necesita es un enfoque que tome estos pasos por separado y los reúna, en un solo motor de texto a voz.

    Uso de redes neuronales para un discurso más persuasivo

    Microsoft Research ha estado trabajando para resolver este problema durante algún tiempo, y la técnica resultante de texto a voz basada en redes neuronales ahora está disponible como parte del conjunto de herramientas de reconocimiento de voz de Azure Cognitive Services. Usando su nuevo servicio Neural de texto a voz, alojado en Azure Kubernetes Service para escalabilidad, el habla generada se entrega a los usuarios finales. En lugar de múltiples pasos, el texto de entrada primero pasa a través de un generador acústico neuronal para determinar la entonación antes de procesarse utilizando un modelo de voz neuronal en un codificador de voz neuronal.

    El modelo de voz subyacente se genera a través de técnicas de aprendizaje profundo utilizando un gran conjunto de voces muestreadas como datos de entrenamiento. El artículo original de Microsoft Research sobre el tema detalla los métodos de entrenamiento utilizados, inicialmente utilizando la minimización de errores de trama antes de refinar el modelo resultante con la minimización de errores de secuencia.

    Usar el TTS Neural Engine es bastante simple. Al igual que con todos los servicios cognitivos, comienza con una clave de suscripción y luego la usa para crear una clase que llama a las API de texto a voz. Todo lo que tienes que hacer es elegir una de las voces neuronales para usar el nuevo servicio; las API subyacentes son las mismas para TTS neuronal y estándar. Las respuestas de voz se transmiten desde el servicio a su dispositivo, por lo que puede canalizarlas directamente a su salida de audio predeterminada o guardarlas como un archivo para reproducirlas más tarde.

    VER: Inteligencia artificial: una guía para líderes empresariales (PDF gratuito) (República Tecnológica)

    Las voces neuronales aún son compatibles con SSML, por lo que puede agregar sus propios ajustes a las voces predeterminadas. Esto se suma a sus optimizaciones específicas para tipos de voz específicos. Si no desea utilizar SSML, elija una voz neuronal por característica: una voz neutral o una voz feliz, por ejemplo. SSML se puede utilizar para acelerar la reproducción o cambiar el tono de un segmento de voz sin cambiar la voz sintetizada. De esta manera, puede permitir que los usuarios ajusten la salida para que se adapte a su entorno de trabajo, permitiéndoles elegir la configuración de voz que consideren adecuada.

    Microsoft ha hecho que Neural Voices esté disponible en varias regiones, aunque para una mayor cobertura de idiomas deberá volver a usar los antiguos modelos estándar de conversión de texto a voz. Las voces neuronales están disponibles en inglés, alemán, italiano y chino, con cinco voces diferentes. La mayoría son mujeres, pero hay una voz masculina en inglés.

    Agregue voces neuronales a sus aplicaciones

    Entonces, ¿dónde usarías voces neuronales? La elección obvia está en cualquier aplicación que requiera un conjunto largo de interacciones de voz, ya que el texto a voz tradicional puede ser agotador de escuchar durante largos períodos de tiempo. También desea usar voces neuronales donde no desea agregar carga cognitiva, un riesgo que se reduce al usar un conjunto de voces más natural. Los asistentes digitales personales y los sistemas a bordo del vehículo son un primer paso lógico para estas nuevas técnicas, pero puede usarlos para crear rápidamente versiones en audio de documentos existentes, lo que reduce los costos de los audiolibros y ayuda a los usuarios con diferentes estilos de aprendizaje auditivo.

    Si desea comenzar a usar voces neuronales en sus aplicaciones, Microsoft ofrece una suscripción gratuita que le brinda 500,000 caracteres de texto reconocido por mes. Debido a que las voces neuronales requieren más cómputo que los métodos tradicionales basados ​​en muestras, son más costosas de usar, pero a $16 por millón de caracteres una vez que deje el servicio gratuito, no se arruinará, especialmente si usa la opción para ahorrar. expresiones para su uso posterior. Estos se pueden usar para crear una biblioteca de segmentos de voz de uso común que se pueden reproducir según sea necesario.

    Dado que el habla es una herramienta de accesibilidad cada vez más importante, es bueno ver que el estado del arte va más allá de las voces forzadas y obviamente artificiales. El lanzamiento de Microsoft de voces neuronales en su conjunto de servicios cognitivos es un importante paso adelante. Ahora necesita llevarlos a más idiomas y más regiones para que todos podamos beneficiarnos de estas nuevas técnicas de conversión de texto a voz.

    Ver también

    • Aprendizaje automático: una hoja de trucos (TechRepublic)
    • La telemedicina, la IA y el aprendizaje profundo están revolucionando la atención médica (descarga de TechRepublic)
    • Gestión de IA y ML en la empresa 2019: los líderes tecnológicos esperan más dificultades que los proyectos de TI anteriores (Tech Pro Research)
    • ¿Qué es la IA? Todo lo que necesitas saber sobre inteligencia artificial (ZDNet)
    • 6 formas de eliminarte de Internet (CNET)
    • Inteligencia artificial: más cobertura de lectura obligada (TechRepublic en Flipboard)