Presentando voces sintéticas de OpenAI
OpenAI, una organización que se dedica a desarrollar una Inteligencia Artificial (IA) segura y beneficiosa para todos, ha presentado una vista previa a pequeña escala de su modelo llamado Voice Engine. Este revolucionario modelo utiliza entrada de texto y una única muestra de audio de 15 segundos para generar un habla con sonido natural que se asemeja muchísimo al hablante original. A pesar de que el modelo fue desarrollado a finales de 2022, ya ha demostrado su capacidad para crear voces emotivas y realistas.
Voice Engine ha sido aplicado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz, así como en ChatGPT Voice y Read Aloud. Sin embargo, a pesar de su prometedor potencial, OpenAI ha decidido adoptar un enfoque cauteloso e informado para su publicación más amplia debido al potencial de uso indebido de la voz sintética. La organización espera iniciar un diálogo sobre el despliegue responsable de las voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades.
Aplicaciones de Voice Engine
Voice Engine ha sido probado de forma privada con un pequeño grupo de socios confiables para comprender mejor los usos potenciales de esta tecnología. Las pruebas han revelado una gama de aplicaciones impresionantes que están ayudando a informar el enfoque de OpenAI, así como las salvaguardas y el pensamiento sobre cómo Voice Engine podría ser utilizado en diversas industrias. Algunas de las aplicaciones tempranas incluyen el uso de Voice Engine para brindar asistencia de lectura a niños y no lectores a través de voces emotivas que suenan naturales, la traducción de contenido para que los creadores y las empresas puedan llegar a más personas en todo el mundo y la implementación de la tecnología para llegar a comunidades globales y mejorar la prestación de servicios esenciales en entornos remotos.
Además, Voice Engine también ha demostrado ser beneficioso para las personas que no son verbales. La tecnología ha sido utilizada en aplicaciones terapéuticas para personas con afecciones que afectan el habla y mejoras educativas para quienes tienen necesidades de aprendizaje. También ha sido utilizada para ayudar a los pacientes a recuperar la voz, especialmente para aquellos que sufren condiciones del habla repentinas o degenerativas.
Construyendo Voice Engine de forma segura
OpenAI reconoce que la generación de habla que se asemeja a las voces de las personas conlleva serios riesgos, especialmente en un año electoral. Por lo tanto, la organización está colaborando con socios estadounidenses e internacionales de todo el gobierno, los medios de comunicación, el entretenimiento, la educación, la sociedad civil y más para garantizar que incorporan sus comentarios a medida que construyen.
Los socios que prueban Voice Engine hoy en día deben aceptar las políticas de uso de OpenAI, que prohíben la suplantación de otra persona u organización sin consentimiento o derecho legal. Además, los términos de OpenAI requieren el consentimiento explícito e informado del hablante original y no permiten que los desarrolladores creen formas para que los usuarios individuales creen sus propias voces. Los socios también deben revelar claramente a su audiencia que las voces que escuchan están generadas por IA.
Vista previa del modelo
De acuerdo con su enfoque sobre la seguridad de la IA y sus compromisos voluntarios, OpenAI ha decidido realizar una vista previa de Voice Engine, pero no lanzarlo ampliamente en este momento. La organización espera que esta vista previa de Voice Engine destaque su potencial y también motive la necesidad de reforzar la resiliencia de la sociedad frente a los desafíos que plantean los modelos generativos cada vez más convincentes.
En particular, OpenAI está recomendando la eliminación gradual de la autenticación basada en voz como medida de seguridad para acceder a cuentas bancarias y otra información confidencial. También está explorando políticas para proteger el uso de las voces individuales en la IA, educando al público para que comprenda las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de contenido engañoso de IA, y acelerando el desarrollo y la adopción de técnicas para rastrear el origen del contenido audiovisual.
Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que OpenAI finalmente la implemente ampliamente o no. OpenAI espera continuar participando en conversaciones sobre los desafíos y oportunidades de las voces sintéticas con formuladores de políticas, investigadores, desarrolladores y creativos.
Componentes técnicos
-
Modelos de Aprendizaje Profundo: La mayoría de las tecnologías de voz sintética se basan en modelos de aprendizaje profundo, como las redes neuronales convolucionales (CNN) y las redes neuronales recurrentes (RNN), especialmente las variantes como Long Short-Term Memory (LSTM) o las Transformer networks, para capturar las complejidades del lenguaje y la producción vocal.
-
Tecnología Text-to-Speech (TTS): Las soluciones de voz sintética utilizan tecnología TTS, que convierte texto en habla natural. Los modelos avanzados, como Tacotron 2 y WaveNet de Google, son capaces de producir habla que suena increíblemente natural, incluyendo inflexiones y emociones.
-
Codificación y Decodificación de Voz: Los sistemas de voz sintética a menudo emplean codificadores para analizar las características de la voz humana y decodificadores para generar habla. Estos pueden incluir técnicas como el análisis de formantes para replicar los tonos vocales.
-
Datos de Entrenamiento: Para entrenar estos modelos, se requieren grandes cantidades de datos de audio junto con sus transcripciones textuales correspondientes. Estos datos ayudan al modelo a aprender a pronunciar palabras y frases de manera realista en diferentes contextos.
-
Síntesis de Voz Personalizada: Para crear voces personalizadas, se utilizan muestras de voz del individuo objetivo para entrenar el modelo, permitiéndole imitar esa voz particular. Esto requiere tecnologías avanzadas de muestreo y modelado de voz.
-
Marca de Agua Digital: Para abordar cuestiones de seguridad y autenticación, se están explorando tecnologías de marca de agua digital que pueden incrustar información codificada en audios generados, permitiendo su identificación como sintéticos.
Estos componentes técnicos son clave para el desarrollo y la implementación de soluciones de voz sintética avanzadas, permitiendo aplicaciones desde asistentes virtuales hasta la creación de contenido accesible y personalizado.
Preguntas relacionadas
¿Cuáles son los desafíos técnicos en el desarrollo de tecnologías de voz sintética?
Desarrollar voces realistas que capturen emociones y acentos únicos representa un desafío técnico significativo, requiriendo avanzados algoritmos de IA y extensos datos de entrenamiento.
¿Cómo se puede prevenir el uso malintencionado de la voz sintética?
Implementando medidas de seguridad como marcas de agua digitales y políticas de uso estrictas, se puede ayudar a prevenir el uso malintencionado de la voz sintética.
¿Qué impacto tiene la voz sintética en la industria del entretenimiento?
La voz sintética permite crear contenidos más versátiles y personalizados, transformando la producción de videojuegos, películas y audiolibros.
¿Cómo afecta la voz sintética a la autenticidad de la comunicación?
Aunque mejora accesibilidad, plantea desafíos sobre la autenticidad, necesitando mecanismos para distinguir entre fuentes humanas y sintéticas.
¿Qué futuro se prevé para la tecnología de voz sintética?
Se espera una integración cada vez mayor en la vida cotidiana, mejorando asistentes virtuales, accesibilidad y creando nuevas formas de interacción.
Nota:este articulo esta basado y sustentado en la publicacion original en el blog de: OpenAI.com