fbpx
15.5 C
Mexico City
viernes, septiembre 20, 2024

Voice Engine: Tecnología y Seguridad en el Desarrollo del Modelo de Voz de OpenAI

Date:

Related stories

Cómo México ayuda a Biden y Harris en la frontera con Estados Unidos

A major reason for the drop in apprehensions at the border this year: Mexico is stopping migrants well before they reach the border...

Anulada personería jurídica de Nueva Fuerza Democrática

por La Nación20 de septiembre de 202419 de septiembre...

OpenAI explica cómo funciona Voice Engine, la tecnología detrás del modelo de texto a voz, y las medidas de seguridad implementadas para su desarrollo y uso.

Motor de voz AbiertoAI es un modelo capaz de crear voces personalizadas a partir de texto y una muestra de voz de 15 segundos.  Esta tecnología de texto a voz (TTS) permite generar audio similar al humano, reflejando diversas voces, acentos y estilos de habla.

Aunque aún no está ampliamente disponible, OpenAI ha implementado medidas de seguridad rigurosas y continúa trabajando con diversos socios para garantizar su uso seguro y ético.

Cómo Funciona Voice Engine

Motor de voz de OpenAI se basa en un modelo de texto a voz (TTS) que genera audio humano a partir de texto y una muestra de voz de 15 segundos.

El sistema TTS se desarrolla ayudando al modelo a entender las sutilezas del habla mediante el emparejamiento de audio y transcripciones. El modelo aprende a predecir los sonidos más probables que un hablante hará para un texto dado, considerando diferentes voces, acentos y estilos de habla.

Para generar audio, el modelo requiere solo una muestra de 15 segundos del hablante y el texto correspondiente. No se ajusta específicamente a ningún hablante; en su lugar, emplea un proceso de difusión que comienza con ruido aleatorio y se desnoise progresivamente hasta coincidir con cómo el hablante del audio original articularía el texto.

Desarrollo del Modelo Voice Engine

Voice Engine fue desarrollado por OpenAI a fines de 2022. Inicialmente, se probó internamente utilizando una mezcla de muestras de voz públicas y privadas. Este prototipo interno fue esencial para su investigación de alineación y seguridad, informando sus salvaguardas y siendo parte de su compromiso continuo con la comprensión del límite técnico.

Estas pruebas internas también ayudaron a los responsables de políticas globales a comprender las capacidades y riesgos de los modelos de voz sintética.

En septiembre de 2023, OpenAI utilizó Voice Engine para potenciar la función de Modo de Voz de ChatGPT, un lanzamiento limitado que presentaba nuevas capacidades y riesgos.

En noviembre de 2023, OpenAI lanzó una API de TTS simple, también impulsada por Voice Engine. Este lanzamiento limitado trabajó con actores de voz profesionales para crear muestras de audio de 15 segundos para cada una de las seis voces preestablecidas en la API. Los desarrolladores pueden integrar estas voces en sus sitios web para leer publicaciones de blog, por ejemplo.

En marzo de 2024, OpenAI presentó la capacidad de Voice Engine para crear voces personalizadas con un pequeño grupo de socios de confianza.

Este esfuerzo buscó concienciar sobre las capacidades de las voces sintéticas y apoyar objetivos como la eliminación de la autenticación por voz como medida de seguridad y la exploración de políticas para proteger el uso de las voces en la IA.

Construcción Segura de Voice Engine

Construir Voice Engine de manera segura es una prioridad principal para OpenAI. La organización continúa colaborando con socios de EE.UU. e internacionales de diversos sectores para garantizar que incorporan sus comentarios mientras desarrollan esta tecnología.

Los socios que prueban Voice Engine han acordado políticas de uso que prohíben la suplantación sin consentimiento y requieren la aprobación explícita del hablante original. Además, medidas de seguridad como el marcado de agua y la monitorización proactiva están en marcha para rastrear y supervisar el uso de la tecnología.

Futuro de la Seguridad en Voz Sintética

Modelos como GPT-4o, con capacidades de audio nativas, permiten nuevas interacciones que modelos anteriores como Voice Engine no podían.

Sin embargo, OpenAI reconoce que la modalidad de audio de GPT-4o introduce nuevos riesgos, especialmente en la generación de voz. La organización está realizando pruebas rigurosas para identificar y abordar tanto riesgos conocidos como imprevistos en varios campos, como la psicología social, el sesgo y la equidad, y la desinformación.

Consistente con su enfoque cauteloso, OpenAI restringirá las salidas de audio de GPT-4o a una selección de voces preestablecidas para su lanzamiento general. Estas voces fueron obtenidas de actores de voz profesionales seleccionados a través de un proceso de casting cuidadosamente considerado.

AbiertoAI compartirá información adicional sobre los riesgos relacionados con el audio y las mitigaciones en la próxima tarjeta del sistema GPT-4o.

Leer más

Redacción Capital Político
Redacción Capital Políticohttps://capitalpolitico.net
Grupo independiente de expertos, no partidista dedicado a incrementar la calidad del análisis político en México y America Latina.

Newslatter

- Nuevas Revistas

- Contenido exclusivo de columnistas

- Promociones de nuestros servicios

Latest stories