Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que se entrena de principio a fin para procesar directamente los espectrogramas como entrada y salida.
Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que procesa espectrogramas directamente como entrada y salida, entrenado de principio a fin.
Los LLM de continuación de discurso y preguntas y respuestas son herramientas versátiles que se pueden aplicar a una amplia gama de tareas e industrias, lo que las hace valiosas para mejorar la productividad, mejorar las experiencias de usuario y avanzar en la investigación y desarrollo en diversos campos. Ejemplos destacados de tales LLM incluyen GPT-3 y sus sucesores, que han ganado atención significativa por su impresionante rendimiento en la comprensión y generación de texto.
Estos LLM suelen estar construidos sobre arquitecturas de aprendizaje profundo. Se pre-entrenan en grandes cantidades de datos de texto, lo que les permite comprender los matices del lenguaje humano y generar texto relevante y coherente contextualmente, capturando los patrones estadísticos y las estructuras del lenguaje natural basado en texto.
El equipo de investigación de Google y Verily AI presentó un nuevo modelo de lenguaje oral llamado “Spectron”. Este modelo procesa directamente espectrogramas tanto como entrada como salida. Un espectrograma es una representación visual del espectro de frecuencias de una señal a medida que varían en el tiempo. Este modelo utiliza capas de proyección intermedias para aprovechar las capacidades de audio de un codificador de voz pre-entrenado. Este modelo no solo elimina los sesgos inductivos que suelen surgir en un codificador y decodificador pre-entrenados, sino que lo hace sin sacrificar la fidelidad de representación.
- Revolucionando las predicciones de moléculas biológicas con AlphaFold de DeepMind
- Apple M2 Max GPU vs Nvidia V100, P100 y T4
- Ingeniería de datos vs. Pipelines de aprendizaje automático
El modelo de lenguaje transcribe y genera continuaciones de texto, actuando como un “papel de borrador” intermedio, condicionado adicionalmente para la generación de audio. Las derivadas de la verdad fundamental expresan información rica y a largo plazo sobre la forma de la señal. El equipo utiliza este hecho para supervisar el modelo y coincidir con las deltas temporales y de características de orden superior de la verdad fundamental utilizando la regresión de espectrograma.
La arquitectura del modelo se inicializa con un codificador de voz pre-entrenado y un decodificador de lenguaje pre-entrenado. El codificador se solicita con una expresión de voz como entrada y se codifica en características lingüísticas. Las características actúan como entrada al decodificador como un prefijo, y todo el codificador-decodificador se optimiza para minimizar la entropía cruzada conjuntamente. Este método proporciona una indicación hablada, codificada y luego decodificada para dar tanto continuaciones de texto como de voz.
Los investigadores utilizaron la misma arquitectura para decodificar el texto intermedio y los espectrogramas. Esto tiene dos beneficios. En primer lugar, el pre-entrenamiento del LM en el dominio del texto para continuar la indicación en el dominio del texto antes de sintetizar el habla. En segundo lugar, el texto predicho sirve como razonamiento intermedio, mejorando la calidad del habla sintetizada, de manera análoga a las mejoras en los modelos de lenguaje basados en texto.
Sin embargo, su trabajo es complejo en cuanto a tiempo y espacio. Requiere la generación de múltiples tramas de espectrograma, lo cual lleva tiempo. Esto hace que la generación de enunciados de habla largos no sea posible. Otra limitación es que el modelo no puede ejecutar el proceso de decodificación de texto y espectrograma en paralelo. En el futuro, el equipo se centrará en el desarrollo de un algoritmo de decodificación paralelizada.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Branch and Bound Codificando el Algoritmo desde Cero
- Ryan Johnson, Director de Producto Principal en CallRail – Serie de Entrevistas
- Conoce GlotLID Un modelo de Identificación de Lenguaje (LID) de código abierto que admite 1665 idiomas.
- Detección de objetos en tiempo real con SSD Detectores de cuadro único multibosque
- ¿No hay ‘ciencia’ en la ciencia de datos?
- Cómo Reveal’s Logikcull utilizó Amazon Comprehend para detectar y redactar información de identificación personal (PII) de documentos legales a gran escala.
- Grupo de noticias dice que los chatbots de inteligencia artificial dependen en gran medida del contenido de noticias