Amazon Transcribe anuncia un nuevo sistema ASR basado en modelos de base para el habla que amplía el soporte a más de 100 idiomas

Amazon Transcribe lanza un nuevo sistema ASR que expande el soporte a más de 100 idiomas, basado en modelos de base para el habla

Amazon Transcribe es un servicio de reconocimiento automático de voz (ASR) completamente administrado que te permite agregar fácilmente capacidades de texto a voz a tus aplicaciones. Hoy, nos complace anunciar un sistema de modelo de fundamentos del habla con miles de millones de parámetros de próxima generación que expande el reconocimiento automático de voz a más de 100 idiomas. En esta publicación, discutiremos algunos de los beneficios de este sistema, cómo las empresas lo están utilizando y cómo comenzar. También proporcionamos un ejemplo de la salida de transcripción a continuación.

El modelo de fundamentos del habla de Transcribe se entrena utilizando algoritmos de autoaprendizaje de primer nivel para aprender los patrones universales inherentes al habla humana en diferentes idiomas y acentos. Se entrena con millones de horas de datos de audio sin etiquetar de más de 100 idiomas. Las recetas de entrenamiento se optimizan mediante un muestreo inteligente de datos para equilibrar los datos de entrenamiento entre los idiomas, asegurando que los idiomas que tradicionalmente están subrepresentados también alcancen niveles de precisión altos.

Carbyne es una empresa de software que desarrolla soluciones de centro de contacto basadas en la nube y críticas para los servicios de emergencias. La misión de Carbyne es ayudar a los servicios de emergencia a salvar vidas, y el idioma no puede ser un obstáculo para sus objetivos. Así es como utilizan Amazon Transcribe para cumplir con su misión:

“La traducción de audio en vivo con IA de Carbyne tiene como objetivo ayudar a mejorar la respuesta de emergencia para los 68 millones de estadounidenses que hablan un idioma distinto al inglés en su hogar, además de los hasta 79 millones de visitantes extranjeros al país cada año. Al aprovechar el ASR del modelo de fundamentos multilingüe de Amazon Transcribe, Carbyne estará aún más preparado para democratizar los servicios de emergencia que salvan vidas, porque Cada. Persona. Cuenta.
Por qué aceptar cualquier trabajo de datos es un terrible movimiento profesional y qué debes hacer en su lugar
RLHF Entrenamiento de la canalización para LLMs utilizando Huggingface 🤗
Un punto de entrada a HuggingFace

– Alex Dizengof, cofundador y CTO de Carbyne.

Aprovechando el modelo de fundamentos del habla, Amazon Transcribe ofrece una mejora significativa en la precisión de entre el 20% y el 50% en la mayoría de los idiomas. En el habla telefónica, que es un dominio desafiante y escaso en datos, la mejora en la precisión es entre el 30% y el 70%. Además de una mejora sustancial en la precisión, este gran modelo ASR también ofrece mejoras en la legibilidad con una puntuación y una capitalización más precisas. Con la llegada de la IA generativa, miles de empresas están utilizando Amazon Transcribe para obtener valiosas ideas de su contenido de audio. Con una precisión mejorada y soporte para más de 100 idiomas, Amazon Transcribe impactará positivamente en todos estos casos de uso. Todos los clientes existentes y nuevos que utilicen Amazon Transcribe en modo por lotes pueden acceder al reconocimiento de voz impulsado por el modelo de fundamentos del habla sin necesidad de realizar cambios en el punto final de la API ni en los parámetros de entrada.

El nuevo sistema ASR ofrece diversas características clave en los más de 100 idiomas relacionados con facilidad de uso, personalización, seguridad del usuario y privacidad. Estos incluyen características como puntuación automática, vocabulario personalizado, identificación automática de idioma, diarización de oradores, calificaciones de confianza a nivel de palabra y filtro de vocabulario personalizado. El soporte ampliado del sistema para diferentes acentos, entornos de ruido y condiciones acústicas te permite generar resultados más precisos y te ayuda a incorporar de manera efectiva las tecnologías de voz en tus aplicaciones.

Gracias a la alta precisión de Amazon Transcribe en diferentes acentos y condiciones de ruido, su soporte para un gran número de idiomas y su amplio conjunto de características de valor agregado, miles de empresas estarán capacitadas para desbloquear valiosas ideas de su contenido de audio, así como aumentar la accesibilidad y facilidad de descubrimiento de su contenido de audio y video en varios ámbitos. Por ejemplo, los centros de contacto transcriben y analizan las llamadas de los clientes para identificar ideas y posteriormente mejorar la experiencia del cliente y la productividad del agente. Los productores de contenido y los distribuidores de medios generan automáticamente subtítulos utilizando Amazon Transcribe para mejorar la accesibilidad del contenido.

Comienza con Amazon Transcribe

Puedes utilizar la Interfaz de línea de comandos de AWS (AWS CLI), la Consola de administración de AWS y varias SDK de AWS para transcripciones por lotes y seguir utilizando la misma API StartTranscriptionJob para obtener los beneficios de rendimiento del modelo ASR mejorado sin necesidad de realizar cambios en tu código o parámetros. Para obtener más información sobre cómo utilizar la CLI de AWS y la consola, consulta Transcripción con la CLI de AWS y Transcripción con la consola de administración de AWS, respectivamente.

El primer paso es cargar tus archivos multimedia en un Amazon Simple Storage Service (Amazon S3) bucket, un servicio de almacenamiento de objetos diseñado para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar. Amazon S3 ofrece durabilidad, disponibilidad, rendimiento, seguridad y una escalabilidad virtualmente ilimitada líderes en la industria, a un costo muy bajo. Puedes elegir guardar tu transcripción en tu propio bucket de S3, o hacer que Amazon Transcribe use un bucket predeterminado y seguro. Para obtener más información sobre el uso de los buckets de S3, consulta Creación, configuración y trabajo con buckets de Amazon S3.

Salida de la transcripción

Amazon Transcribe utiliza la representación JSON para su salida. Proporciona el resultado de la transcripción en dos formatos diferentes: formato de texto y formato detallado por ítems. Nada cambia con respecto al punto final de la API o los parámetros de entrada.

El formato de texto proporciona la transcripción como un bloque de texto, mientras que el formato detallado por ítems proporciona la transcripción en forma de ítems transcritos ordenados por tiempo, junto con metadatos adicionales por ítem. Ambos formatos existen en paralelo en el archivo de salida.

Dependiendo de las características que selecciones al crear el trabajo de transcripción, Amazon Transcribe crea vistas adicionales y enriquecidas del resultado de la transcripción. Consulta el siguiente código de ejemplo:

{   "jobName": "2x-speakers_2x-channels",    "accountId": "************",    "results": {        "transcripts": [{                "transcript": "Hola, bienvenido."            }        ],        "speaker_labels": [            {                "channel_label": "ch_0",                "speakers": 2,                "segments": [                ]            },            {                "channel_label": "ch_1",                "speakers": 2,                "segments": [                ]            }        ],        "channel_labels": {            "channels": [            ],            "number_of_channels": 2        },        "items": [                    ],        "segments": [        ]    },    "status": "COMPLETADO"}

Las vistas son las siguientes:

Transcripciones – Representado por el elemento transcripts, contiene solo el formato de texto de la transcripción. En escenarios de múltiples hablantes y múltiples canales, se proporciona la concatenación de todas las transcripciones como un solo bloque.
Hablantes – Representado por el elemento speaker_labels, contiene los formatos de texto y detallados por ítems de la transcripción agrupados por hablante. Solo está disponible cuando se habilita la función de múltiples hablantes.
Canales – Representado por el elemento channel_labels, contiene los formatos de texto y detallados por ítems de la transcripción agrupados por canal. Solo está disponible cuando se habilita la función de múltiples canales.
Ítems – Representado por el elemento items, contiene solo el formato detallado por ítems de la transcripción. En escenarios de múltiples hablantes y múltiples canales, los ítems se enriquecen con propiedades adicionales que indican el hablante y el canal.
Segmentos – Representado por el elemento segments, contiene los formatos de texto y detallados por ítems de la transcripción agrupados por transcripción alternativa. Solo está disponible cuando se habilita la función de resultados alternativos.

Conclusión

En AWS, estamos constantemente innovando en nombre de nuestros clientes. Al extender el soporte de idiomas en Amazon Transcribe a más de 100 idiomas, permitimos que nuestros clientes sirvan a usuarios de diversos orígenes lingüísticos. Esto no solo mejora la accesibilidad, sino que también abre nuevas oportunidades de comunicación e intercambio de información a nivel global. Para obtener más información sobre las características discutidas en esta publicación, visita la página de características y el artículo sobre las novedades.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Amazon TranscribeAnnouncementsGenerative AI

Was this article helpful?

93 out of 132 found this helpful

Amazon Transcribe anuncia un nuevo sistema ASR basado en modelos de base para el habla que amplía el soporte a más de 100 idiomas

Comienza con Amazon Transcribe

Salida de la transcripción

Conclusión

Was this article helpful?

Por qué aceptar cualquier trabajo de datos es un terrible movimiento profesional y qué debes hacer en su lugar

Investigadores de la Universidad de California en San Diego presentan EUGENe un software de genómica fácil de usar y basado en el aprendizaje profundo

Inteligencia Artificial

GPT-4 8 Modelos en Uno; El Secreto ha Sido Revelado

ChatGPT ahora puede responder con palabras habladas

Conozca a NANA, el avatar de recepcionista con inteligencia artificial de Moonshine Studio

Anunciando la vista previa de Amazon SageMaker Profiler Haga un seguimiento y visualice datos detallados de rendimiento de hardware para sus cargas de trabajo de entrenamiento de modelos.

Investigadores de Stanford presentan PLATO Un nuevo enfoque de IA para abordar el ajuste excesivo en el aprendizaje automático de alta dimensión y baja muestra con regularización mejorada mediante gráficos de conocimiento.

Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión