Amazon Transcribe anuncia un nuevo sistema ASR basado en modelos de base para el habla que amplía el soporte a más de 100 idiomas

Amazon Transcribe lanza un nuevo sistema ASR que expande el soporte a más de 100 idiomas, basado en modelos de base para el habla

Amazon Transcribe es un servicio de reconocimiento automático de voz (ASR) completamente administrado que te permite agregar fácilmente capacidades de texto a voz a tus aplicaciones. Hoy, nos complace anunciar un sistema de modelo de fundamentos del habla con miles de millones de parámetros de próxima generación que expande el reconocimiento automático de voz a más de 100 idiomas. En esta publicación, discutiremos algunos de los beneficios de este sistema, cómo las empresas lo están utilizando y cómo comenzar. También proporcionamos un ejemplo de la salida de transcripción a continuación.

El modelo de fundamentos del habla de Transcribe se entrena utilizando algoritmos de autoaprendizaje de primer nivel para aprender los patrones universales inherentes al habla humana en diferentes idiomas y acentos. Se entrena con millones de horas de datos de audio sin etiquetar de más de 100 idiomas. Las recetas de entrenamiento se optimizan mediante un muestreo inteligente de datos para equilibrar los datos de entrenamiento entre los idiomas, asegurando que los idiomas que tradicionalmente están subrepresentados también alcancen niveles de precisión altos.

Carbyne es una empresa de software que desarrolla soluciones de centro de contacto basadas en la nube y críticas para los servicios de emergencias. La misión de Carbyne es ayudar a los servicios de emergencia a salvar vidas, y el idioma no puede ser un obstáculo para sus objetivos. Así es como utilizan Amazon Transcribe para cumplir con su misión:

“La traducción de audio en vivo con IA de Carbyne tiene como objetivo ayudar a mejorar la respuesta de emergencia para los 68 millones de estadounidenses que hablan un idioma distinto al inglés en su hogar, además de los hasta 79 millones de visitantes extranjeros al país cada año. Al aprovechar el ASR del modelo de fundamentos multilingüe de Amazon Transcribe, Carbyne estará aún más preparado para democratizar los servicios de emergencia que salvan vidas, porque Cada. Persona. Cuenta.

– Alex Dizengof, cofundador y CTO de Carbyne.

Aprovechando el modelo de fundamentos del habla, Amazon Transcribe ofrece una mejora significativa en la precisión de entre el 20% y el 50% en la mayoría de los idiomas. En el habla telefónica, que es un dominio desafiante y escaso en datos, la mejora en la precisión es entre el 30% y el 70%. Además de una mejora sustancial en la precisión, este gran modelo ASR también ofrece mejoras en la legibilidad con una puntuación y una capitalización más precisas. Con la llegada de la IA generativa, miles de empresas están utilizando Amazon Transcribe para obtener valiosas ideas de su contenido de audio. Con una precisión mejorada y soporte para más de 100 idiomas, Amazon Transcribe impactará positivamente en todos estos casos de uso. Todos los clientes existentes y nuevos que utilicen Amazon Transcribe en modo por lotes pueden acceder al reconocimiento de voz impulsado por el modelo de fundamentos del habla sin necesidad de realizar cambios en el punto final de la API ni en los parámetros de entrada.

El nuevo sistema ASR ofrece diversas características clave en los más de 100 idiomas relacionados con facilidad de uso, personalización, seguridad del usuario y privacidad. Estos incluyen características como puntuación automática, vocabulario personalizado, identificación automática de idioma, diarización de oradores, calificaciones de confianza a nivel de palabra y filtro de vocabulario personalizado. El soporte ampliado del sistema para diferentes acentos, entornos de ruido y condiciones acústicas te permite generar resultados más precisos y te ayuda a incorporar de manera efectiva las tecnologías de voz en tus aplicaciones.

Gracias a la alta precisión de Amazon Transcribe en diferentes acentos y condiciones de ruido, su soporte para un gran número de idiomas y su amplio conjunto de características de valor agregado, miles de empresas estarán capacitadas para desbloquear valiosas ideas de su contenido de audio, así como aumentar la accesibilidad y facilidad de descubrimiento de su contenido de audio y video en varios ámbitos. Por ejemplo, los centros de contacto transcriben y analizan las llamadas de los clientes para identificar ideas y posteriormente mejorar la experiencia del cliente y la productividad del agente. Los productores de contenido y los distribuidores de medios generan automáticamente subtítulos utilizando Amazon Transcribe para mejorar la accesibilidad del contenido.

Comienza con Amazon Transcribe

Puedes utilizar la Interfaz de línea de comandos de AWS (AWS CLI), la Consola de administración de AWS y varias SDK de AWS para transcripciones por lotes y seguir utilizando la misma API StartTranscriptionJob para obtener los beneficios de rendimiento del modelo ASR mejorado sin necesidad de realizar cambios en tu código o parámetros. Para obtener más información sobre cómo utilizar la CLI de AWS y la consola, consulta Transcripción con la CLI de AWS y Transcripción con la consola de administración de AWS, respectivamente.

El primer paso es cargar tus archivos multimedia en un Amazon Simple Storage Service (Amazon S3) bucket, un servicio de almacenamiento de objetos diseñado para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar. Amazon S3 ofrece durabilidad, disponibilidad, rendimiento, seguridad y una escalabilidad virtualmente ilimitada líderes en la industria, a un costo muy bajo. Puedes elegir guardar tu transcripción en tu propio bucket de S3, o hacer que Amazon Transcribe use un bucket predeterminado y seguro. Para obtener más información sobre el uso de los buckets de S3, consulta Creación, configuración y trabajo con buckets de Amazon S3.

Salida de la transcripción

Amazon Transcribe utiliza la representación JSON para su salida. Proporciona el resultado de la transcripción en dos formatos diferentes: formato de texto y formato detallado por ítems. Nada cambia con respecto al punto final de la API o los parámetros de entrada.

El formato de texto proporciona la transcripción como un bloque de texto, mientras que el formato detallado por ítems proporciona la transcripción en forma de ítems transcritos ordenados por tiempo, junto con metadatos adicionales por ítem. Ambos formatos existen en paralelo en el archivo de salida.

Dependiendo de las características que selecciones al crear el trabajo de transcripción, Amazon Transcribe crea vistas adicionales y enriquecidas del resultado de la transcripción. Consulta el siguiente código de ejemplo:

{   "jobName": "2x-speakers_2x-channels",    "accountId": "************",    "results": {        "transcripts": [{                "transcript": "Hola, bienvenido."            }        ],        "speaker_labels": [            {                "channel_label": "ch_0",                "speakers": 2,                "segments": [                ]            },            {                "channel_label": "ch_1",                "speakers": 2,                "segments": [                ]            }        ],        "channel_labels": {            "channels": [            ],            "number_of_channels": 2        },        "items": [                    ],        "segments": [        ]    },    "status": "COMPLETADO"}

Las vistas son las siguientes:

  • Transcripciones – Representado por el elemento transcripts, contiene solo el formato de texto de la transcripción. En escenarios de múltiples hablantes y múltiples canales, se proporciona la concatenación de todas las transcripciones como un solo bloque.
  • Hablantes – Representado por el elemento speaker_labels, contiene los formatos de texto y detallados por ítems de la transcripción agrupados por hablante. Solo está disponible cuando se habilita la función de múltiples hablantes.
  • Canales – Representado por el elemento channel_labels, contiene los formatos de texto y detallados por ítems de la transcripción agrupados por canal. Solo está disponible cuando se habilita la función de múltiples canales.
  • Ítems – Representado por el elemento items, contiene solo el formato detallado por ítems de la transcripción. En escenarios de múltiples hablantes y múltiples canales, los ítems se enriquecen con propiedades adicionales que indican el hablante y el canal.
  • Segmentos – Representado por el elemento segments, contiene los formatos de texto y detallados por ítems de la transcripción agrupados por transcripción alternativa. Solo está disponible cuando se habilita la función de resultados alternativos.

Conclusión

En AWS, estamos constantemente innovando en nombre de nuestros clientes. Al extender el soporte de idiomas en Amazon Transcribe a más de 100 idiomas, permitimos que nuestros clientes sirvan a usuarios de diversos orígenes lingüísticos. Esto no solo mejora la accesibilidad, sino que también abre nuevas oportunidades de comunicación e intercambio de información a nivel global. Para obtener más información sobre las características discutidas en esta publicación, visita la página de características y el artículo sobre las novedades.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

GPT-4 8 Modelos en Uno; El Secreto ha Sido Revelado

GPT4 mantuvo el modelo en secreto para evitar la competencia, ¡ahora el secreto está revelado!

Inteligencia Artificial

ChatGPT ahora puede responder con palabras habladas

Una versión recién lanzada del chatbot ChatGPT de OpenAI puede interactuar con los usuarios de forma vocal, además de...

Inteligencia Artificial

Conozca a NANA, el avatar de recepcionista con inteligencia artificial de Moonshine Studio

Nota del editor: Esta publicación es parte de nuestra serie semanal En el Estudio de NVIDIA, que celebra a artistas d...

Inteligencia Artificial

Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión

Los modelos de lenguaje grandes de última generación (LLMs), incluyendo BERT, GPT-2, BART, T5, GPT-3 y GPT-4, han sid...