Crear resúmenes de grabaciones utilizando IA generativa con Amazon Bedrock y Amazon Transcribe

Genera resúmenes de grabaciones utilizando IA Amazon Bedrock y Amazon Transcribe

Tomar notas en las reuniones es una parte crucial de la colaboración, pero a menudo se escapan. Entre dirigir las discusiones, escuchar atentamente y tomar notas, es fácil que la información clave se pierda sin registrarse. Incluso cuando se capturan notas, pueden estar desorganizadas o ilegibles, lo que las vuelve inútiles.

En esta publicación, exploramos cómo utilizar Amazon Transcribe y Amazon Bedrock para generar automáticamente resúmenes limpios y concisos de grabaciones de video o audio. Ya sea una reunión de equipo interno, una sesión de conferencia o una llamada de ganancias, este enfoque puede ayudarlo a condensar horas de contenido en puntos relevantes.

Presentamos una solución para transcribir una reunión de equipo de proyecto y resumir las ideas clave con Amazon Bedrock. También discutimos cómo puede personalizar esta solución para otros escenarios comunes como conferencias, entrevistas y llamadas de ventas. Siga leyendo para simplificar y automatizar su proceso de toma de notas.

Resumen de la solución

Al combinar Amazon Transcribe y Amazon Bedrock, puede ahorrar tiempo, capturar ideas y mejorar la colaboración. Amazon Transcribe es un servicio de reconocimiento de voz automático (ASR) que facilita agregar capacidad de texto a voz a las aplicaciones. Utiliza tecnologías avanzadas de aprendizaje profundo para transcribir el audio de manera precisa en texto. Amazon Bedrock es un servicio completamente administrado que ofrece una selección de modelos de base (FMs) de alto rendimiento de principales compañías de IA como AI21 Labs, Anthropic, Cohere, Meta, Stability AI y Amazon con una sola API, junto con un conjunto amplio de capacidades que necesita para desarrollar aplicaciones de IA generativas. Con Amazon Bedrock, puede experimentar fácilmente con una variedad de los mejores FMs y personalizarlos de forma privada con sus datos utilizando técnicas como el ajuste fino y la generación aumentada de recuperación (RAG).

La solución presentada en esta publicación se orquesta utilizando una máquina de estado de AWS Step Functions que se activa cuando carga una grabación en el depósito designado de Amazon Simple Storage Service (Amazon S3). Step Functions le permite crear flujos de trabajo sin servidor para orquestar y conectar componentes en los servicios de AWS. Maneja la complejidad subyacente para que pueda centrarse en la lógica de la aplicación. Es útil para coordinar tareas, procesamiento distribuido, ETL (extracción, transformación y carga) y automatización de procesos comerciales.

El siguiente diagrama ilustra la arquitectura de la solución a alto nivel.

El flujo de trabajo de la solución incluye los siguientes pasos:

  1. Un usuario almacena una grabación en el depósito de activos de S3.
  2. Esta acción activa la máquina de estados para transcripción y resumen de Step Functions.
  3. Como parte de la máquina de estados, se activa una función de AWS Lambda que transcribe la grabación utilizando Amazon Transcribe y almacena la transcripción en el depósito de activos.
  4. Una segunda función Lambda recupera la transcripción y genera un resumen utilizando el modelo Anthropic Claude en Amazon Bedrock.
  5. Por último, una función Lambda final utiliza el Servicio de Notificación Simple de Amazon (Amazon SNS) para enviar un resumen de la grabación al destinatario.

Esta solución es compatible en regiones donde Anthropic Claude en Amazon Bedrock está disponible.

La máquina de estados orquesta los pasos para realizar las tareas específicas. El siguiente diagrama ilustra el proceso detallado.

Requisitos previos

Los usuarios de Amazon Bedrock deben solicitar acceso a los modelos antes de que estén disponibles para su uso. Esta es una acción única. Para esta solución, deberás habilitar el acceso al modelo Anthropic Claude (no Anthropic Claude Instant) en Amazon Bedrock. Para obtener más información, consulta Acceso al modelo.

Desplegar los recursos de la solución

La solución se implementa utilizando una plantilla de AWS CloudFormation, que se encuentra en el repositorio de GitHub, para aprovisionar automáticamente los recursos necesarios en tu cuenta de AWS. La plantilla requiere los siguientes parámetros:

  • Dirección de correo electrónico utilizada para enviar el resumen – El resumen se enviará a esta dirección. Debes confirmar el correo electrónico de confirmación inicial de Amazon SNS antes de recibir notificaciones adicionales.
  • Instrucciones del resumen – Estas son las instrucciones que se dan al modelo de Amazon Bedrock para generar el resumen.

Ejecutar la solución

Después de implementar la solución utilizando AWS CloudFormation, completa los siguientes pasos:

  1. Confirma el correo electrónico de confirmación de Amazon SNS que deberías recibir unos momentos después de crear la pila de CloudFormation.
  2. En la consola de AWS CloudFormation, navega hasta la pila que acabas de crear.
  3. En la pestaña Outputs de la pila, busca el valor asociado con AssetBucketName; se verá algo como summary-generator-assetbucket-xxxxxxxxxxxxx.
  4. En la consola de Amazon S3, navega hasta tu bucket de assets.

Aquí es donde subirás tus grabaciones. Los formatos de archivo válidos son MP3, MP4, WAV, FLAC, AMR, OGG y WebM.

  1. Sube tu grabación a la carpeta recordings.

La subida de las grabaciones desencadenará automáticamente la máquina de estados de Step Functions. Para este ejemplo, utilizamos una grabación de una reunión de equipo de muestra en el directorio sample-recording del repositorio de GitHub.

  1. En la consola de Step Functions, navega hasta la máquina de estados summary-generator.
  2. Elige el nombre de la ejecución de la máquina de estados con el estado Running.

Aquí puedes ver el progreso de la máquina de estados mientras procesa la grabación.

  1. Después de que alcance su estado Success, deberías recibir un resumen de la grabación por correo electrónico.

Alternativamente, puedes navegar hasta el bucket de assets de S3 y ver la transcripción en la carpeta de transcripciones.

Revisar el resumen

Recibirás el resumen de la grabación por correo electrónico en la dirección que proporcionaste al crear la pila de CloudFormation. Si no recibes el correo electrónico en unos momentos, asegúrate de haber confirmado el correo electrónico de confirmación de Amazon SNS que deberías haber recibido después de crear la pila y luego vuelve a subir la grabación, lo que volverá a activar el proceso de resumen.

Esta solución incluye una grabación de una reunión de equipo de muestra que puedes utilizar para probar la solución. El resumen se verá similar al siguiente ejemplo. Sin embargo, debido a la naturaleza de la IA generativa, tu resultado se verá un poco diferente, pero el contenido debería ser similar.

Aquí están los puntos clave de la reunión:

  • Joe terminó de revisar el estado actual de la tarea EDU1 y creó una nueva tarea para desarrollar el estado futuro. Esta nueva tarea está en la lista de pendientes para ser priorizada. Ahora está comenzando con EDU2 pero está bloqueado por la selección de recursos.
  • Rob creó una estrategia de etiquetado para SLG1 basada en las mejores prácticas, pero puede que necesite coordinarse con otros equipos que hayan creado sus propias estrategias para alinearse con un enfoque uniforme. Se ha creado una nueva tarea para coordinar las estrategias de etiquetado.
  • Rob ha avanzado en la depuración de SLG2 pero puede que necesite ayuda adicional. Esta tarea se moverá a la Sprint 2 para permitir tiempo para obtener recursos adicionales.

Próximos pasos:

  • Joe continuará trabajando en EDU2 en la medida de lo posible hasta que se decida la selección de recursos
  • Se priorizará una nueva tarea para coordinar las estrategias de etiquetado entre los equipos
  • SLG2 se moverá a la Sprint 2
  • Las reuniones de seguimiento pasarán a celebrarse los lunes a partir de la próxima semana

Ampliar la solución

Ahora que tienes una solución funcional, aquí tienes algunas ideas potenciales para personalizar la solución para tus casos de uso específicos:

  • Intenta modificar el proceso para adaptarlo a tu contenido de origen disponible y a las salidas deseadas:
    • Para situaciones en las que haya transcripciones disponibles, crea un flujo de trabajo alternativo de Step Functions para ingresar transcripciones existentes basadas en texto o PDF.
    • En lugar de utilizar Amazon SNS para notificar a los destinatarios por correo electrónico, puedes usarlo para enviar la salida a un punto final diferente, como un sitio de colaboración en equipo o al canal de chat del equipo.
  • Intenta cambiar el parámetro de configuración de la pila de CloudFormation de instrucciones de resumen proporcionado a Amazon Bedrock para producir salidas específicas para tu caso de uso (este es el estímulo generador de IA):
    • Cuando resumas una conferencia de ganancias de una empresa, podrías hacer que el modelo se centre en oportunidades prometedoras potenciales, áreas de preocupación y cosas que debes seguir monitoreando.
    • Si estás utilizando esto para resumir una conferencia de un curso, el modelo podría identificar próximas tareas, resumir conceptos clave, listar hechos y filtrar cualquier conversación trivial de la grabación.
  • Para la misma grabación, crea resúmenes diferentes para diferentes audiencias:
    • Los resúmenes para ingenieros se centran en decisiones de diseño, desafíos técnicos y entregables futuros.
    • Los resúmenes para gestores de proyectos se centran en plazos, costos, entregables y acciones a tomar.
    • Los patrocinadores de proyecto reciben una breve actualización sobre el estado del proyecto y las escalaciones.
    • Para grabaciones más largas, intenta generar resúmenes para diferentes niveles de interés y compromiso de tiempo. Por ejemplo, crea una oración, un párrafo, una página o un resumen más detallado. Además del estímulo, es posible que desees ajustar el parámetro max_tokens_to_sample para adaptarse a diferentes longitudes de contenido.

Limpiar

Para limpiar la solución, elimina la pila de CloudFormation que creaste anteriormente. Ten en cuenta que eliminar la pila no eliminará el depósito de activos. Si ya no necesitas las grabaciones o transcripciones, puedes eliminar este depósito por separado. Amazon Transcribe eliminará automáticamente los trabajos de transcripción después de 90 días, pero puedes eliminarlos manualmente antes de ese momento.

Conclusión

En esta publicación, exploramos cómo utilizar Amazon Transcribe y Amazon Bedrock para generar automáticamente resúmenes limpios y concisos de grabaciones de video o audio. Te animamos a continuar evaluando Amazon Bedrock, Amazon Transcribe y otros servicios de IA de AWS, como Amazon Textract, Amazon Translate y Amazon Rekognition, para ver cómo pueden ayudar a cumplir tus objetivos comerciales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

NetEase Youdao abrió EmotiVoice al público un motor de texto a voz potente y moderno.

NetEase Youdao anunció el lanzamiento oficial del “Yi Mo Sheng”: Un motor de síntesis de voz a texto abie...

Inteligencia Artificial

Conoce a GigaGPT la implementación de Cerebras del nanoGPT de Andrei Karpathy que entrena modelos de IA del tamaño de GPT-3 en solo 565 líneas de código.

Entrenar modelos de transformadores grandes presenta desafíos significativos, especialmente cuando se busca modelos c...

Inteligencia Artificial

OpenAI desvela GPT-4 Turbo Un avance personalizable hacia el futuro de la inteligencia artificial

En una industria donde la innovación es tanto rápida como revolucionaria, OpenAI ha vuelto a empujar los límites de l...

Inteligencia Artificial

OpenAI abre las puertas a la IA empresarial

Aproveche las soluciones empresariales de OpenAI para la automatización, personalización y cumplimiento de negocios. ...

Inteligencia Artificial

Investigadores de UCSC y TU Munich proponen RECAST un nuevo modelo basado en el aprendizaje profundo para predecir réplicas

La Inteligencia Artificial encuentra su camino en casi todos los campos posibles. Ha habido una amplia investigación ...