Acelere el ciclo de vida del desarrollo del chatbot de Amazon Lex con Test Workbench.

Accelerate Amazon Lex chatbot development lifecycle with Test Workbench.

Amazon Lex se complace en anunciar Test Workbench, una nueva solución de prueba de bots que proporciona herramientas para simplificar y automatizar el proceso de prueba de bots. Durante el desarrollo del bot, la prueba es la fase en la que los desarrolladores verifican si un bot cumple con los requisitos, necesidades y expectativas específicas identificando errores, defectos o errores en el sistema antes de escalar. La prueba ayuda a validar el rendimiento del bot en varios frentes, como el flujo conversacional (entendiendo las consultas del usuario y respondiendo con precisión), el manejo de la superposición de intenciones y la consistencia entre las modalidades. Sin embargo, la prueba a menudo es manual, propensa a errores y no estandarizada. Test Workbench estandariza la gestión automatizada de pruebas al permitir que los equipos de desarrollo de chatbots generen, mantengan y ejecuten conjuntos de pruebas con una metodología consistente y eviten la creación de scripts personalizados y las integraciones ad hoc. En esta publicación, aprenderá cómo Test Workbench simplifica la prueba automatizada de las modalidades de voz y texto de un bot y proporciona medidas de precisión y rendimiento para parámetros como la transcripción de audio, el reconocimiento de intención y la resolución de ranuras para entradas de una sola expresión y conversaciones de múltiples turnos. Esto le permite identificar rápidamente las áreas de mejora del bot y mantener una línea de base consistente para medir la precisión con el tiempo y observar cualquier regresión de precisión debido a las actualizaciones del bot.

Amazon Lex es un servicio completamente administrado para construir interfaces de voz y texto conversacionales. Amazon Lex lo ayuda a construir y implementar chatbots y asistentes virtuales en sitios web, servicios de centros de contacto y canales de mensajería. Los bots de Amazon Lex ayudan a aumentar la productividad de la respuesta de voz interactiva (IVR), automatizar tareas simples y impulsar la eficiencia operativa en toda la organización. Test Workbench para Amazon Lex estandariza y simplifica el ciclo de prueba de bots, lo que es fundamental para mejorar el diseño del bot.

Características de Test Workbench

Test Workbench para Amazon Lex incluye las siguientes características:

  • Generar conjuntos de datos de prueba automáticamente a partir de los registros de conversación de un bot
  • Subir líneas base de conjuntos de prueba construidas manualmente
  • Realizar pruebas de extremo a extremo de una sola entrada o conversaciones de múltiples turnos
  • Probar las modalidades de audio y texto de un bot
  • Revisar métricas agregadas y detalladas para dimensiones de bot:
    • Transcripción de voz
    • Reconocimiento de intención
    • Resolución de ranura (incluyendo ranuras de múltiples valores o ranuras compuestas)
    • Etiquetas de contexto
    • Atributos de sesión
    • Atributos de solicitud
    • Indicios de tiempo de ejecución
    • Retardo de tiempo en segundos

Prerrequisitos

Para probar esta función, debe tener lo siguiente:

  • Una cuenta de AWS con acceso de administrador
  • Un bot minorista de muestra importado a través de la consola de Amazon Lex (para obtener más información, consulte la importación de un bot)
  • Una fuente de conjunto de pruebas, ya sea de:
    • Registros de conversación habilitados para el bot para almacenar interacciones de bot, o
    • Un conjunto de pruebas minorista de muestra que se puede importar siguiendo las instrucciones proporcionadas en esta publicación

Además, debe tener conocimiento y comprensión de los siguientes servicios y características:

  • Amazon Lex
  • Amazon CloudWatch
  • Gestión de identidades y accesos de AWS (IAM)

Crear un conjunto de pruebas

Para crear su conjunto de pruebas, siga los siguientes pasos:

  1. En la consola de Amazon Lex, en Test workbench en el panel de navegación, elija Conjuntos de pruebas.

Puede revisar una lista de conjuntos de pruebas existentes, incluida información básica como nombre, descripción, número de entradas de prueba, modalidad y estado. En los siguientes pasos, puede elegir entre generar un conjunto de pruebas a partir de los registros de conversación asociados con el bot o cargar un conjunto de pruebas construido manualmente existente en formato de archivo CSV.

  1. Elija Crear conjunto de pruebas.
  • Generar conjuntos de pruebas a partir de registros de conversación le permite hacer lo siguiente:
    • Incluir conversaciones de múltiples turnos reales de los registros del bot en CloudWatch
    • Incluir registros de audio y realizar pruebas que tengan en cuenta los matices reales del habla, los ruidos de fondo y los acentos
    • Acelerar la creación de conjuntos de pruebas
  • La carga de un conjunto de pruebas construido manualmente le permite hacer lo siguiente:
    • Probar nuevos bots para los que no hay datos de producción
    • Realizar pruebas de regresión en bots existentes para cualquier intención, ranura o flujo de conversación nuevo o modificado
    • Probar escenarios cuidadosamente elaborados y detallados que especifiquen atributos de sesión y atributos de solicitud

Para generar un conjunto de pruebas, complete los siguientes pasos. Si desea cargar un conjunto de pruebas construido manualmente, vaya al paso 7.

  1. Elija Generar un conjunto de pruebas de línea de base.
  2. Elija sus opciones para Nombre del bot , Alias del bot y Idioma .
  3. Para Rango de tiempo , establezca un rango de tiempo para los registros.
  4. Para Rol IAM existente , elija un rol.

Asegúrese de que el rol IAM pueda otorgarle acceso para recuperar información de los registros de la conversación. Consulte la creación de roles IAM para crear un rol IAM con la política apropiada.

  1. Si prefiere utilizar un conjunto de pruebas creado manualmente, seleccione Cargar un archivo en este conjunto de pruebas .
  2. Para Cargar un archivo en este conjunto de pruebas , elija una de las siguientes opciones:
    • Seleccione Cargar desde el bucket de S3 para cargar un archivo CSV desde un bucket de Amazon Simple Storage Service (Amazon S3).
    • Seleccione Cargar un archivo en este conjunto de pruebas para cargar un archivo CSV desde su computadora.

Puede utilizar el conjunto de pruebas de muestra proporcionado en esta publicación. Para obtener más información sobre las plantillas, elija el enlace Plantilla CSV en la página.

  1. Para Modalidad , seleccione la modalidad de su conjunto de pruebas, ya sea Texto o Audio .

Test Workbench proporciona soporte de prueba para formatos de entrada de audio y texto.

  1. Para Ubicación de S3 , ingrese la ubicación del bucket de S3 donde se almacenarán los resultados.
  2. Opcionalmente, elija una clave de AWS Key Management Service (AWS KMS) para cifrar las transcripciones de salida.
  3. Elija Crear .

Su conjunto de pruebas recién creado se mostrará en la página de Conjuntos de pruebas con uno de los siguientes estados:

  • Listo para anotar – Para los conjuntos de pruebas generados a partir de los registros de conversación del bot de Amazon Lex, el paso de anotación sirve como un mecanismo de selección manual para garantizar entradas de prueba de calidad. Al anotar valores para intenciones esperadas y ranuras esperadas para cada elemento de línea de prueba, se indica la “verdad fundamental” para esa línea. Los resultados de la prueba de la ejecución del bot se recopilan y se comparan con la verdad fundamental para marcar los resultados de la prueba como aprobados o fallidos. Esta comparación a nivel de línea permite crear medidas agregadas.
  • Listo para probar – Esto indica que el conjunto de pruebas está listo para ser ejecutado contra un bot de Amazon Lex.
  • Error de validación – Los archivos de prueba cargados se verifican en busca de errores como la longitud máxima admitida excedida, caracteres no válidos en los nombres de intención o vínculos de Amazon S3 no válidos que contengan archivos de audio. Si el conjunto de pruebas está en el estado de Error de validación , descargue el archivo que muestra los detalles de validación para ver los problemas o errores de entrada de prueba en base a línea. Una vez que se resuelven, puede cargar manualmente el conjunto de pruebas CSV corregido en el conjunto de pruebas.

Ejecución de un conjunto de pruebas

Un conjunto de pruebas está desacoplado de un bot. El mismo conjunto de pruebas se puede ejecutar contra un bot o alias de bot diferente en el futuro a medida que evoluciona el caso de uso empresarial. Para informar las métricas de rendimiento de un bot contra los datos de prueba de referencia, complete los siguientes pasos:

  1. Importe la definición del bot de ejemplo y construya el bot (consulte Importación de un bot para obtener orientación).
  2. En la consola de Amazon Lex, elija Conjuntos de pruebas en el panel de navegación.
  3. Elija su conjunto de pruebas validado.

Aquí puede revisar información básica sobre el conjunto de pruebas y los datos de prueba importados.

  1. Elija Ejecutar prueba .
  2. Elija las opciones apropiadas para Nombre del bot, Alias del bot y Idioma .
  3. Para Tipo de prueba , seleccione Audio o Texto .
  4. Para Selección de punto final , seleccione Streaming o No-Streaming .
  5. Elija Validar discrepancia para validar su conjunto de datos de prueba.

Antes de ejecutar un conjunto de pruebas, puede validar la cobertura de la prueba, incluida la identificación de intenciones y espacios presentes en el conjunto de pruebas pero no en el bot. Esta advertencia temprana sirve para establecer las expectativas del probador para las fallas de prueba inesperadas. Si se detectan discrepancias entre su conjunto de datos de prueba y su bot, la página Ejecutar prueba se actualizará con el botón Ver detalles.

Las intenciones y espacios encontrados en el conjunto de datos de prueba pero no en el alias del bot se enumeran como se muestra en las siguientes capturas de pantalla.

  1. Después de validar las discrepancias, elija Ejecutar para ejecutar la prueba.

Revisar resultados

Las medidas de rendimiento generadas después de ejecutar un conjunto de pruebas lo ayudan a identificar áreas del diseño del bot que necesitan mejoras y son útiles para acelerar el desarrollo y la entrega del bot para ayudar a sus clientes. Test Workbench proporciona información sobre la clasificación de intenciones y la resolución de espacios en la conversación de extremo a extremo y en el nivel de entrada de una sola línea. Las pruebas completadas se almacenan con marcas de tiempo en su bucket S3 y se pueden usar para revisiones comparativas futuras.

  1. En la consola de Amazon Lex, elija Resultados de prueba en el panel de navegación.
  2. Elija el ID del resultado de prueba de los resultados que desea revisar.

En la siguiente página, los resultados de la prueba incluirán un desglose de resultados organizados en cuatro pestañas principales: Resultados generales, Resultados de conversaciones, Resultados de intención y ranura, y Resultados detallados.

Resultados generales

La pestaña de Resultados generales contiene tres secciones principales:

  • Desglose de entradas del conjunto de pruebas – Un gráfico que muestra el número total de conversaciones de extremo a extremo y de entradas de una sola entrada en el conjunto de pruebas.
  • Desglose de entradas únicas – Un gráfico que muestra el número de entradas únicas aprobadas o rechazadas.
  • Desglose de conversaciones – Un gráfico que muestra el número de conversaciones de varias vueltas aprobadas o rechazadas.

Para los conjuntos de pruebas que se ejecutan en modalidad de audio, se proporcionan gráficos de transcripción de voz que muestran el número de transcripciones de voz aprobadas o rechazadas tanto en entradas únicas como en tipos de conversación. En la modalidad de audio, una entrada única o una conversación de varias vueltas podría pasar la prueba de transcripción de voz, pero fallar en la prueba de extremo a extremo en general. Esto puede ser causado, por ejemplo, por un problema de resolución de ranura o de reconocimiento de intención.

Resultados de conversaciones

Test Workbench le ayuda a analizar los fallos de conversación que se pueden atribuir a intenciones o ranuras específicas. La pestaña de Resultados de conversación está organizada en tres áreas principales que cubren todas las intenciones y ranuras utilizadas en el conjunto de pruebas:

  • Tasas de aprobación de conversación – Una tabla utilizada para visualizar qué intenciones y ranuras son responsables de posibles fallos de conversación.
  • Métricas de fallo de intención de conversación – Un gráfico de barras que muestra las cinco intenciones con peor rendimiento en el conjunto de pruebas, si las hay.
  • Métricas de fallo de ranura de conversación – Un gráfico de barras que muestra las cinco ranuras con peor rendimiento en el conjunto de pruebas, si las hay.

Resultados de intención y ranura

La pestaña de Resultados de intención y ranura proporciona métricas detalladas para dimensiones del bot como el reconocimiento de intención y la resolución de ranura.

  • Métricas de reconocimiento de intención – Una tabla que muestra la tasa de éxito del reconocimiento de intención.
  • Métricas de resolución de ranura – Una tabla que muestra la tasa de éxito de la resolución de ranura, por cada intención.

Resultados detallados

Puede acceder a un informe detallado de la prueba ejecutada en la pestaña de Resultados detallados. Se muestra una tabla para mostrar la transcripción real, la intención de salida y los valores de ranura en un conjunto de pruebas. El informe se puede descargar como un archivo CSV para su análisis posterior.

La salida a nivel de línea proporciona información para ayudar a mejorar el diseño del bot y aumentar la precisión. Por ejemplo, las entradas de voz mal reconocidas o perdidas, como las palabras de marca, se pueden agregar al vocabulario personalizado de una intención o como entradas bajo una intención.

Para mejorar aún más el diseño de la conversación, puede consultar esta publicación que describe las mejores prácticas para utilizar ML para crear un bot que deleitará a sus clientes entendiendo con precisión lo que dicen.

Conclusión

En esta publicación, presentamos Test Workbench para Amazon Lex, una capacidad nativa que estandariza el proceso de pruebas automatizadas de chatbot y permite a los desarrolladores y diseñadores de conversaciones agilizar e iterar rápidamente a través del diseño y desarrollo de bots.

¡Esperamos saber cómo utiliza esta nueva funcionalidad de Amazon Lex y agradecemos sus comentarios! Para cualquier pregunta, error o solicitud de función, por favor contáctenos a través de AWS re:Post para Amazon Lex o sus contactos de soporte de AWS.

Para obtener más información, consulte las preguntas frecuentes de Amazon Lex y la guía del desarrollador de Amazon Lex V2.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Revolucionando el Diseño de Proteínas Cómo esta investigación de IA aumentó las tasas de éxito diez veces con mejoras en el Aprendizaje Profundo

Las proteínas son estructuras poliméricas que controlan casi todas las enfermedades. El principal problema es encontr...

Inteligencia Artificial

Descifrando los misterios de los modelos de lenguaje grandes un análisis detallado de las funciones de influencia y su escalabilidad

Los modelos de lenguaje grandes (LLMs) han acelerado el desarrollo en varios campos del mundo real y han demostrado h...

Inteligencia Artificial

Conoce SDFStudio un marco unificado y modular para la reconstrucción de superficies neuronales implícitas basado en el proyecto Nerfstudio.

En los últimos años, ha habido un aumento rápido en varios campos relacionados con la visión por computadora y la com...

Inteligencia Artificial

Aprendizaje automático en línea para la predicción de la tasa de flujo de influente de aguas residuales en tiempo real ante emergencias sin precedentes

Pronosticar con precisión la tasa de flujo entrante es necesario para los operadores y administradores de plantas de ...

Inteligencia Artificial

Microsoft lanza Orca 2 Pionera en la lógica avanzada en modelos de lenguaje más pequeños con estrategias de entrenamiento personalizadas

Los LLM (Modelos de Lenguaje Grande) se entrenan en grandes volúmenes de datos textuales para comprender y producir l...