Detecta contenido perjudicial utilizando la detección de toxicidad de Amazon Comprehend

Detecta contenido dañino con la función de detección de toxicidad de Amazon Comprehend

Las comunidades en línea están impulsando la participación de los usuarios en diversas industrias como los juegos, las redes sociales, el comercio electrónico, las citas y el aprendizaje en línea. Los miembros de estas comunidades confían en los propietarios de las plataformas para proporcionar un entorno seguro e inclusivo donde puedan consumir contenido y contribuir libremente. A menudo se emplea a moderadores de contenido para revisar el contenido generado por los usuarios y asegurarse de que sea seguro y cumpla con los términos de uso. Sin embargo, la creciente escala, complejidad y variedad de contenido inapropiado hace que los flujos de trabajo de moderación humana sean poco escalables y costosos. El resultado son comunidades pobres, perjudiciales y no inclusivas que desvinculan a los usuarios y tienen un impacto negativo en la comunidad y en el negocio.

Junto con el contenido generado por los usuarios, el contenido generado por máquinas ha planteado un nuevo desafío en la moderación de contenido. Crea automáticamente contenido altamente realista que puede ser inapropiado o perjudicial a gran escala. La industria se enfrenta al nuevo desafío de moderar automáticamente el contenido generado por la inteligencia artificial para proteger a los usuarios de material perjudicial.

En esta publicación, presentamos la detección de toxicidad, una nueva función de Amazon Comprehend que te ayuda a detectar automáticamente contenido perjudicial en texto generado por usuarios o máquinas. Esto incluye texto plano, texto extraído de imágenes y texto transcrito de contenido de audio o video.

Detectar toxicidad en contenido de texto con Amazon Comprehend

Amazon Comprehend es un servicio de procesamiento del lenguaje natural (PLN) que utiliza aprendizaje automático (AA) para descubrir información valiosa y conexiones en el texto. Ofrece una variedad de modelos de AA que pueden ser preentrenados o personalizados a través de interfaces de API. Amazon Comprehend ahora proporciona una solución directa basada en PLN para la detección de contenido tóxico en texto.

La API de Detección de Toxicidad de Amazon Comprehend asigna un puntaje de toxicidad general al contenido del texto, que varía de 0 a 1, indicando la probabilidad de que sea tóxico. También categoriza el texto en las siguientes siete categorías y proporciona un puntaje de confianza para cada una:

  • HATE_SPEECH: Discurso que critica, insulta, denuncia o deshumaniza a una persona o grupo en base a una identidad, ya sea raza, etnia, identidad de género, religión, orientación sexual, capacidad, origen nacional u otro grupo de identidad.
  • GRAPHIC: Discurso que utiliza imágenes descriptivas, detalladas y desagradablemente vívidas. Este lenguaje a menudo se vuelve prolijo para amplificar un insulto o causar incomodidad o daño al destinatario.
  • HARASSMENT_OR_ABUSE: Discurso que impone dinámicas de poder disruptivas entre el hablante y el oyente (independientemente de la intención), busca afectar el bienestar psicológico del destinatario u objetivar a una persona.
  • SEXUAL: Discurso que indica interés sexual, actividad o excitación utilizando referencias directas o indirectas a partes del cuerpo, características físicas o sexo.
  • VIOLENCE_OR_THREAT: Discurso que incluye amenazas que buscan infligir dolor, lesiones o hostilidad hacia una persona o grupo.
  • INSULT: Discurso que incluye un lenguaje denigrante, humillante, burlón, insultante o despreciativo.
  • PROFANITY: Discurso que contiene palabras, frases o acrónimos que son impolítos, vulgares u ofensivos.

Puedes acceder a la API de Detección de Toxicidad llamándola directamente a través de la Interfaz de Línea de Comandos de AWS (AWS CLI) y las SDK de AWS. Actualmente, la detección de toxicidad en Amazon Comprehend es compatible solo en inglés.

Casos de uso

La moderación de texto desempeña un papel crucial en la gestión de contenido generado por usuarios en diversos formatos, como publicaciones en redes sociales, mensajes de chat en línea, discusiones en foros, comentarios de sitios web, entre otros. Además, las plataformas que aceptan contenido de video y audio pueden utilizar esta función para moderar el contenido transcrito de audio.

La aparición de inteligencia artificial generativa y grandes modelos de lenguaje (LLM) representa la última tendencia en el campo de la IA. En consecuencia, existe una creciente necesidad de soluciones receptivas para moderar el contenido generado por LLM. La API de Detección de Toxicidad de Amazon Comprehend es ideal para abordar esta necesidad.

Solicitud de la API de Detección de Toxicidad de Amazon Comprehend

Puedes enviar hasta 10 segmentos de texto a la API de Detección de Toxicidad, cada uno con un límite de tamaño de 1 KB. Cada segmento de texto en la solicitud se maneja de forma independiente. En el siguiente ejemplo, generamos un archivo JSON llamado toxicity_api_input.json que contiene el contenido de texto, incluyendo tres segmentos de texto de muestra para moderación. Ten en cuenta que en el ejemplo, las palabras obscenas están censuradas como XXXX.

Puedes usar la AWS CLI para invocar la API de Detección de Toxicidad utilizando el archivo JSON anterior que contiene el contenido de texto:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

Respuesta de la API de Detección de Toxicidad de Amazon Comprehend

La salida JSON de la API de Detección de Toxicidad incluirá el resultado del análisis de toxicidad en el campo ResultList. ResultList lista los elementos de segmentos de texto y la secuencia representa el orden en que se recibieron las secuencias de texto en la solicitud de la API. La toxicidad representa la puntuación de confianza general de la detección (entre 0 y 1). Las etiquetas incluyen una lista de etiquetas de toxicidad con puntuaciones de confianza, categorizadas por el tipo de toxicidad.

El siguiente código muestra la respuesta JSON de la API de Detección de Toxicidad basado en el ejemplo de solicitud en la sección anterior:

{    "ResultList": [        {            "Toxicity": 0.009200000204145908,            "Labels": [                { "Name": "PROFANIDAD", "Score": 0.0007999999797903001},                { "Name": "DISCURSO_DE_ODIO", "Score": 0.0017999999690800905},                { "Name": "INSULTO", "Score": 0.003000000026077032},                { "Name": "GRÁFICO", "Score": 0.0010000000474974513},                { "Name": "ACOSO_O_ABUSO", "Score": 0.0013000000035390258},                { "Name": "SEXUAL", "Score": 0.0017000000225380063},                { "Name": "VIOLENCIA_O_AMENAZA", "Score": 0.004999999888241291}            ]        },        {            "Toxicity": 0.7358999848365784,            "Labels": [                { "Name": "PROFANIDAD", "Score": 0.011900000274181366},                { "Name": "DISCURSO_DE_ODIO", "Score": 0.019500000402331352},                { "Name": "INSULTO", "Score": 0.0714000016450882},                { "Name": "GRÁFICO", "Score": 0.006099999882280827},                { "Name": "ACOSO_O_ABUSO", "Score": 0.018200000748038292},                { "Name": "SEXUAL", "Score": 0.0027000000700354576},                { "Name": "VIOLENCIA_O_AMENAZA", "Score": 0.8145999908447266}            ]        },        {            "Toxicity": 0.9843000173568726,            "Labels": [                { "Name": "PROFANIDAD", "Score": 0.9369999766349792 },                { "Name": "DISCURSO_DE_ODIO", "Score": 0.30880001187324524 },                { "Name": "INSULTO", "Score": 0.42100000381469727 },                { "Name": "GRÁFICO", "Score": 0.12630000710487366 },                { "Name": "ACOSO_O_ABUSO", "Score": 0.25519999861717224 },                { "Name": "SEXUAL", "Score": 0.19169999659061432 },                { "Name": "VIOLENCIA_O_AMENAZA", "Score": 0.19539999961853027 }            ]        }    ]}

En el JSON anterior, el primer segmento de texto se considera seguro con una puntuación de toxicidad baja. Sin embargo, los segundo y tercer segmentos de texto recibieron puntuaciones de toxicidad del 73% y 98%, respectivamente. Para el segundo segmento, Amazon Comprehend detecta una puntuación de toxicidad alta para VIOLENCIA_O_AMENAZA; para el tercer segmento, detecta PROFANIDAD con una puntuación de toxicidad alta.

Ejemplo de solicitud utilizando el SDK de Python

El siguiente fragmento de código demuestra cómo utilizar Python SDK para invocar la API de detección de toxicidad. Este código devuelve la misma respuesta JSON que el comando de AWS CLI que se demostró anteriormente.

import boto3 import base64# Inicializar un objeto cliente de Comprehend en boto3comprehend_client = session.client('comprehend')# Llamar a la API Detectar Contenido Tóxico de Comprehend con segmentos de textoresponse = comprehend_client.detect_toxic_content(     TextSegments=[          {"Text": "ir a través de la puerta ir a través de la puerta está a la derecha"},          {"Text": "está a la derecha XXXXX él"},          {"Text": "qué demonios estás haciendo hombre, por eso no quería jugar"}     ],     LanguageCode='en')

Resumen

En esta publicación, proporcionamos una descripción general de la nueva API de Detección de Toxicidad de Amazon Comprehend. También describimos cómo analizar la respuesta JSON de la API. Para obtener más información, consulta el documento de la API de Comprehend.

La detección de toxicidad de Amazon Comprehend ahora está disponible de forma general en cuatro regiones: us-east-1, us-west-2, eu-west-1 y ap-southeast-2.

Para obtener más información sobre la moderación de contenido, consulta Guía para la moderación de contenido en AWS. Da el primer paso hacia optimizar tus operaciones de moderación de contenido con AWS.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Los modelos generativos se están convirtiendo en la solución por defecto para muchas tareas desafiantes en ciencias d...

Inteligencia Artificial

Grupo de noticias dice que los chatbots de inteligencia artificial dependen en gran medida del contenido de noticias

La News Media Alliance, un grupo comercial que representa a los periódicos, afirma que los chatbots de inteligencia a...

Inteligencia Artificial

Los principales sitios web están bloqueando a los rastreadores de IA para acceder a su contenido.

En la era de la IA, los editores están bloqueando de manera más agresiva los rastreadores porque, por ahora, no hay b...

Inteligencia Artificial

¿Qué significa implementar un modelo de aprendizaje automático?

La Ciencia de Datos, un campo prometedor que continúa atrayendo a más y más empresas, está luchando por integrarse en...

Inteligencia Artificial

Acuerdo preliminar de la UE sobre la regulación de la IA Implicaciones para ChatGPT

La Unión Europea recientemente ha logrado un acuerdo preliminar que establece las regulaciones para gobernar modelos ...

Inteligencia Artificial

Disney empaqueta grandes emociones en un pequeño robot

La semana pasada, un equipo de científicos de Disney Research presentó un personaje robótico bipedal que combina un c...