Detecta contenido perjudicial utilizando la detección de toxicidad de Amazon Comprehend
Detecta contenido dañino con la función de detección de toxicidad de Amazon Comprehend
Las comunidades en línea están impulsando la participación de los usuarios en diversas industrias como los juegos, las redes sociales, el comercio electrónico, las citas y el aprendizaje en línea. Los miembros de estas comunidades confían en los propietarios de las plataformas para proporcionar un entorno seguro e inclusivo donde puedan consumir contenido y contribuir libremente. A menudo se emplea a moderadores de contenido para revisar el contenido generado por los usuarios y asegurarse de que sea seguro y cumpla con los términos de uso. Sin embargo, la creciente escala, complejidad y variedad de contenido inapropiado hace que los flujos de trabajo de moderación humana sean poco escalables y costosos. El resultado son comunidades pobres, perjudiciales y no inclusivas que desvinculan a los usuarios y tienen un impacto negativo en la comunidad y en el negocio.
Junto con el contenido generado por los usuarios, el contenido generado por máquinas ha planteado un nuevo desafío en la moderación de contenido. Crea automáticamente contenido altamente realista que puede ser inapropiado o perjudicial a gran escala. La industria se enfrenta al nuevo desafío de moderar automáticamente el contenido generado por la inteligencia artificial para proteger a los usuarios de material perjudicial.
En esta publicación, presentamos la detección de toxicidad, una nueva función de Amazon Comprehend que te ayuda a detectar automáticamente contenido perjudicial en texto generado por usuarios o máquinas. Esto incluye texto plano, texto extraído de imágenes y texto transcrito de contenido de audio o video.
Detectar toxicidad en contenido de texto con Amazon Comprehend
Amazon Comprehend es un servicio de procesamiento del lenguaje natural (PLN) que utiliza aprendizaje automático (AA) para descubrir información valiosa y conexiones en el texto. Ofrece una variedad de modelos de AA que pueden ser preentrenados o personalizados a través de interfaces de API. Amazon Comprehend ahora proporciona una solución directa basada en PLN para la detección de contenido tóxico en texto.
- El Lado Oscuro de la IA – ¿Cómo pueden ayudar los creadores?!
- Modelando el Problema del Viajante de Comercio desde los principios fundamentales
- Todo lo que necesitas saber para desarrollar usando modelos de lenguaje grandes
La API de Detección de Toxicidad de Amazon Comprehend asigna un puntaje de toxicidad general al contenido del texto, que varía de 0 a 1, indicando la probabilidad de que sea tóxico. También categoriza el texto en las siguientes siete categorías y proporciona un puntaje de confianza para cada una:
- HATE_SPEECH: Discurso que critica, insulta, denuncia o deshumaniza a una persona o grupo en base a una identidad, ya sea raza, etnia, identidad de género, religión, orientación sexual, capacidad, origen nacional u otro grupo de identidad.
- GRAPHIC: Discurso que utiliza imágenes descriptivas, detalladas y desagradablemente vívidas. Este lenguaje a menudo se vuelve prolijo para amplificar un insulto o causar incomodidad o daño al destinatario.
- HARASSMENT_OR_ABUSE: Discurso que impone dinámicas de poder disruptivas entre el hablante y el oyente (independientemente de la intención), busca afectar el bienestar psicológico del destinatario u objetivar a una persona.
- SEXUAL: Discurso que indica interés sexual, actividad o excitación utilizando referencias directas o indirectas a partes del cuerpo, características físicas o sexo.
- VIOLENCE_OR_THREAT: Discurso que incluye amenazas que buscan infligir dolor, lesiones o hostilidad hacia una persona o grupo.
- INSULT: Discurso que incluye un lenguaje denigrante, humillante, burlón, insultante o despreciativo.
- PROFANITY: Discurso que contiene palabras, frases o acrónimos que son impolítos, vulgares u ofensivos.
Puedes acceder a la API de Detección de Toxicidad llamándola directamente a través de la Interfaz de Línea de Comandos de AWS (AWS CLI) y las SDK de AWS. Actualmente, la detección de toxicidad en Amazon Comprehend es compatible solo en inglés.
Casos de uso
La moderación de texto desempeña un papel crucial en la gestión de contenido generado por usuarios en diversos formatos, como publicaciones en redes sociales, mensajes de chat en línea, discusiones en foros, comentarios de sitios web, entre otros. Además, las plataformas que aceptan contenido de video y audio pueden utilizar esta función para moderar el contenido transcrito de audio.
La aparición de inteligencia artificial generativa y grandes modelos de lenguaje (LLM) representa la última tendencia en el campo de la IA. En consecuencia, existe una creciente necesidad de soluciones receptivas para moderar el contenido generado por LLM. La API de Detección de Toxicidad de Amazon Comprehend es ideal para abordar esta necesidad.
Solicitud de la API de Detección de Toxicidad de Amazon Comprehend
Puedes enviar hasta 10 segmentos de texto a la API de Detección de Toxicidad, cada uno con un límite de tamaño de 1 KB. Cada segmento de texto en la solicitud se maneja de forma independiente. En el siguiente ejemplo, generamos un archivo JSON llamado toxicity_api_input.json
que contiene el contenido de texto, incluyendo tres segmentos de texto de muestra para moderación. Ten en cuenta que en el ejemplo, las palabras obscenas están censuradas como XXXX.
Puedes usar la AWS CLI para invocar la API de Detección de Toxicidad utilizando el archivo JSON anterior que contiene el contenido de texto:
aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json
Respuesta de la API de Detección de Toxicidad de Amazon Comprehend
La salida JSON de la API de Detección de Toxicidad incluirá el resultado del análisis de toxicidad en el campo ResultList
. ResultList
lista los elementos de segmentos de texto y la secuencia representa el orden en que se recibieron las secuencias de texto en la solicitud de la API. La toxicidad representa la puntuación de confianza general de la detección (entre 0 y 1). Las etiquetas incluyen una lista de etiquetas de toxicidad con puntuaciones de confianza, categorizadas por el tipo de toxicidad.
El siguiente código muestra la respuesta JSON de la API de Detección de Toxicidad basado en el ejemplo de solicitud en la sección anterior:
{ "ResultList": [ { "Toxicity": 0.009200000204145908, "Labels": [ { "Name": "PROFANIDAD", "Score": 0.0007999999797903001}, { "Name": "DISCURSO_DE_ODIO", "Score": 0.0017999999690800905}, { "Name": "INSULTO", "Score": 0.003000000026077032}, { "Name": "GRÁFICO", "Score": 0.0010000000474974513}, { "Name": "ACOSO_O_ABUSO", "Score": 0.0013000000035390258}, { "Name": "SEXUAL", "Score": 0.0017000000225380063}, { "Name": "VIOLENCIA_O_AMENAZA", "Score": 0.004999999888241291} ] }, { "Toxicity": 0.7358999848365784, "Labels": [ { "Name": "PROFANIDAD", "Score": 0.011900000274181366}, { "Name": "DISCURSO_DE_ODIO", "Score": 0.019500000402331352}, { "Name": "INSULTO", "Score": 0.0714000016450882}, { "Name": "GRÁFICO", "Score": 0.006099999882280827}, { "Name": "ACOSO_O_ABUSO", "Score": 0.018200000748038292}, { "Name": "SEXUAL", "Score": 0.0027000000700354576}, { "Name": "VIOLENCIA_O_AMENAZA", "Score": 0.8145999908447266} ] }, { "Toxicity": 0.9843000173568726, "Labels": [ { "Name": "PROFANIDAD", "Score": 0.9369999766349792 }, { "Name": "DISCURSO_DE_ODIO", "Score": 0.30880001187324524 }, { "Name": "INSULTO", "Score": 0.42100000381469727 }, { "Name": "GRÁFICO", "Score": 0.12630000710487366 }, { "Name": "ACOSO_O_ABUSO", "Score": 0.25519999861717224 }, { "Name": "SEXUAL", "Score": 0.19169999659061432 }, { "Name": "VIOLENCIA_O_AMENAZA", "Score": 0.19539999961853027 } ] } ]}
En el JSON anterior, el primer segmento de texto se considera seguro con una puntuación de toxicidad baja. Sin embargo, los segundo y tercer segmentos de texto recibieron puntuaciones de toxicidad del 73% y 98%, respectivamente. Para el segundo segmento, Amazon Comprehend detecta una puntuación de toxicidad alta para VIOLENCIA_O_AMENAZA
; para el tercer segmento, detecta PROFANIDAD
con una puntuación de toxicidad alta.
Ejemplo de solicitud utilizando el SDK de Python
El siguiente fragmento de código demuestra cómo utilizar Python SDK para invocar la API de detección de toxicidad. Este código devuelve la misma respuesta JSON que el comando de AWS CLI que se demostró anteriormente.
import boto3 import base64# Inicializar un objeto cliente de Comprehend en boto3comprehend_client = session.client('comprehend')# Llamar a la API Detectar Contenido Tóxico de Comprehend con segmentos de textoresponse = comprehend_client.detect_toxic_content( TextSegments=[ {"Text": "ir a través de la puerta ir a través de la puerta está a la derecha"}, {"Text": "está a la derecha XXXXX él"}, {"Text": "qué demonios estás haciendo hombre, por eso no quería jugar"} ], LanguageCode='en')
Resumen
En esta publicación, proporcionamos una descripción general de la nueva API de Detección de Toxicidad de Amazon Comprehend. También describimos cómo analizar la respuesta JSON de la API. Para obtener más información, consulta el documento de la API de Comprehend.
La detección de toxicidad de Amazon Comprehend ahora está disponible de forma general en cuatro regiones: us-east-1, us-west-2, eu-west-1 y ap-southeast-2.
Para obtener más información sobre la moderación de contenido, consulta Guía para la moderación de contenido en AWS. Da el primer paso hacia optimizar tus operaciones de moderación de contenido con AWS.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Una introducción al Deep Learning para datos secuenciales
- Buscar semántica moderna para imágenes
- Todo lo que necesitas para convertirte en un Ingeniero Certificado de Aprendizaje Automático de SAS
- Gestión de modelos para los modelos afinados de LoRA utilizando Llama2 y Amazon SageMaker
- Utilizar modelos de lenguaje grandes en la detección de noticias falsas
- Ajusta y despliega Mistral 7B con Amazon SageMaker JumpStart
- Investigadores desarrollan un transistor térmico de estado sólido para una mejor gestión del calor