Moderación de contenido a clasificación sin entrenamiento

Moderación de contenido sin entrenamiento

¿Qué pasaría si quisiéramos analizar un pequeño fragmento de texto sin información adicional o contexto y poder obtener la etiqueta más razonable que deseamos definir para nuestros propios datos? Esto puede alimentar los motores de políticas más deterministas y los motores de reglas, e incluso ser parte de un análisis más amplio impulsado por el contexto según sea necesario. OpenAI proporciona un medio para “moderar el contenido” con clasificaciones preestablecidas que pueden determinar si su texto pertenece a una o más de las categorías más repugnantes. Sin embargo, este análisis se trata más de cómo podemos personalizarnos más para definir nuestras propias etiquetas contra una oración o frase dada.

Examinaremos 4 categorías: es decir, política, PHI/PII, asuntos legales y rendimiento de la empresa. Dado que no tenemos la opción de obtener puntuaciones de probabilidad de Open AI sobre estas etiquetas personalizadas (en este momento), probaremos la opción 1 de ingeniería de consultas más orientada al usuario, mientras que la opción 2 evalúa otros modelos pre-entrenados de Hugging Face para lo mismo.

También utilizaremos algunas frases de ejemplo que han sido retorcidas intencionalmente para ajustarse a más de una categoría. Por ejemplo, nuestro archivo de entrada CSV tiene las siguientes líneas como “carga”:

  1. El problema entre los ministros tomó un giro cuando comenzaron a personalizarlo.
  2. Intenté negociar la privacidad de los datos con mi gato, pero simplemente me ignoró y hackeó mi teclado para tomar una siesta.
  3. La audiencia del senado se trató de si un medicamento en pruebas podría ser utilizado solo para este paciente. Él tiene una condición específica en su sangre que aún no tiene medicina.
  4. Lo que comenzó como un debate político terminó discutiendo las prioridades de la empresa para 2023 y más allá en términos de quién tiene una mejor historia con los hiperescaladores.
  5. La decisión histórica del tribunal sobre la libertad de expresión encendió debates sobre la línea delgada entre la expresión y el contenido dañino en las plataformas en línea, entrelazando consideraciones legales con debates sobre el gobierno en línea.
  6. Le conté a mi médico un chiste político durante mi chequeo de PHI y ahora mi expediente médico dice: Sentido del humor del paciente: peligrosamente bipartidista.
  7. El acceso gestionado por el usuario te da el llamado beneficio de controlar tu identidad; pero luego, ¿cuántas personas examinan los permisos de la aplicación en tu teléfono que aprovechan el nombre, correo electrónico y números de teléfono?

Opción 1: Ingeniería de consultas con OpenAI

GPT-4 parece ser ligeramente mejor que su primo turbo 3.5 en estas frases retorcidas. El marco de datos de salida se vería así. En la mayoría de las ocasiones, obtiene la probabilidad más alta correcta, excepto en frases como la #3, donde esperaríamos que se asociara algún “%” con PHI/PII. También nos muestra la necesidad de solicitar a OpenAI que proporcione alguna comodidad de personalización para etiquetar nuestras etiquetas y aprovechar la capacidad más rápida y “bien leída” de estos modelos.

Opción 2: Clasificación de cero disparo con modelos de Hugging Face

Continuando, a continuación, probamos lo mismo con modelos pre-entrenados de Hugging Face, que están diseñados específicamente para esta tarea en particular.

Nota: el valor de multi_label se establece en True. También puedes probar con False.

También utilizaremos nuestra propia experiencia humana para revisar esta salida (última columna). Podríamos usar un índice simple como este:

  • Razonable: significa que el motor seleccionó las múltiples etiquetas con precisión
  • Parcialmente preciso: una de las 2 etiquetas es precisa
  • Inexacto: obviamente no es tan bueno

Es un conjunto de datos demasiado pequeño para obtener un resultado concreto, pero todos parecen estar en un espacio relativamente comparable para esta tarea.

Resumen

Los modelos de lenguaje grandes son como la talla única para muchos propósitos. Para escenarios en los que tenemos muy poco contexto en el que se requieren etiquetas personalizadas para la clasificación de cero disparo, todavía tenemos la opción de optar por alternativas que estén entrenadas en modelos NLI (inferencia de lenguaje natural) más especializados, como los mencionados anteriormente. La elección final para un requisito específico podría basarse en el rendimiento (cuando se utiliza en transacciones en tiempo real), la cantidad de contexto adicional que puede hacer que esto sea más determinista y la facilidad de integración en un ecosistema dado.

Nota: Un agradecimiento especial a aquellos en los foros que han corregido mi código o compartido sugerencias sobre cómo utilizar estos modelos de manera más eficiente. Específicamente, el foro de Open AI tuvo a alguien que compartió esta intuición sobre cómo hacer consultas a GPT para obtener resultados que de otra manera no estarían disponibles a través de llamadas a la API.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Convirtiendo viejos mapas en modelos digitales en 3D de vecindarios perdidos.

Investigadores han convertido antiguos mapas de seguros contra incendios de Sanborn en modelos digitales tridimension...

Inteligencia Artificial

Mejora Amazon Lex con características de preguntas frecuentes conversacionales utilizando LLMs

Amazon Lex es un servicio que te permite construir de manera rápida y sencilla bots conversacionales (chatbots), agen...

Inteligencia Artificial

El mundo natural potencia el futuro de la visión por computadora

Un sistema de software de código abierto tiene como objetivo mejorar el entrenamiento de sistemas de visión por compu...

Inteligencia Artificial

Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable

Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la ...