Rastreador web de OpenAI y errores de la FTC

Rastreador web de OpenAI y errores de la FTC

OpenAI lanza un rastreador de opt-in predeterminado para extraer información de Internet, mientras la FTC lleva a cabo una investigación oscura sobre engaño al consumidor

Foto de Giammarco Boscaro en Unsplash

Con la adopción de la IA en aumento, es cada vez más importante que los profesionales de datos piensen en la obtención de datos. Mientras que la primera ola de LLM de alto rendimiento se entrenó utilizando una táctica común pero controvertida de extracción de datos, esta práctica cuestionable ha estado en el centro de atención últimamente, generando demandas y preguntas sobre la propiedad de los datos. Este artículo proporciona una comprensión sólida de los conceptos legales detrás de esto y cómo los reguladores están abordando este problema (spoiler: no de manera efectiva).

Nota de los editores de Towards Data Science: Aunque permitimos que los autores independientes publiquen artículos de acuerdo con nuestras reglas y pautas, no respaldamos cada contribución del autor. No debe confiar en los trabajos de un autor sin buscar asesoramiento profesional. Consulte nuestros términos para obtener más detalles.

La semana pasada, Open AI (creador de ChatGPT) anunció oficialmente su rastreador web, que es un software que extrae contenido de todos los sitios web de Internet y luego se utiliza para entrenar modelos de IA. La existencia del rastreador no sorprende y actualmente existen varios rastreadores web legítimos, incluido el rastreador de Google que indexa todo Internet. Sin embargo, esta es la primera vez que OpenAI anuncia explícitamente su existencia y también proporciona un mecanismo para que los sitios web opten por no ser rastreados.

Tenga en cuenta que el rastreador es optativo de forma predeterminada, es decir, debe cambiar explícitamente un fragmento de código en su sitio web para solicitar que el rastreador no extraiga sus datos. Las opciones predeterminadas de aceptar o rechazar son duraderas y a menudo determinan cuál es el comportamiento mayoritario, porque la mayoría de las personas no se molestan en cambiar las opciones predeterminadas. Esta es la misma razón por la que los cambios de privacidad de iOS14 de Apple han tenido un gran impacto en la industria de la publicidad digital.

OpenAI Web Crawler (Fuente: OpenAI)

Entonces, ¿por qué proporcionar la opción de optar por no participar? Es probablemente un movimiento preventivo de OpenAI en respuesta a las demandas recientes contra la empresa que alegan que se infringieron los derechos de autor de los propietarios de contenido (un artículo más profundo sobre la extracción de datos si quieres explorar más). El competidor de ChatGPT, Google Bard, enfrenta un desafío similar, pero Google aún no ha anunciado una solución equivalente; sí solicitó comentarios sobre cómo mejorar el archivo robots.txt para abordar este problema (escrito con un estilo de relaciones públicas ingenioso).

En este artículo, profundizaremos en:

  • Implicaciones del rastreador de OpenAI para los propietarios de contenido
  • Investigación actual de la FTC sobre OpenAI
  • El panorama legal en el que operamos hoy
  • Por qué el enfoque de la FTC de perseguir a OpenAI es (otro) error

Implicaciones del rastreador de OpenAI para los propietarios de contenido

Aunque el anuncio ofrece la opción de que los anunciantes bloqueen el rastreador de OpenAI para que no extraiga sus datos, hay un par de cosas que no son ideales:

  1. De forma predeterminada, es optativo, lo que significa que OpenAI puede seguir extrayendo datos hasta que los sitios les indiquen explícitamente que no lo hagan
  2. No ha habido una decisión legal clara sobre los derechos de los propietarios de contenido cuando sus datos se extraen sin consentimiento para el entrenamiento de modelos (lo cual sería básicamente el caso de cualquiera que se vea obligado a optar por defecto)

Hoy en día, existen dos conceptos legales que determinan si está bien o no que los modelos de lenguaje tomen todos estos datos sin consentimiento: el derecho de autor y el uso legítimo.

El derecho de autor (en la Sección 102 de la Ley de Derechos de Autor de EE. UU.) brinda protección a tipos específicos de contenido, pero también tiene excepciones:

La protección de los derechos de autor subsiste, de acuerdo con este título, en obras de autoría originales fijadas en cualquier forma tangible de expresión, ahora conocida o desarrollada en el futuro, a partir de las cuales puedan ser percibidas, reproducidas o comunicadas de cualquier otra manera, directa o indirectamente, con la ayuda de una máquina o dispositivo. Las obras de autoría incluyen las siguientes categorías: (1) obras literarias; (2) obras musicales, incluidas las letras que las acompañen; (3) obras dramáticas, incluida la música que las acompañe; (4) pantomimas y obras coreográficas; (5) obras pictóricas, gráficas y escultóricas; (6) películas y otras obras audiovisuales; (7) grabaciones sonoras; y (8) obras arquitectónicas.

(b) En ningún caso la protección de los derechos de autor para una obra de autoría original se extiende a ninguna idea, procedimiento, proceso, sistema, método de operación, concepto, principio o descubrimiento, independientemente de la forma en que se describa, explique, ilustre o encarne en dicha obra.

Por ejemplo, los derechos de autor protegen la mayoría de las obras originales (por ejemplo, si escribiste un artículo de blog o un libro original sobre un tema), pero no protege ideas generales (por ejemplo, no puedes afirmar que fuiste la primera persona en escribir sobre cómo la inteligencia artificial afecta los derechos de datos, y por lo tanto la idea te pertenece).

Otra excepción a la protección de derechos de autor es el uso legítimo (Sección 107 de la Ley de Derechos de Autor de Estados Unidos):

El uso legítimo de una obra protegida por derechos de autor, incluyendo el uso mediante reproducción en copias, fonogramas o por cualquier otro medio especificado en dicha sección, con fines como crítica, comentario, informes de noticias, enseñanza (incluyendo copias múltiples para uso en el aula), becas o investigación, no constituye una infracción de derechos de autor.

Al determinar si el uso de una obra en un caso particular es un uso legítimo, se deben considerar los siguientes factores: (1) el propósito y carácter del uso, incluyendo si dicho uso tiene un carácter comercial o es para fines educativos sin fines de lucro; (2) la naturaleza de la obra protegida por derechos de autor; (3) la cantidad y sustancialidad de la porción utilizada en relación con la obra protegida por derechos de autor en su totalidad; y (4) el efecto del uso en el mercado potencial o el valor de la obra protegida por derechos de autor.

Por ejemplo, si tomas contenido de un artículo de investigación y escribes una crítica al respecto, está bien y no estás infringiendo los derechos de autor del propietario del contenido. Es la misma situación cuando enlazo otro artículo desde esta página y agrego texto citado de ese artículo.

Ambos de estos conceptos fueron creados para proteger los derechos de los propietarios de contenido al tiempo que permiten el flujo libre de información, especialmente en el contexto de la educación, la investigación y la crítica.

No soy un experto legal, pero basado en mi investigación / comprensión del lenguaje anterior, donde esto se vuelve confuso con los modelos de IA que recopilan contenido de entrenamiento es:

  • Las empresas de IA suelen recopilar el texto completo de un sitio web del propietario del contenido (esto está protegido por derechos de autor), entrenan los modelos para aprender la “idea” / “concepto” / “principio” (esto no está protegido por derechos de autor) y luego los modelos finalmente generan un texto diferente. En este caso, ¿el propietario del contenido recibe protección de derechos de autor o no?
  • Dado que los modelos de lenguaje entrenados se utilizan eventualmente con fines comerciales (por ejemplo, ChatGPT Plus es un producto de pago), ¿eso constituye una violación de los derechos de autor del propietario del contenido (porque la excepción de uso legítimo ya no se aplica)?

Aún no se han emitido fallos judiciales al respecto, por lo que es difícil predecir cómo se resolverá esto. Mi opinión, como no abogado, es que la segunda pregunta es probablemente más fácil de responder: OpenAI recopiló datos y los utilizó para crear un producto comercial, por lo tanto, no obtienen una excepción según el uso legítimo. Imagino que la primera pregunta (¿el modelo se entrenó en una “idea” o simplemente en texto original?) es un asunto de conjeturas. Ten en cuenta que ambas preguntas deben favorecer al propietario del contenido para que ganen, es decir, los propietarios del contenido solo ganan si ambas excepciones anteriores (“excepción de idea” o “excepción de uso legítimo”) no se aplican a OpenAI.

Menciono esta sutileza porque en el espectro de los riesgos de la IA (no exhaustivo), desde los derechos de los propietarios de contenido, hasta la amplificación del fraude, la automatización de empleos, la IA general / destrucción de la humanidad, el problema más apremiante a corto plazo son los derechos de los propietarios de contenido, como lo demuestran la avalancha de demandas y el impacto en las plataformas de contenido (por ejemplo, la historia de StackOverflow).

Mientras que los reguladores como la FTC pueden reflexionar sobre los problemas a muy largo plazo y encontrar formas hipotéticas / creativas de abordar estos riesgos, su potencial real a corto plazo radica en poder abordar los riesgos que nos impactarán en un horizonte de 5 a 10 años. Como la infracción de derechos de autor. Lo que nos lleva a lo que está haciendo la FTC al respecto.

Investigación actual de la FTC sobre OpenAI

A mediados de julio, la FTC anunció que está investigando a OpenAI. Lo interesante (y frustrante) es la razón por la que la FTC los está investigando. El fabricante de ChatGPT está siendo investigado para evaluar si la empresa ha violado alguna ley de protección al consumidor al poner en riesgo la reputación personal y los datos. ¿No tiene sentido? No estás solo. Veamos un poco más de antecedentes sobre cómo llegamos a esto.

La postura más vocal de la FTC sobre la regulación de la IA se presentó en abril: “no hay una excepción de IA a las leyes existentes, y la FTC hará cumplir enérgicamente la ley para combatir prácticas injustas o engañosas o métodos de competencia desleal”. Luego surgieron algunos problemas relacionados con difamación: el presentador de radio Mark Walters demandó a OpenAI después de que ChatGPT lo acusara de defraudar a una organización sin fines de lucro, un profesor de derecho fue falsamente acusado de acoso sexual por ChatGPT.

Ambos escenarios son malos para las personas involucradas y simpatizo con eso. Sin embargo, es un hecho conocido que los modelos de lenguaje (como GPT) y los productos construidos sobre ellos (como ChatGPT) “alucinan” y a menudo son incorrectos. La primera mitad de la premisa de la FTC para la investigación es que — ChatGPT alucina y, por lo tanto, causa daño reputacional.

En una acalorada audiencia del Congreso, un representante (con razón) le pregunta a la FTC por qué están persiguiendo la difamación y la calumnia, que generalmente son tratadas por leyes estatales. La presidenta de la FTC, Lina Khan, presenta un argumento confuso:

Khan respondió que la difamación y la calumnia no son el enfoque de la aplicación de la FTC, pero que el uso indebido de la información privada de las personas en el entrenamiento de IA podría ser una forma de fraude o engaño según la Ley de la FTC. “Nos enfocamos en si hay un daño sustancial a las personas. El daño puede manifestarse de diferentes maneras”, dijo Khan.

Para resumir el argumento completo — la FTC está diciendo que la alucinación de ChatGPT produce información incorrecta (incluyendo difamación), lo cual podría ser una forma de engaño al consumidor. Además, la información privada sensible de los usuarios podría haber sido utilizada / filtrada (basado en un error que OpenAI solucionó rápidamente).

Como parte de la investigación, la FTC ha solicitado una larga lista de cosas a OpenAI — desde detalles sobre cómo se entrena su modelo, hasta qué fuentes de datos utilizan, cómo posicionan su producto ante los clientes y situaciones en las que la liberación del modelo se ha pausado debido a riesgos identificados.

La pregunta es — ¿Es el mejor enfoque para la FTC regular lo que posiblemente será una de las mayores empresas de IA, especialmente dada la situación legal actual?

El entorno jurídico actual en el que operamos

Para criticar la estrategia de la FTC con OpenAI, es útil entender el entorno jurídico en el que operamos hoy. No entraremos en demasiados detalles, pero hagámoslo brevemente con la historia del antimonopolio como ejemplo:

  • En la década de 1900, surgieron conglomerados masivos (“trusts”) y el equilibrio de poder público-privado se inclinó hacia estas compañías
  • En respuesta, se aprobó la Ley Sherman de 1890 para agregar controles sobre el poder privado y preservar la competencia; Esta ley se utilizó para litigar y desmantelar “trusts” que estaban involucrados en prácticas anticompetitivas (fijación de precios predatoria, acuerdos de carteles, monopolio de distribución)
  • En la década de 1960, los jueces enfrentaron mucha crítica por juzgar en función del espíritu de la ley en lugar de la letra de la ley; Por ejemplo, interpretar la ley Sherman para determinar si un grupo de empresas “restringe el comercio de manera irrazonable” implicaba subjetividad y se acusaba a los jueces de participar en activismo judicial
  • Para introducir objetividad, la Escuela de Chicago impulsó el estándar del bienestar del consumidor — “los tribunales deben guiarse exclusivamente por el bienestar del consumidor” (por ejemplo, un monopolio que aumenta los precios de manera flagrante está mal, pero para otras actividades, la carga de la prueba recae en los reguladores para demostrar el daño al consumidor)
  • Este sigue siendo el estándar en la actualidad y es una de las razones por las que la FTC y el DOJ tienen dificultades para derribar a las grandes empresas de tecnología — por ejemplo, la FTC no puede argumentar que Google está aumentando los precios ya que la mayoría de sus productos son gratuitos, incluso si Google está involucrado en otras prácticas anticompetitivas

La conclusión de esto es que seguimos operando hoy en un entorno en el que los casos se litigan en gran medida según la “letra de la ley” y no el “espíritu de la ley”. Esto, junto con la composición de la Corte Suprema de los Estados Unidos en la actualidad, ha resultado en interpretaciones bastante conservadoras de la ley.

Lo que esto significa para la FTC es que deben aceptar la realidad de este entorno y encontrar una manera de ganar casos. El modelo operativo de la FTC y el DOJ (con razón) es ir tras un puñado de casos importantes y aplicar fuertes medidas de cumplimiento, para que las empresas de menor tamaño piensen dos veces antes de violar las leyes. Para lograr eso, la FTC necesita ganar en cuestiones importantes y necesita una estrategia ganadora dentro de las limitaciones del entorno legal actual.

Por qué el enfoque de la FTC de atacar a OpenAI es (otro) paso en falso

La FTC ha tenido una racha de derrotas contra las grandes empresas de tecnología, y argumentaría que las derrotas pueden atribuirse a una estrategia fallida de “odiamos todo lo relacionado con las grandes empresas de tecnología” y de usar un martillo en lugar de un bisturí para enfrentar a estas compañías.

Por ejemplo, la FTC adoptó un enfoque de fuerza bruta para detener la adquisición de $69 mil millones de Microsoft-Activision y perdió (bastante mal, diría yo). La FTC argumentó que la adquisición de Activision por parte de Microsoft acabaría con la competencia en el mercado de los videojuegos. El juez emitió un fallo bastante contundente rechazando todos los argumentos de la FTC, aquí tienes uno de los comentarios del juez:

No hay documentos internos, correos electrónicos o chats que contradigan la declaración de Microsoft de no hacer exclusivo Call of Duty para las consolas de Xbox. A pesar de la finalización de un extenso proceso de descubrimiento en el procedimiento administrativo de la FTC, que incluyó la producción de casi 1 millón de documentos y 30 deposiciones, la FTC no ha identificado un solo documento que contradiga el compromiso públicamente declarado por Microsoft de hacer que Call of Duty esté disponible en PlayStation (y Nintendo Switch).

Otro caso de fuerza bruta fue el intento de la FTC de bloquear la adquisición de Meta de una compañía de realidad virtual llamada Within, y perdieron. ¿Por qué lo intentaron? Querían probar las aguas para ver si hay apetito por bloquear adquisiciones antes de que un mercado en particular se vuelva grande, y dado el panorama legal actual, no fue sorprendente que fuera desestimado.

El problema con la investigación de la FTC sobre OpenAI es similar:

  1. Van tras (en mi opinión) un problema bastante trivial y una limitación conocida de los modelos de lenguaje: las alucinaciones; en cambio, deberían centrarse en problemas de IA reales que importen en un horizonte de 5 a 10 años, como los derechos de autor
  2. A pesar de que en el panorama legal actual se han desestimado múltiples enfoques legales “creativos”, están intentando otro argumento creativo: alucinación → difamación → engaño al consumidor

La interpretación generosa de sus acciones es que quieren sentar un precedente para su postura de “la IA no está exenta de las leyes existentes” y que esta persecución de gansos salvajes les proporciona una gran cantidad de datos autodeclarados de OpenAI (la FTC emite 20 páginas de solicitudes).

Sin embargo, dado su historial de perseguir repetidamente un enfoque de fuerza bruta / cualquier cosa que las grandes tecnológicas hagan sea considerado anticompetitivo + combinar eso con argumentos creativos que se desestiman repetidamente en los tribunales, creo que la FTC no se ha ganado el beneficio de la duda en este caso.

Conclusión

Creo absolutamente que OpenAI debe ser regulado. No porque sus modelos de lenguaje alucinen (por supuesto que lo hacen), sino porque están utilizando descaradamente el contenido de los creadores sin su permiso. No porque cambie el pasado, sino porque ayudará a establecer un futuro saludable para los creadores donde se protejan sus derechos de propiedad del contenido (queda por ver si los tribunales consideran el statu quo como una infracción de derechos de autor o no).

Esto no sucederá si la FTC continúa repitiendo sus errores al adoptar un enfoque de martillo en lugar de un enfoque quirúrgico. Existe un precedente claro de éxitos contra las grandes tecnológicas con un enfoque quirúrgico, el más notable es el de la Autoridad de Competencia y Mercados del Reino Unido. Los dos grandes casos que ganaron contra Google se centraron en mecanismos anticompetitivos específicos: detener que Google brinde un trato preferencial a sus propios productos en la plataforma AdTech y permitir que otros proveedores de pagos realicen pagos dentro de las aplicaciones.

Si la FTC continúa por el camino actual, su racha de derrotas fortalecerá a las empresas tecnológicas para que sigan haciendo lo que quieran, porque saben que pueden ganar en los tribunales. Es hora de que la FTC reflexione sobre sus fracasos, aprenda de los éxitos de otros reguladores y corrija el rumbo.

🚀 Si te gustó este artículo, considera suscribirte a mi boletín semanal. Cada semana, publico un análisis profundo sobre un tema tecnológico actual / estrategia de productos en forma de una lectura de 10 minutos. Saludos, Viggy.

Unpacked | Viggy Balagopalakrishnan | Substack

Análisis en profundidad de temas tecnológicos y empresariales actuales que te ayudarán a mantenerte a la vanguardia. Semanalmente en tu bandeja de entrada…

thisisunpacked.substack.com

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

GenAIOps Evolucionando el marco de MLOps

Allá por 2019, publiqué un blog en LinkedIn titulado Por qué necesitas ML Ops para una innovación exitosa. Avanzamos ...

Investigación

Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.

Desde tiempos prehistóricos, las personas han utilizado bocetos para comunicación y documentación. Durante la última ...

Inteligencia Artificial

¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

IGEL es el Modelo de Lenguaje Grande para Texto en Alemán ajustado a Instrucciones. La versión 001 de IGEL (Instruct-...

Inteligencia Artificial

Google AI presenta SimPer un marco contrastivo auto-supervisado para aprender información periódica en los datos

En los últimos años, el reconocimiento y la comprensión de los datos periódicos se han vuelto vitales para una amplia...

Inteligencia Artificial

La Huella de Carbono de la Inteligencia Artificial

Buscando formas de reducir la emisión de gases de efecto invernadero atribuibles al uso de la inteligencia artificial...