OpenRAIL Hacia marcos de licencias de IA abiertos y responsables

'OpenRAIL Hacia licencias de IA abiertas y responsables'

Las licencias de IA abierta y responsable (“OpenRAIL”) son licencias específicas de IA que permiten el acceso, uso y distribución abiertos de artefactos de IA, al tiempo que requieren un uso responsable de los mismos. Las licencias OpenRAIL podrían ser para el aprendizaje automático abierto y responsable lo que las actuales licencias de software abierto son para el código y Creative Commons para el contenido general: una herramienta de licenciamiento comunitaria ampliamente utilizada.

Los avances en el aprendizaje automático y otras áreas relacionadas con la IA han florecido en los últimos años en parte gracias a la omnipresencia de la cultura de código abierto en el sector de las Tecnologías de la Información y la Comunicación (TIC), que ha permeado en la investigación y desarrollo del aprendizaje automático. A pesar de los beneficios de la apertura como valor fundamental para la innovación en el campo, los eventos (no tan recientes) relacionados con las preocupaciones éticas y socioeconómicas del desarrollo y uso de modelos de aprendizaje automático han transmitido un claro mensaje: la apertura no es suficiente. Sin embargo, los sistemas cerrados tampoco son la respuesta, ya que el problema persiste bajo la opacidad de los procesos de desarrollo privados de las empresas de IA.

Las licencias de código abierto no son adecuadas para todos

El acceso, desarrollo y uso de modelos de aprendizaje automático está altamente influenciado por los esquemas de licencias de código abierto. Por ejemplo, los desarrolladores de aprendizaje automático pueden referirse coloquialmente a “hacer un modelo de código abierto” cuando ponen a disposición sus pesos adjuntando una licencia oficial de código abierto, u otra licencia de software o contenido abierto como Creative Commons. Esto plantea la pregunta: ¿por qué lo hacen? ¿Son los artefactos de aprendizaje automático y el código fuente realmente tan similares? ¿Comparten suficiente desde una perspectiva técnica como para que los mecanismos de gobernanza privada (por ejemplo, las licencias de código abierto) diseñados para el código fuente también gobiernen el desarrollo y uso de modelos de aprendizaje automático?

La mayoría de los desarrolladores de modelos actuales parecen pensar que sí, ya que la mayoría de los modelos lanzados abiertamente tienen una licencia de código abierto (por ejemplo, Apache 2.0). Ver, por ejemplo, el Hugging Face Model Hub y Muñoz Ferrandis & Duque Lizarralde (2022).

Sin embargo, la evidencia empírica también nos está diciendo que un enfoque rígido hacia la liberación de código abierto y/o dinámicas del Software Libre y una creencia axiomática en la Libertad 0 para la liberación de artefactos de aprendizaje automático está creando distorsiones socioéticas en el uso de modelos de aprendizaje automático (ver Widder et al. (2022)). En términos más simples, las licencias de código abierto no tienen en cuenta la naturaleza técnica y las capacidades del modelo como un artefacto diferente al software/código fuente, y por lo tanto no se adaptan adecuadamente para permitir un uso más responsable de los modelos de aprendizaje automático (por ejemplo, criterio 6 de la Definición de Código Abierto), ver también Widder et al. (2022); Moran (2021); Contractor et al. (2020).

Si ya existen prácticas específicas dedicadas a la documentación, transparencia y uso ético de los modelos de aprendizaje automático y están mejorando cada día (por ejemplo, tarjetas de modelo, puntos de referencia de evaluación), ¿por qué las prácticas de licenciamiento abierto no deberían adaptarse también a las capacidades y desafíos específicos derivados de los modelos de aprendizaje automático?

Las mismas preocupaciones están surgiendo en las prácticas de licenciamiento de IA comerciales y gubernamentales. En palabras de Bowe & Martin (2022): “Babak Siavoshy, asesor legal general de Anduril Industries, preguntó qué tipo de términos de licencia deberían aplicarse a un algoritmo de IA desarrollado de forma privada para la detección de objetos de visión artificial y adaptarlo para la orientación o evaluación de amenazas militares. Ni las licencias de software comercial ni las cláusulas de derechos de datos DFARS estándar responden adecuadamente a esta pregunta, ya que ninguna protege adecuadamente los intereses del desarrollador ni permite al gobierno obtener una visión del sistema para implementarlo de manera responsable”.

Si de hecho los modelos de aprendizaje automático y el software/código fuente son artefactos diferentes, ¿por qué se publica el primero bajo licencias de código abierto? La respuesta es fácil, las licencias de código abierto se han convertido en el estándar de facto en los mercados relacionados con el software para el intercambio abierto de código entre comunidades de software. Este enfoque de “código abierto” para el desarrollo colaborativo de software ha permeado e influenciado el desarrollo de IA y las prácticas de licenciamiento y ha traído enormes beneficios. Tanto el código abierto como las licencias de IA abierta y responsable (“OpenRAIL”) bien podrían ser iniciativas complementarias.

¿Por qué no diseñar un conjunto de mecanismos de licenciamiento inspirados en movimientos como el código abierto y liderados por un enfoque basado en evidencia del campo del aprendizaje automático? De hecho, existe un nuevo conjunto de marcos de licencia que serán el vehículo hacia el desarrollo, uso y acceso abierto y responsable del aprendizaje automático: las Licencias de IA Abierta y Responsable (OpenRAIL).

Un cambio de paradigma de licenciamiento: OpenRAIL

El enfoque OpenRAIL adoptado por la Iniciativa RAIL y respaldado por Hugging Face está informado e inspirado por iniciativas como BigScience, Código Abierto y Creative Commons. Las 2 características principales de una licencia OpenRAIL son:

Abierto: estas licencias permiten el acceso gratuito y flexible y la redistribución del material con licencia, así como la distribución de cualquier derivado del mismo.
Responsable: las licencias OpenRAIL incorporan un conjunto específico de restricciones para el uso del artefacto de inteligencia artificial con licencia en escenarios críticos identificados. Las restricciones basadas en el uso se basan en un enfoque basado en evidencia para el desarrollo y las limitaciones de uso de ML, lo cual implica establecer una línea entre promover el amplio acceso y uso de ML y los posibles costos sociales derivados de usos perjudiciales del artefacto de AI con licencia abierta. Por lo tanto, aunque se beneficie de un acceso abierto al modelo de ML, el usuario no podrá utilizar el modelo para los escenarios restringidos especificados.

La integración de cláusulas de restricciones basadas en el uso en las licencias de AI abierta permite un mejor control del uso de los artefactos de AI y la capacidad de hacer cumplir al licenciante del modelo de ML, defendiendo un uso responsable del artefacto de AI liberado en caso de que se detecte un mal uso del modelo. Si las restricciones de uso conductual no estuvieran presentes en las licencias de AI abierta, ¿cómo podrían los licenciantes siquiera pensar en herramientas legales relacionadas con el uso responsable al liberar abiertamente sus artefactos de AI? OpenRAILs y RAILs son el primer paso para permitir restricciones de comportamiento informadas por ética.

E incluso antes de pensar en la aplicación, las cláusulas de restricción basadas en el uso pueden actuar como disuasión para los posibles usuarios de hacer un mal uso del modelo (es decir, efecto disuasorio). Sin embargo, la mera presencia de restricciones basadas en el uso puede no ser suficiente para garantizar que no se produzcan posibles usos indebidos del artefacto de AI liberado. Es por eso que OpenRAILs requiere la adopción descendente de las restricciones basadas en el uso por parte de la redistribución y derivados posteriores del artefacto de AI, como medio para disuadir a los usuarios de los derivados del artefacto de AI de hacer un mal uso del mismo.

El efecto de las cláusulas de uso conductual estilo copyleft extiende el requisito del licenciante original sobre su deseo y confianza en el uso responsable del artefacto con licencia. Además, la adopción generalizada de cláusulas de uso conductual otorga a los distribuidores posteriores de versiones derivadas del artefacto con licencia una mejor capacidad de controlar su uso. Desde una perspectiva social, OpenRAILs son un vehículo para la consolidación de una cultura informada y respetuosa de compartir artefactos de AI, reconociendo sus limitaciones y los valores defendidos por los licenciantes del modelo.

OpenRAIL podría ser para el buen aprendizaje automático lo que las licencias de software abierto son para el código

Tres ejemplos de licencias OpenRAIL son el recientemente lanzado BigScience OpenRAIL-M, CreativeML OpenRAIL-M de StableDiffusion y el origen de los dos anteriores: BigScience BLOOM RAIL v1.0 (ver publicación y preguntas frecuentes aquí). Este último fue diseñado específicamente para promover el acceso y uso abiertos y responsables del modelo BigScience de 176B parámetros llamado BLOOM (y los puntos de control relacionados). La licencia se encuentra en la intersección entre la apertura y la IA responsable al proponer un conjunto permisivo de términos de licencia combinados con una cláusula de restricciones basadas en el uso, en la que se establece un número limitado de usos restringidos basados en la evidencia sobre el potencial de los Modelos de Lenguaje Grande (LLM) y sus riesgos inherentes y limitaciones examinadas. El enfoque OpenRAIL adoptado por la Iniciativa RAIL es una consecuencia de BigScience BLOOM RAIL v1.0 siendo el primero de su tipo en paralelo con el lanzamiento de otros modelos más restringidos con cláusulas de uso conductual, como OPT-175 o SEER, que también están disponibles.

Las licencias son la respuesta de BigScience a dos desafíos parcialmente abordados en el espacio de licencias: (i) el “Modelo” siendo algo diferente al “código”; (ii) el uso responsable del Modelo. BigScience dio ese paso adicional al centrar realmente la licencia en el caso de escenario específico y en los objetivos de la comunidad de BigScience. De hecho, la solución propuesta es algo nuevo en el espacio de la IA: BigScience diseñó la licencia de tal manera que promueve el uso responsable del Modelo (es decir, promoción del uso responsable), porque cualquier redistribución o derivados del Modelo deberán cumplir con las restricciones específicas basadas en el uso, al tiempo que pueden proponer otros términos de licencia cuando se trata del resto de la licencia.

OpenRAIL también se alinea con la tendencia regulatoria actual que propone regulaciones sectoriales específicas para el despliegue, uso y comercialización de sistemas de IA. Con el advenimiento de las regulaciones de IA (por ejemplo, el Reglamento de IA de la UE; la propuesta de Canadá de una Ley de IA y Datos), los nuevos paradigmas de licencias abiertas informados por las tendencias regulatorias de la IA y las preocupaciones éticas tienen el potencial de ser ampliamente adoptados en los próximos años. La liberación de un modelo de código abierto sin tener en cuenta su impacto, uso y documentación podría ser motivo de preocupación a la luz de las nuevas tendencias regulatorias de la IA. Por lo tanto, OpenRAILs deben concebirse como instrumentos que se articulan con las tendencias regulatorias de la IA en curso y como parte de un sistema más amplio de herramientas de gobernanza de IA, y no como la única solución que permite el uso abierto y responsable de la IA.

La licencia abierta es uno de los pilares de la innovación en IA. Las licencias como instituciones sociales y legales deben ser cuidadas adecuadamente. No deben concebirse como mecanismos legales y técnicos engorrosos, sino como un instrumento de comunicación entre las comunidades de IA, reuniendo a los interesados al compartir mensajes comunes sobre cómo el artefacto con licencia puede ser utilizado.

Invirtamos en una cultura de licencias de IA abierta y responsable, el futuro de la innovación y el impacto de la IA depende de ello, de todos nosotros, de ti.

Autor: Carlos Muñoz Ferrandis

Agradecimientos del blog: Yacine Jernite, Giada Pistilli, Irene Solaiman, Clementine Fourrier, Clément Délange

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

OpenRAIL Hacia marcos de licencias de IA abiertos y responsables

Las licencias de código abierto no son adecuadas para todos

Un cambio de paradigma de licenciamiento: OpenRAIL

OpenRAIL podría ser para el buen aprendizaje automático lo que las licencias de software abierto son para el código

Was this article helpful?

Entrena tu primer Decision Transformer

Inmersión Profunda Vision Transformers en Hugging Face Optimum Graphcore

Inteligencia Artificial

Desbloqueando la Composicionalidad Sistemática en Redes Neuronales Un Avance con el Enfoque de Meta-Aprendizaje para la Composicionalidad (MLC)

Rompiendo barreras en el diseño de proteínas con un nuevo modelo de IA que comprende interacciones con cualquier tipo de molécula.

Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Esta investigación de IA presenta un nuevo enfoque para el reconocimiento de pose de objetos como predicción del próximo token'.

OpenAI revela ChatGPT Enterprise con el poder de GPT-4

¿Qué es los datos sintéticos?