Presentamos LegalBench un punto de referencia de IA de código abierto construido de manera colaborativa para evaluar el razonamiento legal en modelos de lenguaje grandes en inglés.

Presentamos LegalBench, un punto de referencia de IA de código abierto para evaluar el razonamiento legal en modelos de lenguaje grandes en inglés.

Los abogados y administradores estadounidenses están reevaluando la profesión legal debido a los avances en los grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Según sus defensores, los LLMs podrían cambiar la forma en que los abogados abordan tareas como la redacción de escritos y el cumplimiento corporativo. Eventualmente, podrían contribuir a resolver el dilema de acceso a la justicia en los Estados Unidos al aumentar la accesibilidad de los servicios legales. Esta perspectiva está influenciada por el hallazgo de que los LLMs tienen cualidades únicas que los hacen más aptos para el trabajo legal. Los gastos asociados con la anotación manual de datos, que a menudo aumentan el costo de creación de modelos de lenguaje legal, se reducirían gracias a la capacidad de los modelos para aprender nuevos trabajos a partir de pequeñas cantidades de datos etiquetados.

También serían adecuados para el estudio riguroso de la ley, que incluye descifrar textos complejos con mucho jerga y participar en procedimientos inferenciales que integran varios modos de pensamiento. El hecho de que las aplicaciones legales a menudo implican un alto riesgo limita este entusiasmo. La investigación ha demostrado que los LLMs pueden producir información ofensiva, engañosa e incorrecta desde el punto de vista factual. Si estas acciones se repitieran en contextos legales, podrían causar graves daños, con personas históricamente marginadas y sin recursos que soportarían un peso desproporcionado. Por lo tanto, existe una necesidad urgente de construir infraestructura y procedimientos para evaluar los LLMs en contextos legales debido a las implicaciones de seguridad.

Sin embargo, los profesionales que desean juzgar si los LLMs pueden utilizar el razonamiento legal enfrentan obstáculos importantes. El primer obstáculo es la pequeña ecología de puntos de referencia legales. Por ejemplo, la mayoría de los puntos de referencia actuales se centran en tareas que los modelos aprenden mediante ajustes o entrenamiento en datos específicos de la tarea. Estas normas no capturan las características de los LLMs que generan interés en la práctica legal, especialmente su capacidad para completar diversas tareas con solo indicaciones breves. Del mismo modo, las iniciativas de referencia se han centrado en exámenes de certificación profesional como el Examen Uniforme de Abogados, aunque no siempre indican aplicaciones del mundo real para los LLMs. El segundo problema es la discrepancia entre la forma en que los abogados y los estándares establecidos definen “razonamiento legal”.

Los puntos de referencia utilizados actualmente clasifican ampliamente cualquier trabajo que requiera información legal o leyes como “razonamiento legal”. Por el contrario, los abogados saben que la frase “razonamiento legal” es amplia y abarca varios tipos de razonamiento. Diferentes responsabilidades legales requieren diferentes habilidades y bases de conocimiento. Es un desafío para los profesionales legales contextualizar el rendimiento de los LLMs contemporáneos dentro de su sentido de competencia legal, ya que los estándares legales existentes deben identificar estas diferencias. La profesión legal no emplea el mismo lenguaje técnico o marcos conceptuales que los estándares legales. Dadas estas limitaciones, creen que para evaluar rigurosamente las habilidades de razonamiento legal de los LLMs, la comunidad legal deberá participar más en el proceso de referencia.

Para hacer esto, presentan LEGALBENCH, que representa las etapas iniciales en la creación de un punto de referencia de razonamiento legal interdisciplinario y colaborativo en inglés. Los autores de esta investigación trabajaron juntos durante el último año para construir 162 tareas (de 36 fuentes de datos distintas), cada una de las cuales prueba una forma particular de razonamiento legal. Se basaron en sus diferentes antecedentes legales y de ciencias de la computación. Hasta donde saben, LEGALBENCH es el primer proyecto de referencia legal de código abierto. Este método de diseño de puntos de referencia, en el que los expertos en la materia participan activa y activamente en el desarrollo de tareas de evaluación, ejemplifica un tipo de cooperación multidisciplinaria en la investigación de LLMs. También sostienen que demuestra el papel crucial que los profesionales legales deben desempeñar en la evaluación y el avance de los LLMs en el derecho.

Destacan tres aspectos de LEGALBENCH como proyecto de investigación:

1. LEGALBENCH fue construido utilizando una combinación de conjuntos de datos legales preexistentes que se reformatearon para el paradigma de LLM de pocos datos y conjuntos de datos creados manualmente que fueron generados y suministrados por expertos legales que también figuran como autores en este trabajo. Los expertos legales que participaron en esta colaboración fueron invitados a proporcionar conjuntos de datos que probaran una habilidad de razonamiento legal interesante o representaran una aplicación prácticamente valiosa para los LLMs en el derecho. Como resultado, un buen rendimiento en las tareas de LEGALBENCH ofrece datos relevantes que los abogados pueden utilizar para confirmar su opinión sobre la competencia legal de un LLM o para encontrar un LLM que pueda beneficiar su flujo de trabajo.

2. Las tareas en LEGALBENCH se organizan en una tipología detallada que describe los tipos de razonamiento legal necesarios para completar la tarea. Los profesionales legales pueden participar activamente en debates sobre el rendimiento de los LLMs, ya que esta tipología se basa en marcos comunes en la comunidad legal y utiliza un vocabulario y un marco conceptual con los que ya están familiarizados.

3. Por último, LEGALBENCH está diseñado para servir como una plataforma para más estudios. LEGALBENCH ofrece asistencia sustancial para saber cómo impulsar y evaluar diversas actividades para investigadores de IA sin formación legal. También tienen la intención de ampliar LEGALBENCH al seguir solicitando e incluyendo trabajos de profesionales legales a medida que la comunidad legal continúa interactuando con el potencial efecto y función de LLMs.

Contribuyen a este documento:

1. Ofrecen una tipología para clasificar y caracterizar los deberes legales según las justificaciones necesarias. Esta tipología se basa en los marcos que los abogados utilizan para explicar el razonamiento legal.

2. A continuación, ofrecen una descripción general de las actividades en LEGALBENCH, destacando cómo se crearon, las dimensiones de heterogeneidad significativas y las limitaciones. En el apéndice, se ofrece una descripción detallada de cada tarea.

3. Para analizar 20 LLMs de 11 familias diferentes en varios puntos de tamaño, emplean LEGALBENCH como su último paso. Realizan una investigación inicial de varias tácticas de ingeniería de estímulos y hacen comentarios sobre la eficacia de varios modelos.

Estos hallazgos ilustran en última instancia varios temas de investigación potenciales que LEGALBENCH puede facilitar. Anticipan que diversas comunidades encontrarán este punto de referencia fascinante. Los profesionales pueden utilizar estas actividades para decidir si y cómo incluir los LLMs en los procesos actuales para mejorar los resultados de los clientes. Los diferentes tipos de anotación que los LLMs son capaces de realizar y los diversos tipos de trabajo empírico académico que permiten pueden ser de interés para los académicos legales. El éxito de estos modelos en un campo como el derecho, donde características léxicas especiales y tareas desafiantes pueden revelar ideas novedosas, puede interesar a los científicos informáticos.

Antes de continuar, aclaran que el objetivo de este trabajo no es evaluar si las tecnologías computacionales deben reemplazar a los abogados y al personal legal o comprender las ventajas y desventajas de tal reemplazo. En cambio, quieren crear artefactos para ayudar a las comunidades afectadas y a los actores pertinentes a comprender mejor cuán bien los LLMs pueden realizar ciertas responsabilidades legales. Dada la proliferación de estas tecnologías, creen que la solución a este problema es crucial para asegurar el uso seguro y ético de las herramientas legales computacionales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Presentamos LegalBench un punto de referencia de IA de código abierto construido de manera colaborativa para evaluar el razonamiento legal en modelos de lenguaje grandes en inglés.

Was this article helpful?

Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas

De lo crudo a lo refinado Un recorrido por la preprocesamiento de datos – Parte 3 Datos duplicados

Inteligencia Artificial

Conoce MovieChat un innovador sistema de comprensión de video que integra modelos fundamentales de video y grandes modelos de lenguaje.

Construye aplicaciones de IA generativa listas para producción para la búsqueda empresarial utilizando tuberías de Haystack y Amazon SageMaker JumpStart con LLMs

La herramienta de cliente de Text-to-Speech de Xenova una plataforma de Inteligencia Artificial sólida y flexible para producir síntesis de voz sintética con un sonido natural

Esta investigación de IA de China proporciona una evaluación exhaustiva del último modelo de lenguaje visual del Estado del Arte GPT-4V(isión) y su aplicación en escenarios de conducción autónoma

OpenAI lanza Baby Llama - Un LLM para dispositivos de baja potencia!

Transformando la investigación en Catalyst Conoce a CatBERTa, un modelo de IA basado en Transformers diseñado para la predicción de energía utilizando entradas de texto