Los grandes modelos de lenguaje resultan todavía poco fiables para responder a consultas jurídicas

Legal Management

Los grandes modelos de lenguaje resultan todavía poco fiables para responder a consultas jurídicas

2024/01/29

Según un estudio elaborado por un grupo de expertos de la Universidad de Stanford, las alucinaciones de estos sistemas a consultas jurídicas se presentan entre un 69 y un 88% de los casos, lo que evidencia el riesgo que plantea su uso, en especial para aquellos usuarios más propensos, en principio, a utilizarlos como son los litigantes de bajo nivel adquisitivo o los que actúan en nombre propio o pro se.

Carlos B Fernández. Se está repitiendo insistentemente en el sector que los grandes modelos de lenguaje (LLM), como ChatGPT, Palm y Bard, tienen el potencial de transformar la práctica del Derecho, pero este potencial se ve amenazado por las alucinaciones o respuestas no coherentes con el ordenamiento jurídico que pueden ofrecer.

En particular, estas alucinaciones en el ámbito jurídico son alarmantemente frecuentes, pues se presentan entre el 69% de las veces con ChatGPT 3.5 y el 88% con Llama 2, cuando a estos modelos se les hacen preguntas específicas y verificables sobre casos aleatorios de tribunales federales norteamericanos.

Por ello, si bien estos LLM parecen hacer que la información y los servicios jurídicos sean más accesibles y asequibles para todos, sus deficiencias actuales, en particular en cuanto a la generación de respuestas precisas y fiables en Derecho, obstaculizan significativamente este objetivo.

Estas son las principales conclusiones del artículo “Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models”, elaborado por Matthew Dahl, Varun Magesh, Mirac Suzgun y Daniel E. Ho, del Stanford RegLab de la Universidad de Stanford.

Tipología de las alucinaciones jurídicas

En el mismo, los autores han investigado el alcance de estas alucinaciones utilizando un conjunto de consultas jurídicas y examinado la coherencia de las respuestas ofrecidas por la versión 3.5 de ChatGPT, Bard y Palm. De esta forma, el trabajo les ha permitido desarrollar una tipología de alucinaciones jurídicas, proporcionando un marco conceptual para futuras investigaciones en este ámbito.

Así, los autores explican, en primer lugar, que un LLM puede alucinar al producir una respuesta que sea falsa o esté en conflicto con la petición de entrada, un fenómeno conocido como alucinación de dominio cerrado.

En segundo lugar, los LLM también pueden alucinar al producir una respuesta que contradiga o no se derive directamente de su corpus de entrenamiento.

Finalmente, la tercera forma en la que un LLM puede alucinar es produciendo una respuesta que no sea fiel a la realidad, independientemente de cómo haya sido entrenado o estimulado.

Mientras que los dos primeros tipos de alucinación no siempre son problemáticos en el ámbito jurídico, e incluso, en opinión de los autores del informe, pueden ser deseables para los juristas si, por ejemplo, dan lugar a la generación de un lenguaje que elimine información innecesaria de un argumento dado (a costa de ser fiel a él) o inventara una analogía novedosa nunca antes propuesta (a expensas de basarse en el léxico dado), la tercera de las identificadas es el tipo de alucinación más alarmante en este ámbtio, ya que puede socavar la precisión requerida en cualquier contexto jurídico en el que sea necesaria una correcta interpretación de la norma.

El estudio revela que los LLM obtienen mejores resultados en los casos más recientes, más destacados y de jurisdicciones más relevantes, lo que sugiere que los LLM padecen una especie de "monocultura" jurídica que les lleva a acoger una noción indebidamente homogeneizada del Derecho.

Igualmente indica que los LLM no solo ofrecen a menudo respuestas aparentemente aceptables pero incorrectas a preguntas contrafactuales (cuando se les solicita información sobre supuestos o casos inexistentes), sino que también les cuesta precisar su propio nivel de certeza sin una recalibración a posteriori.

Además, se evidencia que los LLM a menudo no corrigen las suposiciones jurídicas incorrectas de un usuario en una configuración de pregunta contrafáctica, ni siempre pueden predecir, o no siempre saben, cuándo están produciendo alucinaciones jurídicas.

Conveniencia de atenuar el entusiasmo por la utilidad de estos modelos en el ámbito jurídico

Los resultados sugieren también que los riesgos de utilizar estos modelos fundamentales genéricos son especialmente elevados para los litigantes que:

- Presentan demandas ante tribunales situados en un nivel inferior de la jerarquía judicial o los situados en jurisdicciones menos destacadas

- Buscan formas más complejas de información jurídica

- Formulan preguntas con premisas erróneas

- No están seguros sobre hasta qué punto "confiar" en las respuestas de los LLM.

Por ello, su principal conclusión es la de que los resultados obtenidos atenúan el reciente entusiasmo por la capacidad de los LLM disponibles públicamente para su uso en el ámbito de la justicia. En particular, resulta desaconsejable la integración rápida y no supervisada de estos LLM en las tareas jurídicas.

Se subraya que, si bien los riesgos que plantean estas alucinaciones son mayores para los usuarios que, en principio, más se pueden beneficiar del uso de los LLM, como son los litigantes pro se o los que no tienen acceso a los recursos jurídicos tradicionales, incluso los abogados experimentados deben tener cuidado con las alucinaciones jurídicas.

Es más, se añade, aunque los actores con muchos datos y dinero tienen ventaja a la hora de a la hora de crear LLM jurídicos sin alucinaciones para su propio uso privado, no está claro que ni siquiera unos recursos infinitos puedan resolver por completo el problema de las alucinaciones que diagnosticamos.

En resumen, se concluyen que los riesgos derivados del uso de estos modelos son mayores para aquellos usuarios más propensos, en principio, a utilizarlos como son los litigantes de bajo nivel adquisitivo o los que actúan en nombre propio o pro se. Estos deben tener en cuenta no sólo que los LLM alucinan ampliamente, sino también que su nivel actual de desarrollo carece de las características de requerirían estos usuarios.

Lo ideal, apuntan estos expertos, sería que los LLM se adaptaran mejor a la información jurídica específica de cada caso, en lugar de a la de los tribunales más relevantes, como el Tribunal Supremo; que fueran capaces de corregir a los usuarios cuando hacen preguntas equivocadas (en lugar de aceptar sus premisas al pie de la letra) y que fueran ser capaces de moderar sus respuestas con un nivel adecuado de confianza (en lugar de alucinar con convicción).

La fidelidad del modelo al corpus de entrenamiento, la fidelidad del modelo a la petición del usuario y la fidelidad del modelo a los hechos del mundo, es decir, a la ley, son compromisos normativos que entran en tensión entre sí, a pesar de ser propiedades técnicas deseables de un LLM. En última instancia, puesto que las alucinaciones de algún tipo son generalmente inevitables, los desarrolladores de LLM jurídicos tendrán que elegir qué tipo o tipos de alucinaciones minimizar, y deberían hacer que estas elecciones fueran transparentes para sus usuarios intermedios.

Por todo ello, los autores del informe concluyen haciéndose eco de la preocupación de que la proliferación de LLMs pueda, en última instancia, exacerbar, en lugar de erradicar, las desigualdades existentes en el acceso a los servicios jurídicos

Volver a página de inicio

Volver a página de inicio