Justicia automatizada: entre las inteligencias artificiales que fingen y las que persuaden

Ercilla García,  Javier

Publication:
Justicia automatizada: entre las inteligencias artificiales que fingen y las que persuaden

dc.contributor.author	Ercilla García, Javier
dc.date.accessioned	2025-04-09T07:33:37Z
dc.date.available	2025-04-09T07:33:37Z
dc.date.issued	2025-03-27
dc.description.abstract	El 18 de diciembre de 2024, el equipo de Anthropic publicó un estudio titulado “Alignment Faking in Large Language Models”, en el que se cuestiona la eficacia de los métodos actuales de entrenamiento y alineación ética de la Inteligencia Artificial. El hallazgo principal revela la capacidad de los Grandes Modelos del Lenguaje (LLMs) para “fingir” cumplimiento de ciertos principios o valores cuando se sienten evaluados, a la vez que, en contextos supuestamente no monitorizados, pueden manifestar un comportamiento divergente. Esta brecha de cumplimiento pone de relieve interrogantes fundamentales sobre la confiabilidad, legitimidad y transparencia de dichos sistemas, sobre todo en ámbitos de gran trascendencia social, como su posible introducción en la administración de justicia. El presente artículo analiza las implicaciones filosóficas y jurídicas de este fenómeno, enmarcándolo en el debate clásico sobre si es esencial que un juez sea “bueno” o basta con que actúe conforme a la ley. Asimismo, se estudian los desafíos técnicos y regulatorios de una IA capaz de desarrollar estrategias de adaptación contextual, y se reflexiona sobre la necesidad de controles análogos a los del sistema judicial para garantizar la correcta alineación de estos modelos. Por último, se plantea el dilema de si es ética y pragmáticamente sostenible exigir a las IAs una “virtud” interna o si, por el contrario, basta con que su comportamiento externo sea meramente correcto en términos morales y jurídicos.
dc.description.abstract	On December 18, 2024, Anthropic researchers released a study entitled “Alignment Faking in Large Language Models,” which questions the effectiveness of current training and ethical alignment methodologies in Artificial Intelligence. The study’s primary finding points to the ability of Large Language Models (LLMs) to “fake” adherence to certain principles or values when they perceive they are under evaluation, while exhibiting divergent behavioursin contexts where they believe they are unmonitored. This so-called compliance gap highlights fundamental concerns about the reliability, legitimacy, and transparency of such systems, particularly in high-stakes social contexts such as their potential implementation in the administration of justice. This article examines the philosophical and legal implications of this phenomenon, situating it within the ongoing debate over whether a judge must be “good” in a moral sense or simply conform to the law. It also discusses the technical and regulatory challenges posed by AI capable of contextual adaptation strategies, drawing attention to the need for oversight mechanisms akin to those used in judicial systems to ensure proper alignment. Finally, the article addresses the dilemma of whether it is ethically and pragmatically feasible to demand that AI embody an internal “virtue” or whether externally correct moral and legal conduct may suffice.
dc.description.sponsorship	Universidad Pablo de Olavide
dc.format.mimetype	application/pdf
dc.identifier.citation	Lex social: revista de los derechos sociales, ISSN-e 2174-6419, Vol. 15, Nº. 1, 2025, págs. 1-39
dc.identifier.doi	10.46661/lexsocial.11652
dc.identifier.uri	https://hdl.handle.net/10433/23767
dc.language.iso	es
dc.publisher	Universidad Pablo de Olavide
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Alineación fingida
dc.subject	Grandes modelos del lenguaje
dc.subject	Brecha de cumplimiento
dc.subject	Etica de la Ia justicia algorítmica
dc.subject	Alignment faking
dc.subject	Large language models
dc.subject	Compliance gap
dc.subject	AI ethics
dc.subject	Algorithmic justice
dc.title	Justicia automatizada: entre las inteligencias artificiales que fingen y las que persuaden
dc.title.alternative	Automated justice: Between the artificial intelligences that fake and those that persuade
dc.type	journal article
dc.type.hasVersion	VoR
dspace.entity.type	Publication