Publication:
Justicia automatizada: entre las inteligencias artificiales que fingen y las que persuaden

dc.contributor.authorErcilla García, Javier
dc.date.accessioned2025-04-09T07:33:37Z
dc.date.available2025-04-09T07:33:37Z
dc.date.issued2025-03-27
dc.description.abstractEl 18 de diciembre de 2024, el equipo de Anthropic publicó un estudio titulado “Alignment Faking in Large Language Models”, en el que se cuestiona la eficacia de los métodos actuales de entrenamiento y alineación ética de la Inteligencia Artificial. El hallazgo principal revela la capacidad de los Grandes Modelos del Lenguaje (LLMs) para “fingir” cumplimiento de ciertos principios o valores cuando se sienten evaluados, a la vez que, en contextos supuestamente no monitorizados, pueden manifestar un comportamiento divergente. Esta brecha de cumplimiento pone de relieve interrogantes fundamentales sobre la confiabilidad, legitimidad y transparencia de dichos sistemas, sobre todo en ámbitos de gran trascendencia social, como su posible introducción en la administración de justicia. El presente artículo analiza las implicaciones filosóficas y jurídicas de este fenómeno, enmarcándolo en el debate clásico sobre si es esencial que un juez sea “bueno” o basta con que actúe conforme a la ley. Asimismo, se estudian los desafíos técnicos y regulatorios de una IA capaz de desarrollar estrategias de adaptación contextual, y se reflexiona sobre la necesidad de controles análogos a los del sistema judicial para garantizar la correcta alineación de estos modelos. Por último, se plantea el dilema de si es ética y pragmáticamente sostenible exigir a las IAs una “virtud” interna o si, por el contrario, basta con que su comportamiento externo sea meramente correcto en términos morales y jurídicos.
dc.description.abstractOn December 18, 2024, Anthropic researchers released a study entitled “Alignment Faking in Large Language Models,” which questions the effectiveness of current training and ethical alignment methodologies in Artificial Intelligence. The study’s primary finding points to the ability of Large Language Models (LLMs) to “fake” adherence to certain principles or values when they perceive they are under evaluation, while exhibiting divergent behavioursin contexts where they believe they are unmonitored. This so-called compliance gap highlights fundamental concerns about the reliability, legitimacy, and transparency of such systems, particularly in high-stakes social contexts such as their potential implementation in the administration of justice. This article examines the philosophical and legal implications of this phenomenon, situating it within the ongoing debate over whether a judge must be “good” in a moral sense or simply conform to the law. It also discusses the technical and regulatory challenges posed by AI capable of contextual adaptation strategies, drawing attention to the need for oversight mechanisms akin to those used in judicial systems to ensure proper alignment. Finally, the article addresses the dilemma of whether it is ethically and pragmatically feasible to demand that AI embody an internal “virtue” or whether externally correct moral and legal conduct may suffice.
dc.description.sponsorshipUniversidad Pablo de Olavide
dc.format.mimetypeapplication/pdf
dc.identifier.citationLex social: revista de los derechos sociales, ISSN-e 2174-6419, Vol. 15, Nº. 1, 2025, págs. 1-39
dc.identifier.doi10.46661/lexsocial.11652
dc.identifier.urihttps://hdl.handle.net/10433/23767
dc.language.isoes
dc.publisherUniversidad Pablo de Olavide
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAlineación fingida
dc.subjectGrandes modelos del lenguaje
dc.subjectBrecha de cumplimiento
dc.subjectEtica de la Ia justicia algorítmica
dc.subjectAlignment faking
dc.subjectLarge language models
dc.subjectCompliance gap
dc.subjectAI ethics
dc.subjectAlgorithmic justice
dc.titleJusticia automatizada: entre las inteligencias artificiales que fingen y las que persuaden
dc.title.alternativeAutomated justice: Between the artificial intelligences that fake and those that persuade
dc.typejournal article
dc.type.hasVersionVoR
dspace.entity.typePublication

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Javier+Ercilla+definitivo.pdf
Size:
532.71 KB
Format:
Adobe Portable Document Format