A functionalist protocol for the evaluation of automated translation

Alonso, Elisa

Publication:
A functionalist protocol for the evaluation of automated translation

Files

2025_CIUTU_abstract en.docx (19.62 KB)

Alonso Ciuti_2025_conference presentation.pdf (2.45 MB)

logo Titania.png (105.12 KB)

Identifiers

URI: https://hdl.handle.net/10433/26283

Publication date

2026-02-24

Authors

Alonso, Elisa

Publisher

CIUTI Conferece 2025. Material autoeditado

Export

Abstract

Already in 2018, it was claimed that quality parity between Machine Translation and human translation had been achieved (Hassan et al., 2018). Since then, mainstream publications, primarily in the field of Natural Language Processing, have studied the issue of Neural Machine Translation quality (Popel, 2020) and LLM-based translation systems (Kocmi et al., 2024). However, the NPL methodological protocols for quality evaluation often ignore some fundamentals agreed upon by Translation Studies over the past 50 years, namely: 1) A "human" translation (reference for automatic evaluation metrics) must be done by one or more professional human translators (ISO 17100 – Translation Services; UNE-ISO 18587:2020), not by students, bilingual subjects without translation training, or crowdsourcing translators (Amazon Turk or similar); 2) The conditions of the translation brief must be specified: deadline, translation tool, rate, instructions for translators, style guides, glossaries, prompt used for conversational systems, etc.; 3) The translation corpora studied cannot be decontextualized sentences but real and complete texts; 4) Data must be provided (or made open) on the texts and their translations: length, source, topic, linguistic variety, type of transcription (if oral), etc.; 5) Human evaluation of translation quality –MQM (Lommel et al., 2024) or Error Span Annotations (Kocmi et al., 2024), among others– is complex and must be carried out by professional translators with experience and training in evaluation; 6) The human evaluation dimensions used must be disclosed and be aligned with the study methodology (e.g., Audience Appropriateness cannot be evaluated if no task was given to human or automatic translators; Terminology Consistency cannot be evaluated if the study corpus consists of short, isolated sentences); 8) Studies combining automatic and human evaluation must have different individuals for each task (if the same person performs the reference translation and annotates the errors, the entire experiment is based on the same informants and will have biases); 9) Statistical robustness tests only make sense when the previous premises have been met.
Ya en 2018 se afirmó haber alcanzado la paridad de calidad entre la Traducción Automática y la traducción humana (Hassan et al 2018). Desde entonces, publicaciones mainstream, fundamentalmente del ámbito del Procesamiento del Lenguaje Natural, estudian la cuestión de la calidad de la Traducción Automática Neuronal (Popel 2020) y de los sistemas de traducción basados en LLM (Kocmi et al 2024). Sin embargo, con frecuencia los protocolos metodológicos para la evaluación de la calidad desde el PLN ignora algunos fundamentos metodológicos consensuados por los Estudios de Traducción en los últimos 50 años, a saber: 1) Una traducción “humana” (de referencia para las métricas de evaluación automáticas) debe estar hecha por uno o varios traductores humanos profesionales (ISO 17100 – Servicios de Traducción; UNE-ISO 18587:2020), no por estudiantes, sujetos bilingües sin formación en traducción, ni crowdsourcing translators (Amazon Turk o similar); 2) Se deben explicitar las condiciones del encargo de traducción: plazo, herramienta de traducción, tarifa, instrucciones para los traductores, guías de estilo, glosarios, propmt empleado para los sistemas conversacionales, etc.; 3) Los corpus de traducciones estudiadas no pueden ser frases descontextualizadas, sino textos reales e íntegros; 4) Se deben aportar datos (o poner en abierto) los textos y sus traducciones: longitud, fuente, temática, variedad lingüística, tipo de transcripción (si orales), etc.; 5) La evaluación humana de la calidad de la traducción –MQM (Lommel et al., 2024) o Error Span Annotations (Kocmi et al 2024), entre otras– es compleja y deben realizarla traductores profesionales con experiencia y entrenamiento en evaluación; 6) Las dimensiones de evaluación humanas empleadas deben estar alineadas con la metodología del estudio (no se puede evaluar Audience Appropriatenes si no se ha dado un encargo a los traductores humanos o automáticos; no se puede evaluar Terminology Consistency si el corpus de estudio son frases sueltas); 7) Los estudios que combinan evaluación automática y evaluación humana deben contar con personal diferente para cada tarea (si quien realiza la traducción de referencia y quien anota los errores son la misma persona, todo el experimento se basa en los mismos informantes y tendrá sesgos); 9) Las pruebas de robustez estadística (tan habituales en las investigaciones de PLN y que pueden resultar apabullantes para los académicos de los Estudios de Traducción) solo tienen sentido cuando se ha cumplido con las premisas anteriores.

Research projects

Alonso Jiménez, Elisa (2025) TITANIA (Traducción Automática Neuronal y otras formas de Inteligencia Artificial para la creación y traducción de contenido multilingüe). Ayuda B3 “Ayudas al Desarrollo de Líneas de Investigación Propias” en régimen de concurrencia competitiva, en el marco del VI Plan Propio de Investigación y Transferencia (2023-2026), (Rfª.: PPI2404). Universidad Pablo de Olavide, de Sevilla. Nº investigadores: 3. Financiación: 8000 euros.

Description

Se adjunta abstract y presentación en powerpoint del congreso.

Keywords

Functionalism
Evaluation
Neural machine translation
Natural Language Processing
Human translation
Translation error
Translation quality

Bibliographic reference

Alonso Jiménez, E. (2025, 20-21 de mayo) A functionalist protocol for the evaluation of automated translation. Confèrence Internationale Permanente d’Instituts Universitaries de Traducterus et Interprètes. CIUTI Conference 2025. Madrid, 20-21 de mayo de 2025. Universidad Pontificia de Comillas.

Collections

DFT - Comunicaciones de congresos

Full item page

Publication:
A functionalist protocol for the evaluation of automated translation

Files

Identifiers

Publication date

Reading date

Event date

Start date of the public exhibition period

End date of the public exhibition period

Authors

Advisors

Authors of photography

Person who provides the photography

Journal Title

Journal ISSN

Volume Title

Publisher

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Doctoral program

Related publication

Research projects

Description

Keywords

Bibliographic reference

Photography rights

Collections

Publication: A functionalist protocol for the evaluation of automated translation

Files

Identifiers

Publication date

Reading date

Event date

Start date of the public exhibition period

End date of the public exhibition period

Authors

Advisors

Authors of photography

Person who provides the photography

Journal Title

Journal ISSN

Volume Title

Publisher

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Doctoral program

Related publication

Research projects

Description

Keywords

Bibliographic reference

Photography rights

Collections

Publication:
A functionalist protocol for the evaluation of automated translation