Publication: A functionalist protocol for the evaluation of automated translation
Loading...
Identifiers
Publication date
Reading date
Event date
Start date of the public exhibition period
End date of the public exhibition period
Authors
Advisors
Authors of photography
Person who provides the photography
Journal Title
Journal ISSN
Volume Title
Publisher
CIUTI Conferece 2025. Material autoeditado
Abstract
Already in 2018, it was claimed that quality parity between Machine Translation and human translation had been achieved (Hassan et al., 2018). Since then, mainstream publications, primarily in the field of Natural Language Processing, have studied the issue of Neural Machine Translation quality (Popel, 2020) and LLM-based translation systems (Kocmi et al., 2024). However, the NPL methodological protocols for quality evaluation often ignore some fundamentals agreed upon by Translation Studies over the past 50 years, namely: 1) A "human" translation (reference for automatic evaluation metrics) must be done by one or more professional human translators (ISO 17100 – Translation Services; UNE-ISO 18587:2020), not by students, bilingual subjects without translation training, or crowdsourcing translators (Amazon Turk or similar); 2) The conditions of the translation brief must be specified: deadline, translation tool, rate, instructions for translators, style guides, glossaries, prompt used for conversational systems, etc.; 3) The translation corpora studied cannot be decontextualized sentences but real and complete texts; 4) Data must be provided (or made open) on the texts and their translations: length, source, topic, linguistic variety, type of transcription (if oral), etc.; 5) Human evaluation of translation quality –MQM (Lommel et al., 2024) or Error Span Annotations (Kocmi et al., 2024), among others– is complex and must be carried out by professional translators with experience and training in evaluation; 6) The human evaluation dimensions used must be disclosed and be aligned with the study methodology (e.g., Audience Appropriateness cannot be evaluated if no task was given to human or automatic translators; Terminology Consistency cannot be evaluated if the study corpus consists of short, isolated sentences); 8) Studies combining automatic and human evaluation must have different individuals for each task (if the same person performs the reference translation and annotates the errors, the entire experiment is based on the same informants and will have biases); 9) Statistical robustness tests only make sense when the previous premises have been met.
Ya en 2018 se afirmó haber alcanzado la paridad de calidad entre la Traducción Automática y la traducción humana (Hassan et al 2018). Desde entonces, publicaciones mainstream, fundamentalmente del ámbito del Procesamiento del Lenguaje Natural, estudian la cuestión de la calidad de la Traducción Automática Neuronal (Popel 2020) y de los sistemas de traducción basados en LLM (Kocmi et al 2024). Sin embargo, con frecuencia los protocolos metodológicos para la evaluación de la calidad desde el PLN ignora algunos fundamentos metodológicos consensuados por los Estudios de Traducción en los últimos 50 años, a saber: 1) Una traducción “humana” (de referencia para las métricas de evaluación automáticas) debe estar hecha por uno o varios traductores humanos profesionales (ISO 17100 – Servicios de Traducción; UNE-ISO 18587:2020), no por estudiantes, sujetos bilingües sin formación en traducción, ni crowdsourcing translators (Amazon Turk o similar); 2) Se deben explicitar las condiciones del encargo de traducción: plazo, herramienta de traducción, tarifa, instrucciones para los traductores, guías de estilo, glosarios, propmt empleado para los sistemas conversacionales, etc.; 3) Los corpus de traducciones estudiadas no pueden ser frases descontextualizadas, sino textos reales e íntegros; 4) Se deben aportar datos (o poner en abierto) los textos y sus traducciones: longitud, fuente, temática, variedad lingüística, tipo de transcripción (si orales), etc.; 5) La evaluación humana de la calidad de la traducción –MQM (Lommel et al., 2024) o Error Span Annotations (Kocmi et al 2024), entre otras– es compleja y deben realizarla traductores profesionales con experiencia y entrenamiento en evaluación; 6) Las dimensiones de evaluación humanas empleadas deben estar alineadas con la metodología del estudio (no se puede evaluar Audience Appropriatenes si no se ha dado un encargo a los traductores humanos o automáticos; no se puede evaluar Terminology Consistency si el corpus de estudio son frases sueltas); 7) Los estudios que combinan evaluación automática y evaluación humana deben contar con personal diferente para cada tarea (si quien realiza la traducción de referencia y quien anota los errores son la misma persona, todo el experimento se basa en los mismos informantes y tendrá sesgos); 9) Las pruebas de robustez estadística (tan habituales en las investigaciones de PLN y que pueden resultar apabullantes para los académicos de los Estudios de Traducción) solo tienen sentido cuando se ha cumplido con las premisas anteriores.
Ya en 2018 se afirmó haber alcanzado la paridad de calidad entre la Traducción Automática y la traducción humana (Hassan et al 2018). Desde entonces, publicaciones mainstream, fundamentalmente del ámbito del Procesamiento del Lenguaje Natural, estudian la cuestión de la calidad de la Traducción Automática Neuronal (Popel 2020) y de los sistemas de traducción basados en LLM (Kocmi et al 2024). Sin embargo, con frecuencia los protocolos metodológicos para la evaluación de la calidad desde el PLN ignora algunos fundamentos metodológicos consensuados por los Estudios de Traducción en los últimos 50 años, a saber: 1) Una traducción “humana” (de referencia para las métricas de evaluación automáticas) debe estar hecha por uno o varios traductores humanos profesionales (ISO 17100 – Servicios de Traducción; UNE-ISO 18587:2020), no por estudiantes, sujetos bilingües sin formación en traducción, ni crowdsourcing translators (Amazon Turk o similar); 2) Se deben explicitar las condiciones del encargo de traducción: plazo, herramienta de traducción, tarifa, instrucciones para los traductores, guías de estilo, glosarios, propmt empleado para los sistemas conversacionales, etc.; 3) Los corpus de traducciones estudiadas no pueden ser frases descontextualizadas, sino textos reales e íntegros; 4) Se deben aportar datos (o poner en abierto) los textos y sus traducciones: longitud, fuente, temática, variedad lingüística, tipo de transcripción (si orales), etc.; 5) La evaluación humana de la calidad de la traducción –MQM (Lommel et al., 2024) o Error Span Annotations (Kocmi et al 2024), entre otras– es compleja y deben realizarla traductores profesionales con experiencia y entrenamiento en evaluación; 6) Las dimensiones de evaluación humanas empleadas deben estar alineadas con la metodología del estudio (no se puede evaluar Audience Appropriatenes si no se ha dado un encargo a los traductores humanos o automáticos; no se puede evaluar Terminology Consistency si el corpus de estudio son frases sueltas); 7) Los estudios que combinan evaluación automática y evaluación humana deben contar con personal diferente para cada tarea (si quien realiza la traducción de referencia y quien anota los errores son la misma persona, todo el experimento se basa en los mismos informantes y tendrá sesgos); 9) Las pruebas de robustez estadística (tan habituales en las investigaciones de PLN y que pueden resultar apabullantes para los académicos de los Estudios de Traducción) solo tienen sentido cuando se ha cumplido con las premisas anteriores.
Doctoral program
Related publication
Research projects
Alonso Jiménez, Elisa (2025) TITANIA (Traducción Automática Neuronal y otras formas de Inteligencia Artificial para la creación y traducción de contenido multilingüe). Ayuda B3 “Ayudas al Desarrollo de Líneas de Investigación Propias” en régimen de concurrencia competitiva, en el marco del VI Plan Propio de Investigación y Transferencia (2023-2026), (Rfª.: PPI2404). Universidad Pablo de Olavide, de Sevilla. Nº investigadores: 3. Financiación: 8000 euros.
Description
Se adjunta abstract y presentación en powerpoint del congreso.
Bibliographic reference
Alonso Jiménez, E. (2025, 20-21 de mayo) A functionalist protocol for the evaluation of automated translation. Confèrence Internationale Permanente d’Instituts Universitaries de Traducterus et Interprètes. CIUTI Conference 2025. Madrid, 20-21 de mayo de 2025. Universidad Pontificia de Comillas.






