Introducción: La disponibilidad de herramientas universales de comunicación y su impacto en la atención médica
Permitir que todos entiendan y sean entendidos en su propio idioma es uno de los desafíos más importantes para la humanidad. Lograr esto facilitará una colaboración sin precedentes entre los seres humanos. Imagínese, por ejemplo, si la investigación científica estuviera disponible en el idioma de cada investigador tan pronto como se publicara. No estamos lejos de eso, como lo demuestra la investigación que realizamos en Translated, un proveedor global de servicios lingüísticos y pionero en servicios de traducción impulsados por IA. Esta innovadora investigación fue presentada en la última conferencia anual de la Asociación para la Traducción Automática en las Américas (AMTA) en Orlando.
Al analizar las ediciones realizadas por 136.000 de los mejores traductores profesionales del mundo a 2 mil millones de oraciones procesadas por software de traducción automática (traducción automática), por primera vez en la historia, pudimos cuantificar la velocidad a la que nos estamos acercando a la singularidad en la traducción. La singularidad se alcanza cuando los traductores profesionales de mejor rendimiento pasan el mismo tiempo corrigiendo una traducción producida por traducción automática (MT) que corrigiendo una completada por sus compañeros.
En el campo de la medicina, romper las barreras del idioma es aún más impactante que en otras áreas. Estas barreras impiden que los pacientes comprendan claramente sus condiciones clínicas, lo que dificulta que se adhieran correctamente a la terapia necesaria. Además, estas barreras hacen que sea difícil, si no imposible, que los médicos obtengan el consentimiento requerido para la atención y limiten los datos y la información necesarios para el diagnóstico y la investigación. Hoy en día, muchas instituciones de salud más grandes ofrecen servicios de intérprete, pero estos tienen costos significativos. Por lo tanto, la mayoría de las organizaciones en el sector médico todavía dependen de mediadores culturales o soluciones de bricolaje, como las aplicaciones para teléfonos inteligentes. La pandemia de Covid19 ha hecho que la necesidad de abordar este problema sea más importante que nunca. Según la Comisión Europea1, la pandemia aumentó la demanda de traducción en un 49% en el sector sanitario. Afortunadamente, los avances tecnológicos están empujando a la comunidad de la salud a considerar la traducción automática como un medio para superar las barreras del idioma, y las herramientas de comunicación universales están lo suficientemente cerca como para proporcionar un apoyo equivalente.
Esperamos que la traducción automática tenga un impacto radicalmente positivo en la industria de la salud. Las aplicaciones potenciales se encuentran en tres áreas principales:
– La traducción de información para el público en general
– La traducción de publicaciones especializadas como artículos científicos, patentes e informes de enfermedades. Esto proporcionará acceso a estudios de investigación globales y datos del mundo real (por ejemplo, ensayos clínicos y descubrimiento de fármacos).
– La comunicación perfecta del paciente con el médico y la recopilación de comentarios de los pacientes, incluso a partir de las discusiones que tienen lugar en las redes sociales entre Here, podemos combinar MT con reconocimiento automático de voz (ASR) y tecnologías de texto a voz (TTS) para apoyar el lenguaje hablado.
Sin embargo, la traducción automática funcionará bien en la atención médica solo cuando proporcione traducciones tan buenas como las realizadas por profesionales de la traducción. En Translated, hemos estado monitoreando la calidad de MT desde 2011, y recientemente, decidimos usar la enorme cantidad de datos que hemos recopilado para medir cuán lejos estamos de proporcionar traducción automática de calidad humana. Cuando alcanzamos la singularidad en la traducción, podemos integrar la traducción automática en tiempo real en casi todos los vicios a un costo muy accesible.
Un resumen de la historia de la tecnología de la traducción automática
El concepto de traducción automática se mencionó por primera vez en el 9siglo IX cuando un criptógrafo árabe introdujo técnicas para la traducción sistemática de idiomas que, increíblemente, siguen siendo relevantes2. Sin embargo, la primera demostración pública de la traducción automática se hizo en 1954 en los Estados3Unidos. Fue un pequeño experimento, pero alentó a los investigadores a seguir adelante. Los primeros sistemas se basaban en diccionarios y reglas bilingües que indicaban cómo traducir palabras o frases de un idioma de origen a un idioma de destino. A continuación, se desarrolló un enfoque estadístico: mediante el análisis de grandes volúmenes de traducciones humanas, las máquinas comenzaron a predecir la equivalencia de una frase en el idioma de destino. La frase centrado en el aprendizaje de patrones y el enfoque de predicción de patrones impulsó la primera versión de Google Translate a principios de la década de 2000.
Hoy en día, Google Translate y los motores de traducción automática más avanzados se basan en modelos de redes neuronales basados en aprendizaje profundo para aprender y predecir los resultados finales. Esta es una forma más profunda y confiable de detección y pronóstico de patrones. En este tipo de sistema, la traducción es producida por un único modelo de secuencia entrenado para predecir una palabra a la vez, considerando toda la oración fuente y la traducción que ya se ha proporcionado.
En 2017, un consorcio compuesto por Translated, la Fondazione Bruno Kessler, la Universidad de Edimburgo y TAUS presentó la primera traducción automática adaptativa, ModernMT4. Inicialmente fue un proyecto de investigación respaldado por la Unión Europea que5 más tarde se convirtió en software de código abierto y un servicio comercial impulsado por Translated. En este nuevo modelo, MT aprende en tiempo real de la retroalimentación correctiva del traductor sin volver a entrenar el modelo de traducción. La idea de la traducción automática adaptativa se remonta a un proyecto de investigación anterior realizado por Translated, la Fondazione Bruno Kessler, la Universidad de Edimburgo y la Universidad de Le Mans, patrocinado nuevamente por la Unión6Europea. La idea inicial era crear una herramienta para editar los resultados de la traducción automática y gestionar los flujos de trabajo de localización. El objetivo de la investigación era un sistema de MT que pudiera aprender de las correcciones de los traductores y mejorar automáticamente con el tiempo. El componente MT de la solución se separó más tarde para centrarse en la herramienta de edición, que finalmente se lanzó como software de código abierto en 2014. La Comisión Europea incluyó el proyecto entre los que tienen el mayor potencial de innovación financiado por el Séptimo Programa Marco. Translated perfeccionó aún más el prototipo de investigación y creó una versión comercial, Matecat7, una herramienta de traducción asistida por ordenador y software de edición MT que la compañía adoptó como su herramienta de producción exclusiva. Con Matecat y ModernMT, Translated se esfuerza por lograr una simbiosis perfecta entre la creatividad humana y la inteligencia artificial: al eliminar tareas redundantes, la IA permite a los profesionales centrarse en los matices del lenguaje, mejorando la calidad de la traducción. Esta sinergia da a los lingüistas mejores sugerencias mientras que la MT sigue aprendiendo. Juntos, se vuelven más eficientes, adaptables y rentables cada día.
Sobre el proceso y los datos recopilados
En 2011, Translated estandarizó y estableció una métrica altamente confiable para evaluar la calidad de MT con precisión. Lo llamamos Time to Edit (Tte): este es el tiempo promedio por palabra requerido por los traductores profesionales de mejor rendimiento para verificar y corregir las traducciones sugeridas por MT. Esto permite pasar de las estimaciones automatizadas aún en uso en la industria a las mediciones del esfuerzo cognitivo humano, reasignando la evaluación de la calidad a las personas tradicionalmente responsables de la tarea: traductores profesionales. Hemos estado rastreando Time to Edit durante casi una década, recopilando más de 2 mil millones de ediciones en oraciones traducidas de manera efectiva por 136,000 traductores profesionales en todo el mundo que trabajan en múltiples dominios temáticos, que van desde literatura hasta traducción técnica e incluyen campos en los que MT todavía está luchando, como la transcripción del habla. Los lingüistas fueron seleccionados para los trabajos específicos que completaron utilizando una IA patentada llamada TRank8, que recopila datos de rendimiento laboral y calificación de más de 300,000 trabajadores independientes que han trabajado con la compañía en las últimas dos décadas. La IA considera más de 30 factores, incluida la coincidencia de currículum, el rendimiento de calidad, el registro de entrega a tiempo, la disponibilidad y la experiencia en áreas temáticas específicas del dominio.
Trabajando en Matecat, los traductores verifican y corrigen las sugerencias de traducción proporcionadas por el motor de MT de su elección. Los datos se recopilaron inicialmente utilizando la MT estadística de Google (2015-2016), luego la MT neuronal de Google y, más recientemente, la MT neuronal adaptativa de Modern MT, introducida en 2018, que rápidamente se convirtió en la opción preferida entre casi todos nuestros traductores. Translated ha estado recopilando el tiempo promedio para editar una palabra continuamente durante más de siete años.
Para refinar la muestra, solo consideramos lo siguiente:
– Trabajos realizados con un alto nivel de calidad.
– Oraciones con sugerencias de MT que no coincidían con las bases de datos de segmentos de texto traducidos anteriormente.
– Trabajos en los que el idioma de destino tiene una gran cantidad de datos disponibles junto con una eficiencia probada de MT (inglés, francés, alemán, español, italiano y portugués).
Del conjunto de oraciones resultantes, eliminamos:
Oraciones que no recibieron ninguna edición ya que no proporcionaron información sobre el Tte, y oraciones que tardaron más de 10 segundos por palabra en editarse, ya que sugieren interrupciones y/o una complejidad inusualmente alta. Este refinamiento era necesario para hacer posible la comparación de Tte a través de múltiples
– Trabajar en la adaptación a la configuración regional, es decir, traducciones entre variantes de un solo idioma (por ejemplo, inglés británico a inglés estadounidense), ya que estas no son representativas del problema en
– Grandes puestos de trabajo para clientes, ya que emplean modelos de lenguaje altamente personalizados y memorias de traducción en las que el rendimiento de Tte es mucho mejor que la media.
El tiempo de edición se ve afectado por dos variables principales distintas de la calidad de MT: la evolución de la herramienta de edición y la calidad entregada por el traductor. La influencia de estos dos factores puede considerarse insignificante cuando se considera la tendencia de mejora a largo plazo que observamos.
Una sorprendente tendencia lineal que se aproxima a la singularidad en la traducción
Cuando se representan gráficamente, los datos de Tte muestran una tendencia sorprendentemente lineal. Nuestra hipótesis inicial para explicar esto es que cada unidad de progreso para cerrar la brecha de calidad requiere exponencialmente más recursos que la unidad anterior, y en consecuencia desplegamos esos recursos: potencia de cálculo (duplicándose cada dos años), disponibilidad de datos (el número de palabras traducidas en pliegues a una tasa de crecimiento anual compuesta de 6.2% según Nimdzi Insights), y la eficiencia de los algoritmos de aprendizaje automático (cálculo necesario para la capacitación, 44 veces mejoría de 2012-2019, según OpenAI9).
Fig. 1.
Conclusión: Qué tan cerca estamos de romper las barreras del lenguaje
Si el progreso en la calidad de la traducción automática continúa con la tendencia actual, en aproximadamente seis años los traductores profesionales con mejor rendimiento pasarán el mismo tiempo corrigiendo una traducción producida por traducción automática que corrigiendo una completada por sus compañeros. La fecha exacta en la que alcanzaremos la singularidad en la traducción podría variar un poco de qué, pero la tendencia es clara. Por lo tanto, estamos cerca de poder proporcionar herramientas de traducción accesibles, universales y en tiempo real que romperán las barreras del idioma, lo que nos permitirá mejorar los resultados de salud de los clientes y reducir el riesgo de muerte.
Desde el punto de vista de la investigación, la evidencia que Translated ha proporcionado sobre el progreso en la calidad de la MT es posiblemente la evidencia más convincente del éxito a escala visto en las comunidades de MT e IA en general. De hecho, muchos investigadores de IA piensan que resolver el problema de la traducción de idiomas es equivalente a producir inteligencia general artificial (AGI). El descubrimiento de Translated ha cuantificado así, por primera vez en la historia, la velocidad a la que nos estamos acercando a la singularidad en la inteligencia artificial, el hipotético punto futuro en el tiempo en el que la inteligencia artificial trasciende la inteligencia humana.