¿El Web de Babel?

Asunto: El crecimiento explosivo de Internet y la World Wide Web no presenta signos de declive. Por todas partes aparecen nuevos usuarios y servidores, especialmente en los países de habla no inglesa. Sin embargo, una parte considerable del contenido de la información disponible está en inglés. Faltan productos que permitan reducir los elevados costes de la traducción, el intercambio, la recuperación y el almacenamiento de la información multilingüe. Las iniciativas internacionales actuales relativas a normas de software de nivel superior podrían constituir una ayuda.

Relevancia: Las autopistas de la información global conformarán el modo de vida del mañana, como columna vertebral de la Sociedad de la Información multimedia emergente. En lo que se refiere al lenguaje de comunicación, aparecen tres comunidades lingüísticas diferentes: la comunidad totalmente multilingüe, la inglesa (a veces con una lengua local adicional) y la puramente local. Las PYMEs europeas corren el riesgo de estar dentro del último grupo. Aún es tiempo de modificar las consecuencias, antes de que una serie de datos heredados lo haga más difícil.

--------------------------------------------------------------------------------

La World Wide Web continúa creciendo de manera invariablemente rápida en términos de direcciones de servidor, páginas web y usuarios de Internet. Hay cada vez más conciencia de su potencial para las comunicaciones interpersonales inter alia, la investigación, la educación y el comercio electrónico. Al conectar electrónicamente a las personas y a las organizaciones a través de los ordenadores, el Web proporciona una oportunidad única para extraer beneficios de la diversidad de lenguas. Pero, a menos que se saque provecho de esos ordenadores, el Web puede convertirse rápidamente en una Torre de Babel donde las comunidades de usuarios sean incapaces de comunicarse eficazmente entre sí, a no ser que compartan la misma lengua.

Para materializar beneficios es necesario disminuir la relación coste/beneficio del multilingüismo, mediante servicios, herramientas y normas que presten mejor apoyo a la creación, gestión, funcionamiento y accesibilidad de sitios multilingües, así como al proceso de traducción concomitante. Por ejemplo, recientemente se han presentado iniciativas internacionales en esta dirección, en WInter96, Web Internationalization & Multilinguality Symposium (Simposio de Multilingüismo e Internacionalización del Web), celebrado en Sevilla el 20-22 de noviembre de 1996 (organizado en colaboración con Sadiel, Sevilla, España y W3C, el Consorcio de la World Wide Web con representación en EE.UU., Europa y Japón; patrocinado por la Comisión Europea como parte del proyecto G7 "Un mercado global para las PYMEs").

La acción gubernamental puede influir en el desarrollo de esta situación. El Consejo de Europa decidió el 21 de noviembre de 1996 la adopción de un programa multianual para promover la diversidad lingüística de la Comunidad en la sociedad de la información, y la Comisión Europea ha promovido el Programa de la Sociedad de la Información Multilingüe (1996-1998). A continuación presentaremos cuestiones relativas al multilingüismo del Web desde una perspectiva más amplia, y discutiremos algunos puntos que conciernen a corto plazo a los responsables de la política.

El multilingüismo y el Web

El lenguaje predominante en el Web es el inglés. Los usuarios con experiencia en el uso del Web consideran subjetivamente que constituye un 95% de toda la información disponible, pero resulta difícil medirlo objetivamente. La investigación basada en la incidencia de un mismo término en diferentes lenguas indica un predominio del 80% a favor del inglés. Si se trata de temas científicos este valor alcanza casi el 100%.

Sin embargo, hay que tener en cuenta que los países con mayor tasa de crecimiento de la conectividad a Internet son actualmente los que no son de habla inglesa. Además, algunos usuarios se han visto virtualmente forzados, hasta hace muy poco, a comunicarse en inglés debido a la falta de apoyo para los caracteres de su lengua en sus sistemas de correo electrónico, editores, clientes de navegación, impresoras, etc. Un indicador mejor del interés y demanda actuales de los individuos con respecto a otras lenguas en general, es la abundancia de grupos de discusión en línea: más de 60 lenguas diferentes están activas.

Estas son buenas noticias para Europa desde dos puntos de vista. En primer lugar, parece deducirse que es más probable que el Web proteja las lenguas nacionales antes que destruirlas. En segundo lugar, indica que la gente prefiere realizar sus negocios en su lengua nativa, incluso en las autopistas globales de la información. Esto debería dar a los suministradores europeos una ventaja competitiva, al considerar la "localización" de sus productos en los mercados del extranjero que hablan lenguas europeas.

Pero también hay malas noticias. En primer lugar, todavía no es adecuado el apoyo al multilingüismo en forma de herramientas, servicios y software de bajo coste. En segundo lugar, por lo menos en el caso de la industria europea del software, el interés por el multilingüismo parece ser menor que en América. La mayoría de los participantes en el simposio de Sevilla antes mencionado representaban a empresas de EE.UU., y lo mismo ha ocurrido en la reciente conferencia de Unicode en Maguncia. Ciertamente puede argumentarse que uno de los factores del éxito global de la industria norteamericana del software es la atención que ha dedicado a las cuestiones de multilingüismo y pluralidad de culturas, hasta el punto de que la mayoría de las grandes empresas de TI de EE.UU. obtienen más del 50% de sus ingresos de los productos localizados vendidos en el mercado internacional. Si se puede aplicar la analogía de la industria del software a otros sectores industriales, parece que, a pesar de la experiencia europea del Mercado Único, las empresas norteamericanas son capaces de explotar mejor el multilingüismo y la pluralidad de culturas como elementos de ventaja competitiva.

Softwares normalizados

W3C: "El World Wide Web tiene actualmente una preferencia muy marcada por el inglés y el sistema de escritura de Europa occidental. Pero los negocios, la investigación y la comunicación interpersonal modernos se realizan cada vez más en otros lenguajes y sistemas de escritura. El Web debe mejorarse para que cumpla las exigencias de la comunidad global."

W3C, la organización no oficial que fija las normas para el Web, está promoviendo actualmente la internacionalización de normas básicas de software. Para el HTML (lenguaje de etiquetado de hipertexto), la internacionalización tiene lugar a dos niveles: (1) los caracteres en el texto (aparte del etiquetado) deben ser capaces de representar alfabetos no occidentales, tales como el cirílico, árabe, hebreo, japonés, etc.; (2) además, para una visualización correcta y otras operaciones, a veces es necesario fijar explícitamente la lengua de un fragmento de texto. Para el HTTP (protocolo de transferencia de hipertexto), se propone una nueva versión que pueda realizar la "negociación del lenguaje".

Puede decirse que se han resuelto la mayor parte de las cuestiones básicas de internacionalización relativas a la transmisión y presentación de información multilingüe. La atención se dirige ahora a cuestiones relativas al contenido de la información multilingüe, tales como la traducción, la extracción y la recuperación de la información. No obstante, todavía quedan unas cuantas cuestiones significativas. Por ejemplo, es importante introducir en el Web posibilidades de etiquetado en varios idiomas (para permitir la conexión de documentos según la lengua, por ejemplo). Unas normas de nivel superior reducirían la cantidad de trabajo administrativo y de mantenimiento para direcciones de Web que sirven documentos en múltiples lenguas. Actualmente, el trabajo de etiquetado debe repetirse manualmente para cada nueva lengua. Además, sería muy beneficioso adoptar normas para documentos normalizados que soporten la transferencia automática de texto hacia y desde los servicios de traducción automatizada en Internet.

Otro elemento esencial que está ausente en la tecnología básica del Web es la posibilidad de que un usuario determinado del Web señale su ubicación y sus preferencias regionales, tales como sistemas de pesos, medidas y monedas, que a menudo están relacionados con el idioma del usuario, pero que pueden variar independientemente del mismo. Por ejemplo, no es posible determinar qué tipo de moneda usa un hablante de lengua francesa. Aunque esta posibilidad tendría muchas aplicaciones diferentes, tiene una importancia especial en el contexto del comercio electrónico en el Web, ya que permitiría a un vendedor de productos presentar información adaptada a los esquemas de monedas, pesos y medidas, y a las reglamentaciones locales del cliente potencial.

El margen de maniobra para introducir tales normas es muy pequeño. Ya se están produciendo sitios multilingües, incluso en pequeñas organizaciones (por ejemplo, este informe puede leerse en cuatro idiomas en http://www.jrc.es/iptsreport). Cuando el legado de datos heredados sea importante, será difícil la adopción de nuevas normas.

Tecnología de la traducción

Una vez que los documentos multilingües puedan almacenarse eficientemente como hemos considerado, ¿cómo podrán conseguirse sin mucho coste? La respuesta está en los servicios de traducción en el Web. La traducción asistida por ordenador ha sido objeto preferente de investigación durante los últimos 40 años. Sin embargo, la tecnología no está completamente madura, y así lo ponen de manifiesto las necesidades de la Sociedad de la Información. Las principales alternativas a la traducción manual tradicional incluyen: traducción total o parcialmente automática, ayudas del ordenador a los traductores, y producción total o parcialmente automatizada de textos paralelos en varios idiomas.

Las razones por las que la traducción se ha resistido durante tanto tiempo a la automatización son complejas, pero no un misterio. Los problemas más importantes se refieren a la distinción entre significado e interpretación. La interpretación depende del contexto, y debería permanecer invariable después de la traducción. Esto resulta muy difícil de automatizar.

--------------------------------------------------------------------------------

Traducción Automática (MT): todas las técnicas para realizar la traducción automáticamente. Inicialmente, los programas de ordenador tuvieron sólo un éxito limitado, produciendo traducciones palabra por palabra. Más recientemente, al incorporar más comprensión sintáctica y semántica, se han obtenido mejores resultados, especialmente cuando se han "adiestrado" sobre un campo temático específico. La traducción automática asistida por el hombre (HAMT) se refiere a las técnicas que se basan en una auténtica automatización de la traducción, con alguna intervención humana en la preedición, postedición o interacción. La traducción humana asistida por ordenador (MAHT) se refiere a ayudas del ordenador para los traductores y revisores.

--------------------------------------------------------------------------------

Ejemplos de MT: ya existen algunos productos para la traducción completa de temas específicos. El sistema PaTrans traduce textos de patentes del inglés al danés. Su tecnología es originaria del proyecto EUROTRA de la Comisión Europea, y en el futuro trabajará con más pares de lenguas. El sistema Meteo traduce de modo rutinario los boletines meteorológicos canadienses entre el inglés y el francés. La Universidad de Montreal lo ha desarrollado para eliminar la introducción del texto en su totalidad y traducir directamente los datos atmosféricos a lenguas naturales paralelas. Un enfoque semejante podría, por ejemplo, ayudar a las empresas europeas a producir catálogos de productos multilingües.

--------------------------------------------------------------------------------

¡Estas deben ser traducciones automáticas!

The lift is being fixed for the next day, Under that time we regret that you will be unbearable. (cartel en un ascensor).

Specialist in women and other diseases. (cartel en la consulta de un médico).

Our wines leave nothing to hope for. (en un restaurante).

Customers will be executed in good order. (en una tienda).

--------------------------------------------------------------------------------

En los últimos años, se ha trabajado muchísimo en Japón sobre MT (véanse los recuadros). Se han desarrollado sistemas con interlingua y de transferencia. El primero traduce a, y desde, un idioma de referencia, mientras que el segundo trabaja con pares de lenguas. Para las 11 lenguas oficiales de la UE, las técnicas de transferencia requieren 110 direcciones de traducción, mientras que sólo se necesitan 22 traducciones con interlingua. Sin embargo, la tecnología de la interlingua es más difícil de desarrollar para aplicaciones de tipo general.

Recuperación de información multilingüe

Los servicios actuales de búsqueda en el Web no son especialmente útiles cuando se trata de preguntas muy específicas, incluso dentro de una sola lengua, pues hacen poco más que identificar cadenas de caracteres en texto libre. Sólo se puede encontrar información en la misma lengua si se utilizan exactamente las mismas palabras en la pregunta y en el documento, y sólo se pueden encontrar documentos en diferentes lenguas si se formulan preguntas diferentes en lenguas diferentes. La respuesta es pobre porque muchos documentos relevantes no se encuentran. Asimismo, la precisión es escasa porque a menudo se obtienen documentos que son irrelevantes para los fines de la pregunta, pero que, no obstante, contienen las cadenas de caracteres mencionadas. La identificación de textos relevantes entre los documentos seleccionados puede ser una tarea que consuma mucho tiempo del usuario, porque tiene que filtrar manualmente los documentos que no desea.

Por supuesto, las preguntas pueden mejorarse utilizando expresiones de Bool tales como las que proporcionan la mayoría de los servicios de búsqueda. Sin embargo, esto es una forma no natural de interacción que va a menudo más allá de las capacidades del usuario, y no soluciona realmente el problema subyacente, que es el de la lengua y su desconocimiento.

Realmente una de las ventajas clave del Web es que la información se expresa principalmente en lenguaje natural. Un sistema de búsqueda que lo reconociera permitiría la recuperación de conceptos, más bien que de cadenas de caracteres, y lo complementaría con ayudas para la navegación, en forma de asistencia en la formulación de preguntas, identificación y resolución de ambigüedades, y la presentación de términos de búsqueda posiblemente más apropiados, etc.

La indexación por conceptos en vez de por cadenas de caracteres proporciona no sólo una forma de interacción más eficaz y natural dentro de una única lengua, sino que también proporciona un mecanismo poderoso para manejar específicamente información multilingüe, en la que los conceptos necesarios para mantener una lengua pueden ser representados por términos equivalentes en otras lenguas.

Una infraestructura de búsqueda de esta naturaleza permitiría fácilmente la recuperación en lenguaje cruzado, en la que una pregunta expresada en una lengua podría recoger textos en una lengua diferente. Esta capacidad resulta fundamental para asegurar el principio de igualdad de acceso a la información, ya que no es realista suponer que se traducirá toda la información. Naturalmente, deberá suplementarse con herramientas y servicios que hagan inteligible para el usuario la información multilingüe recuperada. Existe una variedad de tales herramientas y servicios, que van desde la transliteración y los diccionarios automatizados hasta la traducción automática y la realizada con ayuda humana.

Impulsores económicos

La red Internet está considerada como un punto de mercado del mañana para las PYMEs de todo el mundo. El Web constituye un escenario electrónico para los productos de una empresa, así como la autopista de la información para el comercio electrónico. Un componente importante de este último es el Intercambio electrónico de datos (EDI). Otros componentes son los catálogos de productos, los manuales de funcionamiento y los manuales de usuario. Estos últimos deben estar traducidos al idioma del comprador del producto, según establecen las directivas de la CE para protección del consumidor y fiabilidad del producto. En general, las empresas no serán capaces de comercializar sus productos frente a los competidores globales a menos que puedan localizarlos en el idioma del cliente.

Durante siglos el comercio internacional ha reconocido la necesidad de respetar las lenguas y tradiciones culturales de los mercados involucrados. Cuando se expanda el comercio electrónico en el Web, el principio básico de que "la lengua de venta es la lengua del cliente" sugiere que la provisión multilingüe aumentará. Ciertamente, también parece que en el Web se han superado las consideraciones de coste/beneficio que se aplicaban al multilingüismo en el pasado. Si los costes se limitan a la traducción de unas pocas páginas del Web, como en el caso de productos tales como libros y ropas que se pueden comprar por correo en el Web, parece incluso rentable traducir estas pocas páginas para las comunidades de lenguas que son relativamente pequeñas en números absolutos, pero que están bien representadas en el Web. Suecia, con unos 800.000 hablantes estimados en línea, representa un caso típico. Por supuesto, las ganancias potenciales son mayores cuando el número de hablantes se mide en millones o cientos de millones, especialmente si existe un avance tecnológico y económico en las áreas geográficas correspondientes. Incluso ahora, hay mercados grandes y relativamente poco explorados entre los hablantes en línea de francés, alemán, español, portugués, italiano y japonés. A estos se están agregando en número creciente los hablantes de chino, árabe y ruso. Sencillas consideraciones de mercado hablan de un nivel superior de multilingüismo en el Web. Además debe observarse que las empresas que operan en un área lingüística única pueden esperar una competitividad mayor por parte de los proveedores de otras partes del mundo.

Figura 1: Usuarios de Web por comunidad lingüística (como porcentaje de los hablantes correspondientes)

(Gráfico Omitido)

Atendiendo al idioma de la transacción se pueden considerar tres segmentos suministradores: multilingüe, de habla inglesa y local. Las empresas multinacionales, incluyendo las americanas, suelen ser las primeras en localizar productos en forma multilingüe. Por el contrario, el 75% de los hombres de negocios en la UE no hablan inglés. Estos ejecutivos están reclamando servicios de traducción asequibles y rápidos, para los que el Web es una opción perfecta. El coste económico de la traducción hoy es el siguiente: traducir una página técnica, unas 250 palabras, supone una hora de traductor y 20 minutos de revisor.

Analicemos como ejemplo la traducción somera o de exploración: traducción de material escrito para adquirir información. El resultado obtenido puede utilizarse para tener una idea del contenido, en la lengua materna propia y sin revisión. Este es el caso de una PYME que busque un nuevo cliente o socio en el Web. Ya hay varios sistemas trabajando, como el SYSTRAN, usado por la Comisión Europea para varios pares de idiomas (200.000 páginas traducidas en 1995).

Para la traducción precisa o de difusión (traducción estricta y objetiva, en especial de documentación técnica) también existen varios sistemas en marcha que pueden proporcionar resultados para que un revisor trabaje sobre ellos. Se caracterizan por su especialización en cierto tipo de textos. Algunos sistemas utilizan técnicas especiales, como la memoria de traducción, que podrían ayudar en la localización de un producto sustituyendo correctamente cláusulas legales, por ejemplo. El límite rentable para adaptar uno de los sistemas existentes a un nuevo texto es de unas 10.000 páginas.

Una tercera situación en la que los sistemas automatizados resultarán rentables en cuanto a costes en un futuro próximo es en el caso de las traducciones técnicas especializadas a un gran número de lenguas, donde el autor serviría como traductor ocasional.

Para todos los tipos de traducción, así como para la administración rentable del servidor, un requisito previo es una interfaz de documento multilingüe continua entre los usuarios de Internet y las direcciones del Web, como se ha discutido anteriormente. Un objetivo debe ser la cadena ATE (Autor, Traductor, Editor).

Impulsores sociales

Además de las fuerzas económicas promovidas por el comercio electrónico, en la Sociedad de la Información (SI) existen tendencias hacia el multilingüismo que también exigen apoyo al Web y a la traducción. Su importancia no puede medirse en términos de poder adquisitivo, sino más bien como parte de una visión europea del futuro.

Quizá el más visible se refiere a la prevención de la exclusión social. Es un hecho reconocido que las generaciones no muy jóvenes constituyen un grupo que está siendo arrinconado por la Sociedad de la Información, básicamente debido a su falta de familiaridad con los ordenadores. Para ellas, las herramientas multilingües de búsqueda de información en línea y la traducción de exploración en el Web son absolutamente necesarias para no quedarse aislados.

Otra tendencia importante es la internacionalización de la educación. Cuando en Europa todas las escuelas estén conectadas a la red, ¿cómo podrán comunicarse entre sí niños de distintos países? ¿podrán conseguir información para sus trabajos sobre Rusia, de los escolares de aquel país, traducidos directamente en lugar de emplear la enciclopedia?

También hay otro fenómeno que puede observarse respecto al uso obligatorio de la lengua local para ciertos tipos de información en el Web en algunos países, por ejemplo, en Francia. El apoyo al Web, incluyendo ayuda a la traducción, puede ser muy beneficioso para algunas organizaciones interesadas.

Discusión

El rápido avance de la Sociedad de la Información proporciona una oportunidad para proyectar el futuro. Con una extensión menor pero adecuada de los softwares normalizados para el Web podría desarrollarse un mercado de servicios de traducción en Internet y el coste del mantenimiento y desarrollo de los sitios multilingües podría disminuir sustancialmente. Al mismo tiempo, la provisión de útiles y servicios de búsqueda multilingüe adaptados al lenguaje natural, apoyados por servicios de traducción en vías de establecimiento, contribuirá hacia el objetivo del acceso universal a las fuentes de información.

Pocas personas bien informadas siguen considerando la idea original de una traducción completamente automática de calidad, de cualquier texto, como un logro realista para un futuro próximo. Pero la integración y el despliegue en Internet de los productos de traducción automática ya existentes daría a las PYMEs y a todos los ciudadanos en general mejor acceso a nuevos mercados y más información.

Una tecnología semejante podría beneficiar a los consumidores de modo aún más directo. Por ejemplo, hoy en día, algunos proveedores no venden determinados productos industriales en los países europeos más pequeños debido a los altos costes de la localización de la documentación. El acceso automatizado a nuevas tecnologías puede ayudar a cambiar la ecuación coste/beneficio.

La acción gubernamental podría contribuir a cambiar la situación. El Consejo de Europa decidió el 21 de noviembre de 1996 la adopción de un programa multianual para promover la diversidad lingüística de la Comunidad en la Sociedad de la Información, y la Comisión Europea ha lanzado el Programa de la Sociedad de la Información Multilingüe (1996-1998).

Se convoca la acción gubernamental concertada, y ya se han mencionado algunas iniciativas y programas de la UE. Las administraciones gubernamentales y las empresas nacionales, especialmente las PYMEs, podrían también dedicarse activamente a la adquisición de software y servicios exigiendo apoyo multilingüe en los clientes de navegación, servidores, etc., y ser pioneros estableciendo direcciones de Web multilingües. Las PYMEs europeas son las que más pueden beneficiarse económicamente del multilingüismo.

--------------------------------------------------------------------------------

Palabras clave

Sociedad de la información multilingüe, Internet, normas para softwares, traducción automática

Referencias

Comisión Europea, Language and Technology, Luxemburgo, 1996.

http://www.cordis.lu/esprit/src/smehome, dirección en el Web del Proyecto Piloto G-7 "Un mercado global para las PYMEs".

http://www.cse.ogi.edu/CSLU/HLTsurvey, Survey of the State of the Art in Human Language Technology.

http://www.w3.org, dirección en el Web de W3C.

http://www.w3.org/pub/WWW/International/Sevilla-96,

http://www.crpht.lu/~carrasco/winter, direcciones en el Web de la conferencia WInter96 .

http://www2.echo.lu/langeng/en/lehome, dirección en el Web de la Comisión Europea de Language Engineering.

http://www2.echo.lu/mlis/mlishome, dirección en el Web del Programa de la Sociedad de la Información Multilingüe de la CE.

Proc. WInter96: Web Internationalization & Multilinguality Symposium, Sevilla, Noviembre 1996.

The Coming Global Tongue, The Economist, 21 de Diciembre , 1996: pags. 45-48.

Contactos

Juan Stamm'ler Jaliff, IPTS Tel. +34-5-448 8356, fax: +34-5-448 8339, correo electrónico: juan.jaliff@jrc.es

Manuel Tomás Carrasco Benítez Tel. +352-467303, fax: +352-467302, correo electrónico: carrasco@innet.lu

Iain Urquhart Tel. +352-4301-33661, fax: +352-4301-34999, correo electrónico: iain.urquhart@lux.dg13.cec.be

Sobre los autores

--------------------------------------------------------------------------------

Juan S. Jaliff tiene un Master en Ingeniería Nuclear por el Instituto Balseiro y MBA en Gestión de Tecnología por el MIT. Antes de incorporarse al IPTS trabajó durante 14 años como ingeniero de software y jefe de unidad en ABB Sweden. Como Investigador Científico de Seguimiento Tecnológico, sus intereses de investigación actuales incluyen la sociedad de la información, los software educativos y las telecomunicaciones.

Manuel Tomás Carrasco ejerce una gran actividad en el campo del Multilingüismo y la Internacionalización del Web (WInter): artículos, borradores para Internet, cursos, presentaciones, ponente para el Proyecto G7, presidente del Simposio Winter96, presidente de paneles y coordinador de reuniones en las conferencias W3 de Santa Clara, París, Boston y Darmstadt. Es licenciado en Informática y Matemáticas por la Universidad de Londres.

Iain Urquhart es miembro de la DG XIII-E5, la Unidad de Ingeniería Lingüística de la Comisión Europea, que promueve la Investigación y el Desarrollo en Tecnología Lingüística como parte del programa de Aplicaciones Telemáticas de la Comisión. Posee títulos en Lenguas e Informática y ha trabajado durante varios años en el desarrollo de software relacionado con la lengua incluyendo útiles de traducción y sistemas de traducción automática. Su interés actual se centra en las cuestiones multilingües del Comercio Electrónico y la Sociedad de la Información.

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR