jueves, diciembre 23, 2010

Esta Navidad...

...todo se puede traducir en algo positivo.


¡¡Mis mejores deseos para estas fechas y feliz 2011!!

domingo, octubre 10, 2010

Jardinería de contenidos

Hace unos días comentaba con @kavango y @NandoQuintana los valores añadidos que se pueden ofrecer hoy en día en el mundo de los contenidos en internet. Tras diversas reflexiones, mencionaron un término que me resultó realmente iluminador: Jardinería de contenidos.

Este concepto hace referencia al conjunto de necesidades actuales de usuarios, editores, lectores, etc. respecto a la publicación de contenidos on-line.

La clave, comentaba @NandoQuintana, es que ya no basta con "plantar" un contenido y dejar que crezca solo, como ocurría en la era del papel, sino que ahora, además, se deben "sembrar" buenos artículos, "abonarlos" con menciones en redes sociales, "podar" los malos comentarios -no eliminándolos de raíz, claro está, sino tratándolos y conociendo su origen para enmendar la "mala hierba"- y "regarlos" con buenas respuestas.

Me pareció una metáfora realmente acertada, sobre todo ahora que los huertos urbanos se están convirtiendo en moda ;-)

No acabo de encontrar muchas entradas al respecto ni en inglés (content gardening), ni en castellano (jardinería de contenidos) con el sentido planteado, no obstante creo que se trata de un hermoso concepto con el que me gustaría seguir trabajando de ahora en adelante.

Como cosecha propia, me gustaría también añadir un par de ideas.

Jardinería de contenidos de calidad

Dando por supuesto que un contenido en internet debe ser original, aportar algo nuevo, tener gancho, estar hipervinculado a otros contenidos e incluso tener una pizca de humor, como filóloga y lingüista no creo en el "todo vale" en cuanto a la forma de los textos. Los contenidos on-line deberían ser de tanta o más calidad que los contenidos en papel, pero a pesar de ello, cada día descubro más ideas mal expresadas, erratas a diestro y siniestro, ¡y comas innecesarias entre sujeto y verbo!. Un lapsus calami lo puede tener cualquiera, pero para resolver nuestras dudas lingüísticas hoy en día existen cientos de recursos donde poder encontrar respuestas. Desde el diccionario de la RAE, con muchas entradas enmendadas respecto a las ediciones anteriores en papel (lo que lo convierte en algo más dinámico); el Diccionario panhispánico de dudas, de la misma institución; pasando por la página de la Fundéu, gran repertorio de comentarios, preguntas y respuetas en torno al uso de la lengua española; o incluso la Wikipedia o los foros de WordReference (y esto sólo para el castellano). Con lo que la falta de información accesible ya no puede ser una excusa.

Jardinería de contenidos multilingües

Por último, el otro factor que, en mi opinión, enriquece el valor de un contenido es su traducción. Las herramientas disponibles en la red para asistir a este proceso son también abundantes, y se pueden utilizar tanto para traducir directamente como para ayudar a mejorar la traducción. Si lo que queremos es simplemente tener una deferencia con los lectores de otras lenguas para puedan acercarse a nuestros contenidos en la suya propia, es muy sencillo utilizar la API de traducción de Google Translate para publicar nuestras páginas en multilingüe (como ocurre en este blog). Si en cambio lo que queremos es generar contenidos de calidad en otras lenguas -y disponemos del tiempo y los recursos para ello-, la traducción deberá ser realizada por un profesional, y aunque este traductor profesional cuente ya con los conocimientos lingüísticos necesarios para su tarea, tampoco debería desdeñar las herramientas disponibles en ningún caso.

Además, en toda traducción de contenidos on-line y/o de páginas web (localización) se debe además responder a las premisas básicas de la traducción y la comunicación por internet:
  • ¿Qué contenidos quiero traducir? > Definición de objetivos comunicativos y planificación del proceso de traducción
  • ¿A quién irán dirigidos estos contenidos? > Segmento de mercado, registro lingüístico necesario
  • ¿Dónde se ubica geográficamente mi público? > Variedad lingüística que se escogerá
  • ¿Cómo se habla de este tema en la lengua de destino? > Selección léxica y terminológica en función de criterios SEO
  • ¿Cuáles son los elementos que "transmiten" contenidos y también se deben traducir? > Tratamiento de elementos multimedia y texto inserto en código (metadatos)
Con todo ello, creo que queda más que patente mi interés por la jardinería de contenidos, una jardinería que debe abordar todas las vertientes planteadas en estas líneas para generar un jardín hermoso y fructífero que se convierta en vehículo de la información y la comunicación en internet, el portador de nuestro mayor valor en la vida: las ideas.

Insto a todos aquellos que deseen convertirse en jardineros a que no dejen de avisarme.

lunes, junio 14, 2010

Multilingüismo en Facebook con OpenTrad

Ayer mismo la empresa Marque informó en su blog la intención de desarrollar una aplicación que permita disponer de las páginas de la red social Facebook en más de una lengua.

Según la noticia, esta empresa se ha asociado con Eleka por su experiencia con el sistema de traducción automática Opentrad. Su objetivo es ofrecer a los usuarios de Facebook que participan en más de un entorno lingüístico la posibilidad de ver y/o publicar sus contenidos en la lengua que deseen, favoreciendo así la integración de diferentes comunidades lingüísticas en un único entorno en lugar de optar por la "disgregación" con diferentes perfiles en función de su lengua (dinámica actual en Facebook y otras redes sociales como Linkedin y que ellos llaman el "entorno multipágina").

Para ejemplificar el proyecto plantean un modelo castellano-catalán, par de lenguas en el que la calidad de los traductores automáticos está más que demostrada, y simulan el procedimiento de publicación y lectura de comentarios.

El futuro del proyecto está en manos de la financiación que han solicitado dentro del Plan Avanza. Si finalmente sale adelante tengo muchas ganas de ver qué consiguen con el euskera...

viernes, junio 04, 2010

Linguaserve y la traducción automática

Linguaserve, una de las agencias de traducción con más renombre en España, ha publicado en su boletín Contextos una mención al uso de los "sistemas de traducción automática".

Parece ser que las cuantiosas noticias aparecidas últimamente en los medios de comunicación referentes ha provocado que su presidente ejecutivo, Pedro Díez Orzas, haya decidido dar su opinión al respecto.

Aquí os dejo sus comentarios, a ver qué os parecen.

Sobre los sistemas de traducción automática: las cosas en su sitio

Durante estos últimos meses están apareciendo en los medios de comunicación bastantes informaciones que aluden al surgimiento de lo que genéricamente se denominan "sistemas de traducción automática", resaltando las ventajas que su utilización representa para los usuarios. Las distintas herramientas de un buscador como Google u otras propuestas surgidas de determinados proyectos de investigación se situarían en esta senda de actuación.

Quizá por desconocimiento, quizá por otro tipo de intereses, lo cierto es que buena parte de estas informaciones pueden dar lugar a algún equívoco, por lo que he considerado que sería interesante realizar algunas precisiones al respecto que permitan una mejor comprensión de este fenómeno.

Como punto de partida conviene advertir que la traducción profesional, junto a buenas metodologías, prácticas, tecnologías y herramientas son la mejor solución para disponer de sistemas multilingües de información actualizados con agilidad y calidad. Sin embargo, el aumento espectacular del volumen de contenido textual y el elevado número de idiomas a los que hay que traducir hacen que esta solución sea, en muchos casos, impracticable si lo que se pretende es abordar la totalidad del volumen de contenido.

En líneas generales, podemos afirmar que la traducción automática es muy útil en cuanto a su faceta de "traducción informativa", es decir, para la comprensión general del texto, mostrándose por tanto adecuada en ámbitos en los que no es necesario que la calidad de traducción sea elevada (expresado con otras palabras, es válida para romper determinadas barreras lingüísticas). Por el contrario, no es tan relevante si lo que se pretende es alta calidad (si bien es preciso advertir que existen diferentes grados según las distintas combinaciones de lenguas).

Es decir, la traducción automática puede emplearse en procesos de selección de contenidos (conocer antes de decidir qué traducir), clasificación (identificación de temas para construir metadatos de clasificación), búsqueda (aumentar el alcance de motores de búsqueda de forma dinámica) o herramientas autor (asistir a personas con competencia en una lengua pero con limitaciones en sus habilidades de escritura). Pero su limitación es también evidente y tiene que ver con que su calidad no se ajusta con los actuales requerimientos del mercado. Es decir, requiere una postedición o revisión humana para lograr unos niveles de calidad acordes con los requerimientos del cliente.

Si nos referimos a una lengua como el español, la traducción automática puede merecer la pena entre pares de idiomas lingüísticamente cercanos (por ejemplo, catalán, gallego o portugués) y ofrece mayores dudas aplicado a pares de lenguas más distantes (como pueden ser inglés, francés o italiano). Asimismo es una técnica integrable en entornos con procesos de traducción complejos.

Es por ello que una propuesta híbrida puede ser en estos momentos la solución más acertada, consiguiendo un compromiso entre calidad y cantidad (calidad en determinados contenidos y traducción global de todo el portal).

Por poner un ejemplo que considero bastante significativo: la solución híbrida es la mejor oferta del mercado para grandes volúmenes de contenidos textuales. Linguaserve la ofrece adaptada a cada necesidad, para que las páginas web de cada organización se presenten traducidas a sus "lenguas objetivo". En cualquier caso, la elección correcta depende de cada caso y de cuestiones de otra índole, como costes, nivel de seguridad de contenido, accesibilidad de la página web, entre otras muchas.

En definitiva, aunque el avance que se percibe en el desarrollo de sistemas de traducción automática es cada vez más relevante, lo cierto es que a fecha de hoy el papel que juegan los profesionales de la traducción continúa siendo innegable. Es imprescindible la existencia de empresas que cuenten con recursos humanos verdaderamente cualificados, que utilicen de forma activa las nuevas tecnologías de la información y las comunicaciones y que apuesten por la calidad en la totalidad de sus procesos productivos.

miércoles, mayo 26, 2010

Cataluña no es España... según Google

En la edición impresa de La Vanguardia de ayer apareció un nuevo artículo con referencias a los resultados traducción automática de Google.

Aunque inicialmente pareciera un texto dedicado a un blog religioso catalán, la "noticia" traía sorpresa.

El susodicho gazapo consistía (y consiste) en que el original "Catalunya no és Portugal", enunciado de un post del blog referente a la visita del Papa a Barcelona en noviembre, Google lo traduce como "Catalunya no es España".

A pesar de que en el artículo se habla de la intervención de un hacker, yo me decanto más por una "postedición" del español resultante en el proceso de traducción estadístico de Google (catalán-inglés-español), en el que la elevada frecuencia de coaparición de "Catalunya" y "España" y sobre todo la aparición de la frase "Catalunya no es España" en los corpus bilingües (catalán-español) del gigante, provoca que Portugal se convierta en España como por arte de magia.

Un equívoco con concomitancias sociopolíticas y sociolingüísticas realmente interesantes que seguramente provocará un mayor rechazo hacia los sistemas actuales de TA. Una verdadera lástima...

Eso sí, a partir de ahora estaré más atenta a los resultados de la traducción automática de mi propio blog... ¿Me encontraré también con alguna sorpresa divertida?

martes, mayo 25, 2010

Detector "semiautomático" del sarcasmo

Y siguiendo con el tema del análisis de opiniones, aquí os dejo esta noticia publicada en La Vanguardia el pasado 21 de mayo sobre un "detector de sarcasmo", también conocido como SASI (Algoritmo Semi Supervisado para la Identificación del Sarcasmo).

Si incluso a los humanos nos cuesta pillar las ironías y los sarcasmos de otros... ¿será capaz de identificarlos una máquina? Permitidme que lo ponga en duda...

Gracias, Nerea ;-)

Más sobre "análisis de sentimientos y minería de opiniones"

El 24 de septiembre de 2010 tendrá lugar en Barcelona una "sesión especial sobre análisis de sentimientos y minería de opiniones" dentro del taller DyNaK del congreso ECML PKDD 2010.

Aquí os dejo algunos datos más sobre el encuentro. Como podéis comprobar, ¡éste es un tema cada día más de moda!

Motivación
A diario, millones de personas escriben sus opiniones sobre cualquier tema en distintos medios como blogs, sitios de noticias o redes sociales. La obtención de conocimiento desde esta ingente cantidad de información supone un reto que implica a varias disciplinas científicas. El análisis de sentimientos y la minería de opiniones son dos tareas relacionadas con el procesamiento del lenguaje natural y la minería de textos que tienen como principal objetivo la identificación de opiniones y actitudes en textos escritos en lenguaje natural. En esta sesión especial interesan resultados, tanto académicos como empresariales, obtenidos en el campo de la extracción de conocimiento desde contenidos generados por usuarios, y cómo afecta el aspecto temporal en estas tareas.

Temas de interés de la sesión
- Extracción y clasificación de opiniones
- Análisis de blogs y redes sociales
- Aspecto temporal del análisis de sentimientos
- Detección de plagios e ironía en textos de opinión
- Sistemas de recomendación

Ponencia invitada
"How much linguistics do we need in order to understand online opinions?" a cargo de Carlos G. Rodríguez Penagos, de Barcelona Media.

Información obtenida a través de la lista de distribución l-red-timm.

lunes, mayo 17, 2010

Euskera añadido a la traducción web de este blog

Dado que el par español-euskera ya está disponible en GoogleT, lo he añadido a la opción de traducción web de este blog, para que podáis seguir haciendo pruebas :-)

Es curioso que el "Veamos" que inicia la descripción que se ubica bajo el título lo traduce bien. Será que aparece muchas veces en sus corpus de entrenamiento...

El traductor de Google y el euskera (I)

El viernes 14 de mayo, el sistema de traducción automática de Google activó cinco nuevos pares de lenguas en versión "alpha": armenio, azerí, georgiano, urdu y euskera.

Tal y como transmitieron en su blog, son ya 57 las lenguas con las que trabaja este sistema, y subiendo...

Así que en este post me gustaría hacer un pequeño análisis de los resultados que ofrece la traducción español-euskera de GoogleT (dejaremos el inverso y la combinación con otras lenguas para más adelante) y comparar estos resultados con los de los otros dos traductores automáticos disponibles actualmente en la red: Opentrad y el sistema del Instituto Cervantes, ambos considerados también un prototipo.

Vayamos por partes y por hitos lingüísticos. De momento, he seleccionado únicamente un par de casuísticas para no saturar el post.

Saludos, despedidas y expresiones de cortesía

Comenzaremos por un caso práctico que podría servir para iniciar o terminar un correo electrónico dirigido a un euskaldun. Para ello, he escogido tres ejemplos, en orden creciente de formalismo:

a) Hola, ¡cuánto tiempo! ¿Cómo estás?
GoogleT: Kaixo, zenbat denbora! Zer moduz zaude?
Opentrad: Kaixo, zenbat denbora ¡ !, ¿ nola egon ?
IC: Kaixo, aspaldiko! Zer moduz?
Traducción correcta: Kaixo, aspaldiko! Zer moduz (zaude)?

b) Buenos días / Buenos días María / Buenas tardes / Buenas noches (4 traducciones)
GoogleT: Egun on / Egunon María / Arratsalde on / Good night
Opentrad: Egun onak / Maria egun onak / Arratsalde onak / Gabon
IC: Egun on / Egun on María / Arratsalde on / Gabon
Traducción correcta: Egun on / Arratsalde on / Gabon

c) A la espera de tus noticias, recibe un cordial saludo
GoogleT: zure erantzuna zain, agur bero bat jaso
Opentrad: Zure erantzunaren zain, bihotzeko bat hartzen du agur egiten dut
IC: Zure erantzuna zain, jasotzen du agur bero bat
Traducción correcta: Zure erantzunaren zain, agur bero bat

Oraciones simples

A continuación, seguiremos la prueba con algunas oraciones simples (sujeto - verbo - objeto) tomadas de elcorreo.com.

a) Isidro Elezgarai será el pregonero de la Aste Nagusia
GoogleT: Isidro Elezgarai Aste Nagusia de heraldo da
Opentrad: Isidro Elezgarai Aste nagusiaren pregonaria izango da
IC: Isidro Elezgarai Aste Nagusiaren pregoilaria izango da
Traducción correcta: Isidro Elezgarai Aste Nagusiaren pregoilaria izango da

b) El presidente del Gobierno defiende las reformas anunciadas
GoogleT: Gobernuko presidenteak defendatu du erreforma iragarri du
Opentrad: Gobiernoren presidenteak erreforma iragarriak defendatzen ditu
IC: Gobernuko presidenteak zerbaiten berri emandako erreformak dfendatzen ditu
Traducción correcta: Gobernuko presidenteak iragarritako erreformak defendatu ditu

Conclusiones
Dejando de lado los resultados de Opentrad y el sistema del Instituto Cervantes (que en esta prueba ha salido bastante bien parado) veamos qué se podría deducir del funcionamiento de GoogleT en su traducción español-euskera:
  1. No ajusta bien las mayúsculas de inicio de frase cuando desparece la primera palabra de la oración original (zure erantzunaren zain...)
  2. Sufre bastante carencias en su diccionario: confusiones y falta de cohesión léxicas y gramaticales ("egun on / egunon", pregonero-heraldo, anunciadas, Aste Nagusia), y cuando no dispone de la equivalencia completa de un término en su diccionario (recordemos que GoogleT pivota siempre sobre el inglés) lo dejan en inglés, como en "Buenas noches = Good night".
  3. Sintácticamente, no se ajusta al orden "sujeto - objeto - verbo" paradigmático del euskera
  4. Por otro lado, es el único sistema que convierte correctamente (para este caso al menos) el presente histórico del español a pasado, uso muy frecuente en el lenguaje periodístico actual
  5. Y ya no he continuado con ejemplos más complejos (coordinación, subordinación, preposiciones polisémicas...) porque los resultados dejaban demasiado que desear...
En resumen, aún le queda mucho por aprender a este nuevo sistema. Veamos a qué velocidad avanza y si los corpus que utiliza para su aprendizaje le aportan la calidad de conocimiento necesaria para poder mejorar. Intentaré realizar pruebas periódicas de este sistema para que podamos dar cuenta real su evolución.

Y aunque no venga al caso, yo me sigo preguntando... ¿dónde está el traductor automático del Gobierno Vasco?

jueves, mayo 13, 2010

Análisis lingüístico y redes sociales

Hace unos días publiqué una entrada sobre el primer taller sobre aproximaciones computacionales a la subjetividad y al análisis de sentimientos (WASSA 2010).

Ahora, vía Buscarama leo una noticia sobre las aplicaciones prácticas de este tipo de aproximaciones: informes sobre la opinión de los votantes del Reino Unido sobre sus candidatos a Primer Ministro creados a partir de los comentarios "twitteados" durante el primer debate de la campaña.

Un ejemplo precioso de cómo la interacción entre análisis lingüístico (especialmente semántico) y redes sociales puede ofrecer resultados de interés general.

Para más información, podéis leer el post de Buscarama: Brown, Cameron, Clegg y Twitter.

Los guiones parentéticos

Los guiones parentéticos son aquellos que, en lenguas como el castellano, se utilizan para introducir incisos en el discurso simulando los paréntesis.

En las II Jornades d'Edició Digital Independent se mencionaron estos guiones porque el formato ePub, formato estándar para la publicación de libros electrónicos, aún no consigue tratarlos bien.

Me resultó curioso el comentario, que provino de José Antonio Millán, porque durante mi colaboración en el desarrollo de traductores automáticos en la empresa AutomaticTrans de Barcelona éste era uno de los aspectos más conflictivos para el sistema de traducción dentro del tratamiento de los signos de puntuación.

Así pues, tanto para la tecnología como para los humanos, la lengua se nos revela compleja en todos sus niveles, desde el ortotipográfico hasta el semántico y pragmático, y está claro que sus problemáticas lo son en cualquier ámbito, desde la "simple" edición hasta la traducción.

¡Pero qué bonita que es la lengua!

martes, mayo 11, 2010

Crónica de las "II Jornades d'Edició Digital Independent"

Hoy, 11 de mayo de 2010, he tenido la suerte de poder asistir a las II Jornades d'Edició digital independent en el Institut d'Estudis Catalans. Aquí va un pequeño resumen de las ideas transmitidas.

En primer lugar, José Antonio Millán, autor del blog Libros y bitios (enlazado también como referencia de lectura en este blog) ha presentado un completo "ecosistema del libro digital", realizando un recorrido muy interesante por conceptos sociológicos, tecnológicos y de mercado relacionados con la edición digital.

Los materiales de su presentación recogen interesantes datos en torno al reto que supone este nuevo modelo de edición, desde el aluvión actual de publicaciones hasta los nuevos modelos de lectores, intermediarios, soportes e, incluso, autores. Diversidad y coexistencia de modelos como ideas de base.

En el momento de preguntas y respuestas, y aprovechando el carácter introductorio de la conferencia, varios asistentes se han lanzado con comentarios e inquietudes en torno a aspectos como la piratería, las licencias de los programas de uso privativo o los complejos de los editores para hacer uso de los nuevos recursos tecnológicos. Todo ello ha servido para completar aún más el primer momento de la mañana.

Tras esta intervención, la editora del blog Beat.cat, Iolanda Bethencourt, ha expuesto un concienzudo repertorio de datos sobre conceptos, formatos, aspectos técnicos, plataformas distribuidoras e incluso aspectos legales de los e-books/e-readers.

Ya tras el café tardío, Arantxa Mellado, directora de la red social Ediciona nos ha dejado más que patente la apabullante realidad de la web 2.0, y se ha centrado en modelos de uso de las redes sociales como estrategias de marketing en el ámbito de la edición, con decenas de casos de éxito a modo de ejemplo. Sus mensajes y consejos, claros y directos:
  • Seducir e implicar a los lectores
  • Implicar a los autores
  • Aprovechar la viralidad de la web 2.0
  • Utilizar y experimentar con los nuevos medios hasta encontrar el más efectivo para cada caso

Para cerrar la jornada, la profesora de la UB Laura Borràs nos ha deleitado -acompañada por su iPad y su Papyre 6.S Alex- con la conferencia "Llegir (en) el futur: e-books i canvis en l'escriptura, la lectura i el futur de l'edició". Un arrollador discurso compuesto por un vínculo constante de conceptos humanísticos y tecnológicos relacionados con la "innovación" (que no siempre es innovación, según ella) en escritura, lectura y edición. Una sabrosa disertación para cerrar la jornada con el mejor sabor de boca.

Una mañana realmente completa.

miércoles, abril 28, 2010

Otro "bonito" ejemplo que parece sacado de un traductor automático...

...y que refleja el problema de las homografías y términos multicategoriales. Si así fuera, la postedición debería ser un requisito obligado para cualquier publicación de resultados de sistemas de TA, sea en el medio que sea.

En el blog lafragua tenéis el caso.

No obstante, ni Google Traductor, ni el sistema del Instituto Cervantes, ni el de Lucy Software, ni Babel Fish, que si no me equivoco utiliza Systran para alguno (si no todos) de sus pares de lenguas, ni Opentrad ofrecen este resultado. ¿Será que un humano también puede sucumbir a las ambigüedades categoriales de la lengua?

  • Google Traductor:
    1. Español: Conservas: Delicias del mar
    2. Inglés: Canned: Sea Delights

  • Instituto Cervantes:
    1. Español: Conservas: Delicias del mar
    2. Inglés: Conserves: Delicias of the sea

  • Lucy Software:
    1. Español: Conservas: Delicias del mar
    2. Inglés: Preserves: Delights of the sea

  • Babel Fish / Systran:
    1. Español: Conservas: Delicias del mar
    2. Inglés: Conserves: Delights of the sea

  • Opentrad:
    1. Español: Conservas: Delicias del mar
    2. Inglés: Conserves: Delights of the sea

Curioso también que sólo las dos últimas traducciones coincidan...

Concurso de Literatura Multimedia Bubok

Bubok, empresa dedicada a la publicación de libros electrónicos, ha convocado su I Concurso de Literatura Multimedia.

Al enterarme de la noticia por medio de su blog y leer las bases del concurso un alud de ideas de fusión de tópicos literarios y tópicos digitales arrasaron mi mente: interacción entre redes sociales, elementos multimedia, aplicaciones de web 2.0, de web semántica, opciones de creación individual y/o colaborativa...

Y entonces recordé que hace poco descubrí en Libros y bitios un bonito ejemplo, no de creación literaria, pero sí de innovación de presentación y soporte: La fábula del cuervo huidizo, de La Fontaine, que me resultó realmente inspirador y, sobre todo, realmente original.

Ambas propuestas, tanto la de creación de literatura multimedia como la de adaptación a los nuevos medios de obras consagradas me resultan realmente sugerentes y con unas posibilidades infinitas.

Afortunadamente, aún nos queda mucho por inventar :-)

La molesta barra de traducción automática de Google...

No creo ser la única que ha tenido que enfrentarse al último regalo de Google instalado en su navegador: la barra de traducción automática para páginas web. He de reconocer que las aplicaciones de Google me encantan y soy una fan de su sistema de traducción automática. No obstante, creo que en esta ocasión han menospreciado al usuario.

En el mundo cada vez más multilingüe en el que vivimos, no sólo las aplicaciones, las empresas o las páginas web se manifiestan en diferentes idiomas, también las personas hemos experimentado ese cambio y cada vez son (somos) más loas bilingües, trilingües o incluso políglotas.

Así, dejando de lado aspectos más técnicos como su interferencia en la navegación o la dificultad para desinstalarla, creo que desde Google deberían tener en cuenta un aspecto más en la mejora de su barra de traducción: las lenguas que conoce de antemano el internauta y de las que no necesitará traducción en ningún caso.

Un pequeño formulario tras la instalación de la barra informando al usuario de la nueva actualización y solicitándole que indique en qué lenguas no desea que se aplique este servicio podría resultar realmente agradable al navegante que, cuando "surfee" por una página en una lengua que conoce seguirá disfrutando tan ricamente de su contenido, y cuando acceda a una página en bielorruso automáticamente se le ofrecerá traducción gratuita.

Si eres de los que aún luchas cada día con esta barra teniendo que desactivar la opción de traducción al visitar una página nueva en otra lengua, la información que recoge a este respecto el Foro de ayuda de Google te podrá ayudar.

1st Workshop on Computational Approaches to Subjectivity and Sentiment Analysis

Primer taller sobre aproximaciones computacionales a la subjetividad y al análisis de sentimientos (WASSA 2010).

Parece ser que una de las aplicaciones prácticas del PLN más de moda en la actualidad es la de analizar opiniones, pareceres y sentimientos a través de los elementos que conforman el discurso escrito de los internautas.

Por lo que leo en la descripción del encuentro, las aportaciones que se esperan para el taller irán en la siguiente línea:
  1. Recuperación y organización de la información pertinente para el objeto de estudio
  2. Análisis computacional pragmático y semántico de los elementos lingüísticos que puedan manifestar opiniones subjetivas y sentimientos, ayudándose, incluso, de las aplicaciones de la web semántica
  3. Creación de amplios córpora estructurados y anotados (lingüística de corpus) que aporten datos fiables a los sistemas de minería textual de opiniones.
Es decir, un claro ejemplo de interacción de diferentes técnicas que conforman el actual panorama de la ingeniería lingüística para la obtención de resultados orientados a aplicaciones prácticas.

Estaremos al tanto de los resultados que se obtengan, y confiemos en que sean buenos, pues a más de uno le convendría un buen análisis objetivo de los sentimientos y opiniones que se manifiestan en sus discursos...

martes, abril 27, 2010

Y la vida siguió...

...como siguen las cosas que no tienen mucho sentido. Y casi cinco años después, la tecnofilología volvió a despertar. Esperemos que esta vez no se apague la llama tan pronto.