Mensaje de error

Deprecated function: The each() function is deprecated. This message will be suppressed on further calls en _menu_load_objects() (línea 579 de /var/www/html/panoramaweb2016/includes/menu.inc).

Recuperación de documentos en secuencias generales fue tema de seminario en Ingeniería UdeC

La creciente generación de información plantea un importante reto para los sistemas de recuperación de documentos, más aún cuando se trata de áreas en las que la búsqueda a través de palabras no es una solución.
A estos desafíos responde un campo relativamente reciente de investigación, la búsqueda de datos en secuencias en contextos generales, tema sobre el que expuso el investigador de la Universidad de Chile, Gonzalo Navarro, en una nueva charla-seminario del Departamento de Ingeniería Informática y Ciencias de la Computación de la UdeC.
El académico -quien es especialista en algoritmos, estructura de datos, búsquedas en texto, comprensión y búsqueda en espacios métricos- explicó que hasta ahora los sistemas de recuperación de documentos han estado orientados, más bien,  a textos generados sobre la base del lenguaje natural. Es el caso de los motores de búsqueda en la Web.
En este contexto, como explicó el doctor en Ciencias de la Computación, el problema está relativamente resuelto a través de los índices invertidos, que –dijo- “son estructuras de datos muy simples” y que operan sobre el supuesto de que el vocabulario (las palabras) que se utiliza para las búsquedas “es muy inferior al tamaño de la colección” de documentos.
Esto –señaló- “significa que es muy factible calcular el número de todas las preguntas posibles; es decir de todas las palabras que se pueden utilizar para la búsqueda”.
Sin embargo, dijo, plantea  limitantes, por ejemplo, en lenguajes naturales como los asiáticos “donde los símbolos, a veces, son fonéticos y, otras, son ideográficos; o a veces representan un concepto” y, por lo tanto, no pueden ser asumidos como una palabra.
“No es trivial tomar un texto y segmentarlo en palabras. A veces una misma secuencia representa una cosa u otra, según el contexto”, dijo.
Esta misma complejidad está presente en la recuperación de documentos en áreas donde no es posible buscar a través de palabras, sino que necesariamente requieren de secuencias de palabras o de símbolos.
“Por ejemplo, en informática, una parte importante de la información que se almacena son secuencias de datos”, señaló el investigador. Lo mismo en bioinformática, donde lo que se busca “son genes o genomas vistos como secuencias de genes que se usa mucho para determinar la distancia evolutiva entre dos especies”.
Otros ámbitos de aplicación para esta área de investigación  son la minería de datos y Web, quimioinformática, recuperación de información multimedia, entre otros, sobre cuyos avances y proyecciones dio cuenta el investigador en su exposición.