En este Blog se definen conceptos como búsqueda semántica, buscador semántico y se exponen ejemplos de las ventajas de los buscadores semánticos con respecto a los buscadores convencionales, basados en el uso de palabras clave para encontrar información y mostrarla al usuario. El interés industrial y comercial de las búsquedas semánticas se manifiesta tanto en la aparición de numerosos buscadores semánticos como en la utilización de técnicas semánticas para complementar las búsquedas convencionales (en Google, por ejemplo).

lunes, 22 de noviembre de 2010

Tipos de Buscadores Semánticos


Un primer tipo es el motor de búsqueda textual (Full Text Search Engine) basado en análisis léxico. Se trata de una forma de procesamiento que divide el texto en parágrafos, frases, palabras y también identifica entidades tales como direcciones de correo electrónico y direcciones Web, todos estos elementos para ser procesados son considerados como unidades acumulativas, técnicamente llamadas tokens, son sometidos a una serie de parámetros estadísticos con los que se establece un rango de enlaces, esta lista es la que se presenta como respuesta a nuestra pregunta. Este tipo de motores son los primeros que aparecieron, eran de este tipo por ejemplo el Gopher, creado en 1991 por Mark McCahill de la University of Minnesota y Veronica.

Luego tenemos los motores con indización de la semántica latente (Latent semantic indexing, LSI), estos motores se basan en análisis del significado no literalmente explícito utilizando algoritmos con componentes estadísticos y léxicos. En este sentido el Latent semantic analysis (LSA) es una técnica de procesamiento del lenguaje natural (Natural Language Processing, NLP ) que usa una base de datos de documentos para encontrar términos similares. En este tipo de motores se puede encontrar entonces un cierto grado de sinonimia y devuelve los enlaces a los sitios Web que mejor se adaptan a nuestra búsqueda, el LSI no necesita tener el exacto término en una referencia para poder ofrecerlo como repuesta, puede usar aproximaciones de acuerdo con la estructura de sinónimos cuasi sinónimos que identifica. El motor Google utiliza este tipo de análisis, aunque el componente estadístico es más fuerte que el de procesamiento de lenguaje, pero según todos hemos podido experimentar puede detectar errores de tipeo, cambios en las expresiones, etc.

Vemos que el tema de los motores de búsqueda no solo se refiere a la calidad de la recuperación sino al negocio ligado a la ubicación en los primeros puestos de los enlaces en una respuesta. Finalmente tenemos los llamados motores de búsqueda semánticos, (Semantic Web search engines) que intentan tomar el sentido de una palabra como factor para los algoritmos de ordenamiento y también pueden ofrecer al usuario posibilidades para desambiguar o refinar su consulta. Estos son llamados también motores de búsqueda de tercera generación, los cuales su vez utilizan las otras dos tecnologías de búsqueda textual y de búsqueda de semántica latente a las que se suman otras específicas llamadas tecnologías de Web semántica. Estas son: ontologías, RDF (Resource Description Format) OWL (Ontology Web Language). Las tecnologías de Web semántica se basan en lógicas de descripción para dar cuenta de manera formal y computable de la semántica de los objetos de un sistema. Dentro de estos motores de tercera generación o motores de búsqueda semánticos debemos hacer algunas distinciones: Tenemos por un lado los Buscadores semánticos orientados al usuario (User oriented Semantic Web search engines) estos motores nos devuelven enlaces a páginas Web, y pueden usar internamente tanto tecnologías de Web semántica como de LSI, Entre ellos tenemos a los siguientes: True Knowledge, Hakia y PowerSet.

Además están los Buscadores semánticos orientados a servicios Web (Semantic Web Services oriented) Estos no son para el usuario final, sino que dan enlaces a útiles para los especialistas que necesitan trabajar en la construcción de recursos de Web semántica, devuelven enlaces a ontologías, archivos en OWL, a instancias de RDF. Entre ellos tenemos: SOWL,WSE, Watson, Falcons, Sindice y Swoogle Y finalmente tenemos los motores de búsqueda orientados a la Web social semántica La llamada socio-semantic web (s2w) se propone complementar la visión formal de la Web semántica con un acercamiento pragmático agregando a los lenguajes controlados creados con fuertes bases lógicas otros aspectos heurísticos basados en experiencias de prueba y error experimentadas por multitudes de usuarios que realizan etiquetado colaborativo (folksonomy). La diferencia de este tipo de motores con los buscadores semánticos orientados al usuario es que utilizan microformatos de Web 2.0 (por ejemplo RSS) para poner etiquetas y usan para el trabajo cooperativo apoyado en computadoras Computer Supported Cooperative Work (CSCW).

Estos es así porque la llamada Web semántica significa muchas cosas para muy diferentes tipo de personas y usos. Para algunos Web semántica significa la Web de los datos, donde la información está representada en RDF, OWL o en microformatos que se agregan a páginas HTML. Para otros, Web semántica es el ámbito de los servicios Web desde comercio electrónico y comunicación multimedial. Finalmente es la Web de la inteligencia artificial, de los programas capaces de resolver complejos problemas de optimización. Pero hay algo que uniforma esta diversidad: son los instrumentos para extraer o asignar sentido en los motores de búsqueda semánticos. Y aquí la diversidad se resume a solo dos opciones: El tratamiento del lenguaje natural (Natural Language Processing, NLP) y la anotación semántica. Anotación proceso y resultado El concepto de anotación semántica (semantic annotation) es conocido también como marcado semántico (semantic markup), etiquetado semántico (semantic tagging o semantic labelling), pero poco a poco el término anotación se ha ido imponiendo.

1 comentario:

  1. Pienso que la evolución y la variedad de los buscadores semánticos, lo que persigue es la facilitación de la información. Permitiendo de esta manera, ser utilizados tanto por aquellos usuarios expertos o especialistas, como por aquellos con pocos conocimientos acerca de todo lo referente a las tecnologías y a la Web.

    ResponderEliminar