La Recuperación y el Acceso a la Información es una rama de la Informática que estudia los métodos y técnicas de manejo de datos, posibilitando la filtración, recuperación y el acceso a información relevante. En este sitio web se van a tratar varios temas clave y en especial el Deep Learning.

El concepto de recuperación y acceso a la información se puede dividir en 3 grandes ramas o bloques diferenciados. En un primer bloque se encuentra la recuperación en Internet, en la que predomina la optimización web(SEO/SEM), los motores de recuperación y crawlers y el manejo de la Web Semántica y Big Data. El segundo bloque está centrado en los modelos de recuperación y evaluación, los cuales hacen uso de una serie de métricas para evaluar la recuperación de la información. Por último, en el tercer bloque prevalecen las técnicas avanzadas de recuperación. A la hora de realizar la recuperación y acceso a la información se pueden emplear técnicas de procesamiento de lenguaje natural (PLN), técnicas de realimentación y expansión de consultas y técnicas de extracción de información (IE).

Algunos temas clave

SEO/SEM

SEO (Search Engine Optimization) es un conjunto de técnicas para posicionar mejor un sitio web en los diferentes buscadores.

SEM (Search Engine Marketing) es una técnica que mejora el posicionamiento web a través de anuncios pagados.

¿Cómo funciona?

Los motores de búsqueda como Google y Bing utilizan bots para rastrear páginas en la web, ir de un sitio a otro, así recopilando información sobre esas páginas y colocarlas en un índice.

A continuación, a través de técnicas y algoritmos que analizan las páginas del índice, teniendo en cuenta cientos de factores de clasificación, se determina el orden en que las páginas deben aparecer en los resultados de búsqueda.

Recuperación y Acceso a la Información - SEO vs SEM
Recuperación y Acceso a la Información -Crawler

Crawler

Un crawler es un programa informático que realiza de forma automática un análisis de las páginas web. Este análisis consiste en seguir los diferentes enlaces que se encuentra en ellas y de este modo crea una red para unir las numerosas páginas web que se encuentran en internet. Y este proceso de recopilación de información es el que facilita la creación de los resultados de búsqueda que utilizan los navegadores.

Deep Learning

El concepto Deep Learning es un subcampo del Machine Learning que hace uso de algoritmos inspirados por la estructura y funcionamiento del cerebro, denominado redes neuronales artificiales. Una descripción de Deep Learning proporcionada por Andrew Ng, CSO de Baidu, plasmaba la idea de que usando simulaciones cerebrales se esperaba hacer algoritmos de aprendizaje mejores y más faciles de usar, realizando avances revolucionarios en Machine Learning e Inteligencia artificial. La idea central del Deep Learning, segun Andrew, consiste en que se tenga la velocidad suficiente en los ordenadores y la cantidad suficiente de datos para poder entrenar largas redes neuronales. A medida que se construyen redes más grandes y se les entrena con más datos, su rendimiento continua aumentando. Este hecho es generalmente diferente a otras técnicas de Machine Learning que alcanzan el tope de su capacidad.

Recuperación y Acceso a la Información - Deep Learning
Recuperación y Acceso a la Información - Modelo vectorial

Modelos de recuperación

Al proceso en el que dados una serie de datos se busca la información más relevante para el usuario se le conoce como recuperación de la información. En lineas generales cualquier proceso de recuperación de información consiste en comparar la consulta realizada por un usuario con el conjunto de documentos ordenados que mejor se van a ajustar a la misma. En esta definición también se puede apreciar el principal problema de este proceso, cómo predecir los documentos que serán más relevantes. Para ello se hace uso de diferentes modelos como: el modelo booleano, el modelo de espacio vectorial y el modelo probabilistico.

Técnicas de recuperación

Hoy en día, hay una gran cantidad de datos en la Web y casi no hay información de cómo clasificarla. El problema clave es cómo integrar el conocimiento en los algoritmos de minería de información. Aunque la mayoría de los documentos web están orientados al texto, hay muchos que contienen elementos multimedia, por lo que no se puede acceder fácilmente mediante los métodos de búsqueda habituales.

La información web es dinámica, semiestructurada y está entrelazada con hipervínculos. Se analizan varios métodos avanzados para la minería de información web: 1) análisis de sintaxis, 2) búsqueda basada en metadatos utilizando RDF, 3) anotación de conocimientos mediante el uso de gráficos conceptuales (CG), 4) KPS

Lasic-Lazic, Jadranka & Seljan, Sanja & Stančić, Hrvoje. (2000). Information Retrieval Techniques.

Recuperación y Acceso a la Información - Técnicas de recuperación
Close Bitnami banner
Bitnami