domingo, 22 de noviembre de 2015

Web superficial y Web profunda



Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de la información que se encuentra en línea (web superficial).

El resto (web profunda) es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demanden autentificarse (gratuitamente o no) y otros tipos de contenido que no aparecen entre los resultados de búsqueda convencional.

La Web Superficial o visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. Comprenden aproximadamente el 4% de Internet. Son sitios:
  • de libre acceso 
  • cuya información no está contenida en bases de datos 
  • que no requieren registro para acceder a la información. 
  • formados habitualmente por web estáticas (URL fija y accesibles desde otro enlace).


La Web Profunda o invisible contiene toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales (generalmente información almacenada y accesible mediante bases de datos). Comprende aproximadamente el 96% de Internet.

Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta. 




Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: 


  • Web opaca (compuesta por archivos que no encuentran los buscadores por economía y/o frecuencia de indización, número de resultados visibles, URL desconectadas,...) 
  • Web privada (por lo general, documentos excluidos deliberadamente por falta de utilidad, para lo que se protegen con contraseñas, o contienen robots.txt o noindex para evitar indización parcial o total,...)
  • Web propietaria (páginas en las que hay que registrarse para acceder a contenido).  
  • Web realmente invisible o no indizable (sitios que no pueden ser indizados por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas dinámicas,...).
Algunos recursos de la web profunda: 






1 comentario:

  1. Hola Luis, leí tu entrada, bastante conciso eh, me gusta, solo me queda decir gracias por compartir lo aprendido y tu trabajo.

    ResponderEliminar