Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de la información que se encuentra en línea (web superficial).
El resto (web profunda) es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demanden autentificarse (gratuitamente o no) y otros tipos de contenido que no aparecen entre los resultados de búsqueda convencional.
La Web Superficial o visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. Comprenden aproximadamente el 4% de Internet. Son sitios:
- de libre acceso
- cuya información no está contenida en bases de datos
- que no requieren registro para acceder a la información.
- formados habitualmente por web estáticas (URL fija y accesibles desde otro enlace).
La Web Profunda o invisible contiene toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales (generalmente información almacenada y accesible mediante bases de datos). Comprende aproximadamente el 96% de Internet.
Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web:
- Web opaca (compuesta por archivos que no encuentran los buscadores por economía y/o frecuencia de indización, número de resultados visibles, URL desconectadas,...)
- Web privada (por lo general, documentos excluidos deliberadamente por falta de utilidad, para lo que se protegen con contraseñas, o contienen robots.txt o noindex para evitar indización parcial o total,...)
- Web propietaria (páginas en las que hay que registrarse para acceder a contenido).
- Web realmente invisible o no indizable (sitios que no pueden ser indizados por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas dinámicas,...).
Algunos recursos de la web profunda:
Hola Luis, leí tu entrada, bastante conciso eh, me gusta, solo me queda decir gracias por compartir lo aprendido y tu trabajo.
ResponderEliminar