Como encontrar páginas ocultas em sites

Muitas das informações disponíveis on-line não são acessíveis por mecanismos de pesquisa, portanto, é necessário usar ferramentas especiais ou sites de pesquisa para encontrar essas páginas ocultas.

Em 2016, o Google processou mais de 3.200 bilhões de consultas de pesquisa, no entanto, os resultados fornecidos pelo mecanismo de pesquisa representaram apenas uma fração do conteúdo disponível online. Muitas das informações disponíveis on-line não são acessíveis por mecanismos de pesquisa, portanto, é necessário usar ferramentas especiais ou sites de pesquisa para encontrar essas páginas ocultas. Conhecida como deep web , essas informações ocultas representam até 5.000 vezes mais do que as disponíveis usando técnicas de pesquisa típicas.

Tipos de conteúdo oculto

As páginas ocultas dos sites são divididas em categorias que descrevem por que permanecem invisíveis para os mecanismos de pesquisa.

Alguns constituem conteúdo dinâmico, que é apresentado apenas quando um visitante emite uma solicitação específica em um site que usa um código baseado em um banco de dados para apresentar resultados específicos. Como exemplo, essas páginas podem incluir resultados de compra com base em combinações específicas de critérios de produto. Os mecanismos de pesquisa não foram projetados para rastrear e armazenar informações nesses bancos de dados. Para encontrar essas páginas, você teria que ir ao site e procurar as informações específicas que procura, ou usar um serviço de pesquisa orientado a banco de dados, como o Bright Planet .

Algumas páginas não possuem links que os conectam às fontes de pesquisa. Recursos temporários, como várias versões de sites de subdesenvolvimento, podem ser incluídos nesta categoria, bem como sites mal projetados. Por exemplo, se alguém criou uma página da Web e a carregou no servidor do site, mas não adicionou um link a ela nas páginas atuais do site, ninguém saberia que ela está lá, incluindo os mecanismos de pesquisa.

Ainda mais páginas exigem credenciais de login para visualizá-las ou acessá-las, como sites de assinatura. Web designers designam páginas e seções de sites como estando fora dos limites dos mecanismos de pesquisa, eliminando efetivamente sua localização por meios convencionais. Para acessar essas páginas, você geralmente precisa criar uma conta antes de receber permissão para acessá-las.

Use arquivos robots.txt

Os mecanismos de pesquisa rastreiam páginas em um site e indexam seu conteúdo para que ele apareça em resposta a consultas. Quando o proprietário de um site deseja excluir algumas partes de seu domínio desses procedimentos de indexação, ele adiciona os endereços desses diretórios ou páginas a um arquivo de texto especial chamado robots.txt, armazenado na raiz do site. Como a maioria dos sites inclui um arquivo de robô, independentemente de adicionar ou não exclusões, você pode usar o nome previsível do documento para exibir seu conteúdo.

Se você digitar “[nome de domínio] /robots.txt” sem as aspas na barra de endereços do navegador, substituindo “[nome de domínio]” pelo endereço do site, o conteúdo do arquivo do robô geralmente aparecerá em a janela do navegador depois de pressionar a tecla “Enter”. As entradas precedidas por “não permitir” ou “nofollow” representam partes do site que permanecem inacessíveis por meio de um mecanismo de pesquisa.

Faça você mesmo: invasão de sites

Além dos arquivos robot.txt, você pode frequentemente encontrar conteúdo oculto digitando endereços da Web para páginas e pastas específicas no seu navegador. Por exemplo, se você estava visualizando o site de um artista e percebeu que cada página usava a mesma convenção de nomenclatura – como gallery1.html, gallery2.html, gallery4.html -, você pode encontrar uma galeria oculta digitando a página “gallery3.html “no seu navegador.

Da mesma forma, se você vir que o site usa pastas para organizar as páginas – como exemplo.com/content/page1.html , com “/ content” como pasta -, talvez seja possível ver a própria pasta digitando o site e as pasta, sem uma página, como ” example.com/content/ ” no seu navegador da web. Se o acesso à pasta não tiver sido desativado, você poderá navegar pelas páginas que ela contém, bem como pelas páginas de qualquer subpasta para encontrar conteúdo oculto.

Este artigo foi feito com a ajuda de itstillworks.com

Referências

 

Você pode estar interessado:

Deixe um comentário