Cuidado com gerador indefinidos de URL
Imagine que o crawler entrou no seu site e começou a indexar seu conteúdo. Ele chega na pagina de “Calendário de Eventos” e indexa todo conteúdo. O próximo passo é verificar a existência de algum link para uma próxima pagina a ser indexada. O spyder acessa o link “Próximo Mês”, e indexa os dados dessa pagina, em seguida, novamente acessa o link “Próximo Mês” e continua indexando o conteúdo. Infelizmente, pelo modo com que o sistema de calendário foi desenvolvido, o robô responsável pela indexação pode ficar nesse processo indefinidamente, indexando paginas sem conteúdo e sem importância nenhuma para o seu rankeamento. Veja o exemplo abaixo:
- …
- exemplo.com.br/calendario/08/2010
- exemplo.com.br/calendario/09/2010
- exemplo.com.br/calendario/10/2010
- exemplo.com.br/calendario/01/2011
- exemplo.com.br/calendario/01/2012
- exemplo.com.br/calendario/01/2020
- …
Nos exemplos acima, até é possível existir algum evento no calendário dos próximos meses do ano de 2010, mas quando avançamos para o ano de 2012, ai a probabilidade já cai. Agora imagine que neste sistema, cada mês e ano geram endereço diferente os quais são gravadas pelos buscadores.
Os problemas gerados por esse erro são:
- Os buscadores no seu site passam a indexar paginas desnecessárias;
- Os crawler possuem limites de paginas a serem indexadas por vez no seu site. Se eles perceberem que já indexaram 200 paginas, por exemplo, e que nenhum conteúdo novo foi adicionado, ele simplesmente vai parar o processo;
- Existe o risco de paginas importante do site não serem indexadas, pois o robô fica indexando apenas paginas de calendários futuros ou passados;
O que pode ser feito para evitar ou solucionar esse tipo de problema?
Como evitar: O primeiro passo é criar um sitemap MANUALMENTE, se você usar algum gerador automático de sitemaps, ele certamente vai enfrentar a mesma dificuldade dos indexadores. Ou seja, você terá que coletar todas as ULS importantes do site e colocar no sitemap. De preferência use o parâmetro “priority”.
Essa solução não impede que os buscadores indexem paginas sem nenhum conteúdo relevante no seu site, porem ela informa os buscadres quais paginas devem ser priorizadas no processo de indexação.
Como solucionar: A solução pode ser um pouco mais trabalhosa pois envolve alteração na lógica de exibição do seu sistema.
Seria algo mais ou menos assim:
Se o próximo mês não apresenta nenhum evento, retirar a opção de exibir o calendário.
Uma outra solução é simplesmente retirar os links de navegação pelo calendário, no lugar deles, disponibilize apenas as listbox de ano, mês e dia.
É importante lembrar que no caso deste exemplo, o problema ocorreu com um calendário, mas ele pode ser gerado através de qualquer sistema que possua a funcionalidade de gerar um numero indefinido de URL’s.
Tags: dicas de seo, SEO, sitemap