网站文章被百度重复收录的解决办法

最近感觉百度对于本站(逐梦博客)的原创新文章的收录速度有点慢,猜测站点是不是存在什么问题,于是用百度搜索查看一下收录情况,搜索词的格式:site: www.deanhan.cn

搜索出来的结果让我惊呆了,足足33300个,作为站长我咋不知道我的博客有这么多内容图片。第一反应就是肯定有问题,然后稍微往后翻了几页,果然就发现了问题

可以看到同一篇文章被重复收录了多次,唯一的区别仅仅是后面的动态查询参数不一样,由于我博客用的是hashover留言板(使用可参考:https://blog.weiyiqi.net/html/jsjc/505.html),所以结尾的查询参数会带上?hashover-reply=***这样的格式,而百度蜘蛛不知道在什么情况下竟然都给收录了,有些朋友可能就会说了,都收录了不好吗?别人一看你的网站,收录量真多呀,其实不然,而且大错特错,重复收录会给我们的站点埋下巨大隐患。

一般来说,在搜索引擎在收录内容后会将动态页面剔除,但若频繁如此反复的收录剔除、剔除收录,最终将导致蜘蛛反感,直接影响蜘蛛爬行频率。另外若站点存在大量被收录的动态页没有被剔除,在未来搜索引擎更新快照时会被大批量剔除,这对于站点来说也是很不利的,严重的甚至会被百度K站,作为一个站长,这肯定是不能接受的,所以我们要想办法优化重复收录问题。

那么我们该如何做呢?这里建议大家可以从2个方面去尝试优化:

1、对于动态链接rel属性添加nofollow,当搜索引擎遇到添加了nofollowa标签之后,就不会再去抓取a标签指向的地址(href),已经收录的动态链接会自然剔除,未来的动态链接因为加了nofollow蜘蛛不会再收录,值得注意的是我们要注意严格为每一个出站链接添加nofollow,避免权重转移,当然交换的友情链接除外。

2、虽然方法1也能解决问题,但是手工改动有可能会出现漏网之鱼,更好的解决办法是在robots.txt文件中添加蜘蛛爬取的规则,我们可以按照特定的标识去添加,比如:

Disallow: /*?hashover-reply=*

当然一劳永逸的方法是直接将所有带有动态参数的链接都禁止蜘蛛抓取收录:

Disallow: /*?*

具体使用哪种方式,大家可以根据自己站点的情况去选择,在我们更新了robots文件之后,别忘了也要去百度站长工具平台检测并更新robots文件:

接下来就是静静等待规则生效,后期蜘蛛就不会再去抓取收录我们网站的动态链接,过段时间之后百度会把原来收录的动态页面自然清除,这个操作对于网站基本没啥影响。不过,有的站点可能会出现一小段时间快照停滞或者收录不好的情况,不用担心,后面会慢慢恢复,保持正常频率更新就好了。

好了,本文到此就结束了,如果你也在维护着自己的站点,赶快去查一下网站的收录情况吧。图片

  • 支付宝二维码 支付宝
  • 微信二维码 微信

本文地址: /baidu-repeat-collect.html

版权声明: 本文为原创文章,版权归 逐梦个人博客 所有,欢迎分享本文,转载请保留出处!

相关文章