User-agent: *
Allow: /
Allow: /btc/
Allow: /szb/
Allow: /block/
Allow: /baike/
Allow: /news/
Allow: /markets/
Allow: /index.html
Allow: /sitemap.xml
Allow: /tags.php?/
Disallow: /*/
---------------------------
以上是我站 robots.txt 写法。很多网站是使用“黑名单”的形式,以多个 Disallow 列出不让搜索引擎抓取的目录,剩下的默认可以抓取。而我使用“白名单”的形式,先以 Allow 列出可抓取的目录,然后使用通配符将剩下的目录封禁掉。这样可以吗?
新站上线填充内容的时候我用了Disallow:/封禁了全站,但百度仍然抓了我的首页标题,描述部分不抓,提示:“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述”,现在我将 robots.txt 文件修改成以上那样,已经一星期了,百度仍然没有收录,只收了首页,仍然提示“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述”。
以上,请大家分析。谢谢!
静观其变吧,这个遇到的情况不一样的有时候你即便是禁止蜘蛛抓取,他其实也还是会抓取的,虽然那只是少数,但并不排除有那种几率
###之前我封禁百度蜘蛛,最后解封之后,过了一个月才恢复过来,吓死我了
###封禁百度蜘蛛在开放,按照百度的意思至少的一个月,才能恢复正常,慢慢看观察吧
###可以试下,然后观察下蜘蛛的访问情况不就知道了,我在这里等待结果
###Disallow 与 Allow 行的顺序是有意义的,spider 会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个URL
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/48594.html