首页 > 问答 > Robots.txt文件另类写法,这样写可以吗?(悬赏5元)

Robots.txt文件另类写法,这样写可以吗?(悬赏5元)

[导读]:User-agent: *  Allow: / Allow: /btc/ Allow: /szb/ Allow: /block/ Allow: /baike/ Allow: /news/ Allow: /markets/ Allow: /index.html Allow: /sitemap.xml Allow: /tags.php?/ Disallow: /*/ --------------------------- 以上是...

User-agent: * 

Allow: /

Allow: /btc/

Allow: /szb/

Allow: /block/

Allow: /baike/

Allow: /news/

Allow: /markets/

Allow: /index.html

Allow: /sitemap.xml

Allow: /tags.php?/

Disallow: /*/

---------------------------

以上是我站 robots.txt 写法。很多网站是使用“黑名单”的形式,以多个 Disallow 列出不让搜索引擎抓取的目录,剩下的默认可以抓取。而我使用“白名单”的形式,先以 Allow 列出可抓取的目录,然后使用通配符将剩下的目录封禁掉。这样可以吗?

新站上线填充内容的时候我用了Disallow:/封禁了全站,但百度仍然抓了我的首页标题,描述部分不抓,提示:“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述”,现在我将 robots.txt 文件修改成以上那样,已经一星期了,百度仍然没有收录,只收了首页,仍然提示“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述”。

以上,请大家分析。谢谢!

静观其变吧,这个遇到的情况不一样的有时候你即便是禁止蜘蛛抓取,他其实也还是会抓取的,虽然那只是少数,但并不排除有那种几率

###

之前我封禁百度蜘蛛,最后解封之后,过了一个月才恢复过来,吓死我了

###

封禁百度蜘蛛在开放,按照百度的意思至少的一个月,才能恢复正常,慢慢看观察吧

###

可以试下,然后观察下蜘蛛的访问情况不就知道了,我在这里等待结果

###

Disallow 与 Allow 行的顺序是有意义的,spider 会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个URL

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/48594.html