首页 > 问答 > 蜘蛛抓取效率影响因素、蜘蛛为什么会离开你的网站?

蜘蛛抓取效率影响因素、蜘蛛为什么会离开你的网站?

[导读]:对于有几百万、几千万页面的大型网站来说,收录是个大问题。 收录由两方面决定,一个是蜘蛛发现了页面,一个是页面的质量。 今天谈论第一个问题。 观察日志发现, 有的...

对于有几百万、几千万页面的大型网站来说,收录是个大问题。
收录由两方面决定,一个是蜘蛛发现了页面,一个是页面的质量。

今天谈论第一个问题。
观察日志发现,
有的蜘蛛几秒就抓下一个页面,有的蜘蛛却几十分钟才抓一个页面;
有的蜘蛛爬了几页就离开了网站,有的蜘蛛却可以抓几百页、几千页才离开。

请问一下,
1、影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小)
2、让蜘蛛含恨离开网站的原因有哪些?

来点题外话
- 蜘蛛分两类:专享蜘蛛和共享蜘蛛,对于大型网站,绝大大部分来访蜘蛛都是专项蜘蛛,就是专门抓这个域名下的内容。
- 由于带宽限制,蜘蛛每日抓取页面数量有限,会根据网站整体质量,定期观察,对页面更新频繁、优先级高的类别页面重点抓取,来提高抓取效率,根据服务器情况,调整抓取时间和抓取速度,保证网站正常运行。
- 抓取策略:宽度优先,限制深度;重访抓取;暗网抓取

综上,回答问题
1.影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小)
URL规划:URL结构;URL优先级;URL重复;无效URL
内容:内容同质化;同一页面对应多个URL;页面是次要页面,但URL优先级很高
页面:页面链接数量大;页面加载时间长(好多因素);代码繁杂;框架;搜索框;蜘蛛陷阱(比如一堆筛选条件);
服务器:速度慢;掉线;
其他:cookie;Robots写错了;程序插件;其他人补充~~~

2.让蜘蛛含恨离开网站的原因有哪些?
内容:内容重复;页面缺少更新机制;页面更新超级缓慢;页面加载速度超级慢;页面打不开
服务器:防火墙;防采集;限制IP;宕机;
其他:其他蜘蛛抓取量大,导致带宽不够用了;网站降权了;今天抓取数量够了,明天再说;URL优先级太低;其他人补充~~

###

内链结构吧,链接上尽量不要有那种带很多参数的动态链接,容易把蜘蛛绕进去。

###

我觉得蜘蛛离开的原因有两个:1.你这没有啥好吃的。2.吃饱了。

###

其实,蜘蛛的爬行是从深度和广度两个方面来进行的:即,既要爬行足够多网站的页面;又要对一个网站进行比较深的爬行,但蜘蛛的精力也是有限的,所以,它就要综合折中来进行了。对于大多数网站,优先照顾广度爬行;而对于很好的网站(比如 PR >=7),则要进行深度爬行。明白了在资源有限的情况下蜘蛛采取的策略,就可以照此应对了。 具体操作参见孙健!

###

据说,跟代码也有关系。

###

影响蜘蛛抓取效率因素:
1.网站的结构
2.页面链接分布不合理,有些分布过多导致重复爬行

###

其实我也想问这些类似的问题。例如。一个网站有多少个网页,蜘蛛爬行多少次才算正常的呢。这些就设计到了你提到的几点,一同讨论吧

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/57641.html