请专家分析,百度蜘蛛爬取的原理问题
小弟不才,对百度蜘蛛的爬取的原理比较模糊后者说理解的有偏差,希望高手赐教。
1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。
2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。
3、根目录下.jsp格式的模版文件会被抓取吗?
主要是对抓取的原理不太懂,写的乱糟糟的,同时希望给些资料查看。
1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被Robots禁止的目录都被有可能抓取。回答:百度会先访问robots.txt文件,看一下哪些目录不被收录,然后从首页开始抓取首页所放置的链接,爬取策略包括深度遍历和广度遍历。robots.txt协议说的是不想被收录,但是百度蜘蛛有时候还会爬的。
2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。回答:蜘蛛是顺着链接抓的,只要你的链接用户能打开,蜘蛛就能抓,伪静态会对页面打开速度有一定的影响,页面打开速度又影响蜘蛛抓取的效率。伪静态不会生成静态文件,生成静态文件就叫做静态网页了,织梦生成的静态文件。
3、根目录下.JSp格式的模版文件会被抓取吗?回答:模板文件、js、css什么的,你如果不屏蔽,蜘蛛也是会爬的。###
我一直很稀奇一件事情,百度站长平台中的站长资讯给的资料已经够好的了,我做这行五年了,现在里面的文章过段时间就看看。可发现很多人都不知道?
里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二,看完之后,或许对你有很大帮助。
百度蜘蛛他进不了你的服务器去查看你的网站根目录的,他只能通过网站前台的链接往里抓取。
所以这就要求我们,尽量做成扁平式结构:通过首页抓取所有目录页面,再通过所有目录页面抓取内容页。
这几日正好在分析新东家服务器日志上的百度蜘蛛抓取记录,可以一起探讨下。
1.一般大型网站百度蜘蛛重复抓取率较低,而中小型网站重复抓取率较高,因此看到百度蜘蛛爬得很勤,不必太高兴,只能说明百度记不住这个网站,需要多爬几次以免忘记。
2.前面子桥也回答了,一般百度看不到网站根目录,但可以在根目录下放张Sitemap,然后在Robots文件里注明这个网站有地图可查,告诉蜘蛛网站大致是什么样的。
3.根据英特网的特性,互联网非常之宽,无边无际,但路径却很短。百度蜘蛛主要是从导航站和权威网站作为爬行的开端。
4.互联网宽而浅,蜘蛛亦是优先横向爬行,再纵深抓取。
譬如1个网站有有2个一级目录、一级目录下各有1个二级目录,二级目录下各有1篇文章,且互相链接。
百度在首页上放出3个蜘蛛,A爬一级目录1,B爬二级目录1,C爬文章1。
A抓取一级目录1后,可以选择爬一级目录2;二级目录1,2;文章1,2。共5个页面。
B抓取二级目录1后,能爬二级目录2;一级目录2;文章1,2。共4个页面。
C抓完文章1后,只能爬文章2;一级目录2;二级目录2。共3个页面。
5.百度蜘蛛从首页往下爬后,一般不会回到首页。不像百度权重既可以从首页传递给产品页,产品页也可以传递权重给首页。
6.百度蜘蛛分许多种,常见的有百度蜘蛛(),百度图片蜘蛛(Baiduspider-image)。而百度联盟蜘蛛(Baiduspider-cpro),百度商务蜘蛛(Baiduspider-ads)可以不遵守robots文件协议,当然也不会建立索引,只是把抓取过的网页存到页面库里。
7.通常情况下,只有被百度蜘蛛抓取过的页面,才会进入网址索引库,也就是常说的百度收录。
8.一个网站权重较高的话,同1个蜘蛛爬行的页面数量较多,反之,爬行页面较少。
9.百度蜘蛛是从上往下沿着网页代码爬行,因此在代码行数中靠前的链接被抓取次数较代码底部的链接为多。
10.百度蜘蛛很聪明,许多只在源代码里出现的链接,只要还没爬过,都可能会去爬下。
书推荐读《这就是搜索引擎》,搜外主题店铺里亦可以加些搜索引擎原理方面与其他一些有意思的书籍像KK的《失控》,PG的《黑客与画家》,丰富下网店内容。
蜘蛛爬行在做日志的时候就会很清楚,上面几位都解释很清楚。我在给你推荐我自己的养蜘蛛的方法希望帮到你!
百度对于收录页面是通过网站入口URL的联通成一个网状,然后百度的抓取功能是被称为“百度蜘蛛”的工具在进行收集,那么这个百度蜘蛛的收集器就是网站页面收录的关键。怎么才能更容易的被百度蜘蛛发现与收录呢?百度蜘蛛的计算原理目前我的了解有限,百度蜘蛛并不是人,它没有思考能力,它只是根据命令与设定的规则来行动。
据我经验了解百度蜘蛛的收录规则:
1.原创内容
这是唯一的最为重要的点,百度蜘蛛在每天每天的运作它会记录起所有的内容性质,那么在爬取的时候就会进行筛选,而第一无二的原创文章则是百度蜘蛛最喜欢的被称为“蜘蛛食量”。由于百度蜘蛛对内容是没有理解能力的,它只对词语进行判断,那么在题目与文章内容里我们就要增加词语的密度与联系。作为现在的百度来说相关度高的文章容易被收录。建议:如伪原创文章前200个字是蜘蛛判断是否原创的关键。
2.蜘蛛通道的建设
百度每天会发出很多的蜘蛛去收集内容供应搜索引擎的更新,那么百度蜘蛛的通道就是URL。蜘蛛通过搜索引擎的URL进行行动,那么我们网站就要给出大量的门让蜘蛛进入到网站来,尽量多的让蜘蛛带走我们的内容,那么那些地方才是蜘蛛喜欢去的呢?我们在选择做外链引蜘蛛的时候要考虑到,蜘蛛喜欢的是一些内容更新多,活跃度高的网站:例如(论坛,门户,社区等)。
3.养蜘蛛
这是很多SEO做的工作,养蜘蛛就是让百度蜘蛛喜欢网站,从而经常来网站,这样就能很好的收录网站内容。具体怎么做呢?根据蜘蛛的规则:原创文章、外部URL之外,这个更新时间与更新频率尤其重要,我自己的经验是每天早上8:30-10:30之间发布文章是非常好的,因为这样一天里就有尽量多的时间让蜘蛛接触新内容,方便蜘蛛抓取。更新的时候不要过于不定时的发,在更新时段里进行发布。在收录的快慢情况下,进行下一时段的发布,如果前面发布的文章很快被收录之后再下午3:00-5:00之后时在进行发布。我的了解是,一次性增加10-20篇文章是会出现漏洞的,就是蜘蛛只抓取一部分。坚持一段时间蜘蛛的抓取就能得以控制。在第一时段更新之后,发现没有被收录的文章,在第2时段前,我们可以进行修改,增取在第2时段被收录。
这是酷猫我自己的经验浅谈,如果有更好的百度蜘蛛抓取规则,可以留言下来进行讨论。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/46596.html