首页 > 问答 > 蜘蛛访问A域名的A页面,发现了A域名的B链接和C域名的D链接,接

蜘蛛访问A域名的A页面,发现了A域名的B链接和C域名的D链接,接

[导读]:在思考引蜘蛛的时候想到这个问题,蜘蛛是看到链接就抓吗?似乎不可能。那么蜘蛛看到链接的后续动作是什么呢? 于是有了标题上的这个问题: 蜘蛛访问A域名的A页面,发现...

在思考引蜘蛛的时候想到这个问题,蜘蛛是看到链接就抓吗?似乎不可能。那么蜘蛛看到链接的后续动作是什么呢?
于是有了标题上的这个问题:
蜘蛛访问A域名的A页面,发现了A域名的B链接和C域名的D链接,接下来蜘蛛会怎么做?

很多朋友同我一样都要使用火车头采集东西,火车头的采集和蜘蛛的抓取有一些类似,我们在用火车头的时候,会设置很多规则,以便抓取自己需要的内容。那么反推蜘蛛,应该也有这样的设置。

猜想:
蜘蛛访问A域名的A页面,发现了A域名的B链接和C域名的D链接。蜘蛛会抓取B链接,抓取后进入是否收录的算法;而对于D链接则判断C域名的可信度,从而决定是否抓取D链接。如果C站比较可信,那么可以抓取D链接内容,然后进入是否收录算法;如果C站比较差,那么直接放弃抓取。

蜘蛛是通过深度抓取和广度抓取两种策略来爬取网站页面,如果蜘蛛能够爬取到一个页面,那么便会下载这个页面的所有内容,之后可能根据网站权重的高低(其实因素可能很多),来决定是否能够继续爬取到下一个深度页面。

同时也会抓取到这个页面的外部链接,通过这个链接下载这个外部链接所在的内容进行处理,如果符合需求,则会被建立索引,同时,如果这个外部链接网站有一定的权重和丰富的内链,可能会对蜘蛛的继续爬取起到引导的作用!

至于可信度这个事,应该是抓取全部内容后才进行分析的,不可能抓取到一半就开始分析这个网站的可信度,这样会大大降低蜘蛛的抓取效率!

另外,可信度是一个模糊的概念,例如从用户角度看,菠菜、色情一类的网站明显是可信度较低的网站,虽然搜索引擎也在这方面做一些努力改善网络搜索环境,但不可否认,搜索引擎有时会依然可能会抓取这类站点,有时候甚至会直接放出快照!

###

蜘蛛链接

###

空间里一个任何页面也不链接到的网页,百度可以照抓。百度的抓取并不依赖链接,由此可见百度的抓取非常深入且强大,而相对的,百度的收录应该很严格,而对于抓取则应该是抓了再说,这样才能更准确的判断网页的价值。

###

别猜想了,看书吧,多看几遍原理,形式上的各种问题就迎刃而解了。

走进搜索引擎,这就是搜索引擎两本书都可以。

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/88036.html