蜘蛛访问A域名的A页面，发现了A域名的B链接和C域名的D链接，接-问答-微盟圈

在思考引蜘蛛的时候想到这个问题，蜘蛛是看到链接就抓吗？似乎不可能。那么蜘蛛看到链接的后续动作是什么呢？
于是有了标题上的这个问题：
蜘蛛访问A域名的A页面，发现了A域名的B链接和C域名的D链接，接下来蜘蛛会怎么做？

很多朋友同我一样都要使用火车头采集东西，火车头的采集和蜘蛛的抓取有一些类似，我们在用火车头的时候，会设置很多规则，以便抓取自己需要的内容。那么反推蜘蛛，应该也有这样的设置。

猜想：
蜘蛛访问A域名的A页面，发现了A域名的B链接和C域名的D链接。蜘蛛会抓取B链接，抓取后进入是否收录的算法；而对于D链接则判断C域名的可信度，从而决定是否抓取D链接。如果C站比较可信，那么可以抓取D链接内容，然后进入是否收录算法；如果C站比较差，那么直接放弃抓取。

蜘蛛是通过深度抓取和广度抓取两种策略来爬取网站页面，如果蜘蛛能够爬取到一个页面，那么便会下载这个页面的所有内容，之后可能根据网站权重的高低（其实因素可能很多），来决定是否能够继续爬取到下一个深度页面。

同时也会抓取到这个页面的外部链接，通过这个链接下载这个外部链接所在的内容进行处理，如果符合需求，则会被建立索引，同时，如果这个外部链接网站有一定的权重和丰富的内链，可能会对蜘蛛的继续爬取起到引导的作用！

至于可信度这个事，应该是抓取全部内容后才进行分析的，不可能抓取到一半就开始分析这个网站的可信度，这样会大大降低蜘蛛的抓取效率！

另外，可信度是一个模糊的概念，例如从用户角度看，菠菜、色情一类的网站明显是可信度较低的网站，虽然搜索引擎也在这方面做一些努力改善网络搜索环境，但不可否认，搜索引擎有时会依然可能会抓取这类站点，有时候甚至会直接放出快照！

###

蜘蛛链接

###

空间里一个任何页面也不链接到的网页，百度可以照抓。百度的抓取并不依赖链接，由此可见百度的抓取非常深入且强大，而相对的，百度的收录应该很严格，而对于抓取则应该是抓了再说，这样才能更准确的判断网页的价值。

###

别猜想了，看书吧，多看几遍原理，形式上的各种问题就迎刃而解了。

走进搜索引擎，这就是搜索引擎两本书都可以。

本文来自投稿，不代表微盟圈立场，如若转载，请注明出处：https://www.vm7.com/a/ask/88036.html

蜘蛛访问A域名的A页面，发现了A域名的B链接和C域名的D链接，接

相关推荐