现在的日志分析软件有没有能区分真假蜘蛛的,如果通过DNS反查方式当然也可以区分出来,但手工去分析太麻烦。
据我手里的站点分析,现在的假蜘蛛数量是非常大的,站长工具能模拟蜘蛛,浏览器能修改UserAgent字符串假装蜘蛛,大量的采集软件可以伪造蜘蛛。
假蜘蛛不仅造成网站虚假流量,而且还影响日志的正确分析。
---------------------------------------------------------------------------------------------
手工分析确实是可以分析出来,但没有工具,几十个蜘蛛分析起来就够费劲的。
而且我的浏览器模拟蜘蛛访问,导致我的访问目录里大量的后台数据都显示有蜘蛛抓取,错误的判断蜘蛛抓取内容,而用robots屏蔽都没有效果,以致于给我一个错觉,robots无用。
所以工具剔除掉假蜘蛛,我认为对日志分析来说,应该帮助还是挺大的。
判断蜘蛛.py 里面包含python软件。下载地址:www。chenxianfu。com/
电脑需要安装python软件 请先安装好python软件 python有32位系统和64为系统,请按照自己的电脑系统安装。
使用说明:
1、如果是虚拟空间把你的日志文件下载到本地电脑,在把【判断蜘蛛.py】程序复制到你下载下来的文件夹里,点击:判断蜘蛛.py 开始判断,完成后会自动保存文件名:baiduspider.txt 在baiduspider.txt里面 很清晰看到都是百度蜘蛛
2、如果有服务器的直接把【判断蜘蛛.py】程序上传到你日志文件目录下,然后服务器安装好python 点击:判断蜘蛛.py 开始判断完成后自动保存文件名:baiduspider.txt 在baiduspider.txt里面 很清晰看到都是真百度蜘蛛
这个估计要有人开发一个这样的功能集成软件了。。。
###我不清楚现任公司一个子域名2014年05月30日一天85万的抓取次数有没有代表性。
首先我觉得没必要区分真假蜘蛛,因为即使是真的百度蜘蛛抓取次数再多,也不能转化成流量,再加上日军抓取次数达到几十万次,假蜘蛛对服务器的压力可以忽略不计。
467949次
17次
16次
1次
2次
388560次
基本上就是 和 2 个 IP 段的蜘蛛,其他加起来不足 ,这样还是很好判别的。
在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup (IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以. 或. 的格式命名,非 *. 或 *. 即为冒充。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/26680.html
