[导读]:页面内容用js延迟加载技术 ,只用看网页源代码看不到文字和图片内容,需要需要把浏览器的 user-anget 改为搜索引擎的才能在dom加载全部内容 意思就是用的js代码封装内容,然后...
页面内容用js延迟加载技术,只用看网页源代码看不到文字和图片内容,需要需要把浏览器的 user-anget 改为搜索引擎的才能在dom加载全部内容
意思就是用的js代码封装内容,然后对搜索引擎是直接输出的完整页面,直接看源代码是JS,这样的页面,是不是不利于抓取,要不要修改?

一般大一点的网站可能都会考虑这个加载速度的问题,或者考虑更加灵活的展现内容,所以使用异步加载方式,通过UA的方式判断给出不同的内容,理论上是没问题,但这个方法其实也是以前包括现在很多人喜欢作弊的一个方法,其实搜索引擎有些ip是不带UA的,或者带的不是爬虫的UA,如果带UA和不带UA的ip检测出你的页面内容不一样,这样可能就会被认为是作弊行为。
###这是程序员问题,程序说是可以判断,但是能不能真判断到爬虫是个问题。如果程序员说抓取没问题,那就先看看抓取情况,再决定是否需要修改吧。但是这种比较少见吧,为什么源码一点html都不让有呢,是为了什么呢。
###应该是抓取不到的,毕竟源码还是在JS里面的,
用蜘蛛模拟软件抓取一下看看。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/37346.html
