首页 > 问答 > 搜索引擎依据哪些因素判断内容质量的高低?

搜索引擎依据哪些因素判断内容质量的高低?

[导读]:如果搜索引擎没有办法读内容,那怎么样判定高质量的原创? 判断高质量的原创的根据有哪些? 第一个问题:没办法读的意思是什么?除非搜索引擎被攻击、瘫痪?不然抓取后...

如果搜索引擎没有办法读内容,那怎么样判定高质量的原创?

判断高质量的原创的根据有哪些?

第一个问题:没办法读的意思是什么?除非搜索引擎被攻击、瘫痪?不然抓取后,他就会按照既定规则进行筛选,这就是所谓的“读”。除非不让抓取。
第二个问题:各个搜索引擎算法上都有差异,以百度为主,高质量的原创内容由以下几点判断
1、标题的排他性
2、内容的排他性(百度会使用分词、组词技术进行算法分析)——相关的是关键词密度,在这里百度不会破坏词性、只会去除筛选修饰词。
3、其他的。。。都不是主要的了
另外高质量原创对于算法上的加分影响:
1、分词组词+规则筛选—关键词分布、及内容主题相关性价值判断
2、内容相似度对比(对比索引库相似内容,判断优劣)
3、内容价值评估(第一步的延伸,多指站内相关度)
4、站外内容推荐票
。。。
等等一系列算法,给网站内容进行评分,一般高质量的内容自然排名会很好你懂得

###

这个问题我也很感兴趣 来参一嘴吧 可能有点跑偏
来谈谈吧:

搜索引擎对内容的评价是怎么样的
1.我们原创一篇文章 搜索引擎能识别么?答案是 能。
首先搜索引擎拥有大量的词组、句子数据库。这些词组还会分为同义,反义,句子有常用句,特殊句等等。当然搜索引擎也拥有很多文档(文章收录),那么全文对比和段落对比对搜索引擎索引来说是很容易的,不要去怀疑这么多内容它识别的过来么,这个问题不在我们的分析考虑范围内。

2,。有个google的算法被称为隐含语义索引,这里是百科是用来识别相关性的。相对于识别原创,搜索引擎识别相关性其实更为艰难。纯原创内容是独一无二的。那么相关性内容里面不但包括伪原创内容,还包括相关的原创内容。

怎么实现这个语义索引过程
搜索引擎分析文章,对文章进行分词计算词频
如:
A句子的词频向量为 {5,2,3} B句子的词频向量为{2,2,1} 这两个空间向量的夹角余弦值可以显示相关程度,越相关夹角越小。
通过计算 cos x = 这个数值接近1,表示 句子A和句子B是相关度很高的。(用到文章向量值越多,如图)



###

其实这个关于“原创”的话题,我之前也想问的,觉得非常值得讨论。去年不记得什么时候Lee讲过,百度正在准备出一个原创识别算法,根据今年网站在百度的表现,我想这个算法已经早就上线啦!

搜索引擎是为解决用户的搜索需求,这一点我想不用怀疑,但是大家有没有发现,目前同一篇新闻,还不是很多网站都在转有,内容都一样,排名也是一样有,哈哈!这是为什么?当然这里有很多东西要去分析,探讨。我举这个例子只是想说明原创不是目的。只有在相同的主题下表达不同的观点,因为相同的东西在不同的地方体现不同的价值。

说到这里,有一个很重要的话题就是:页面价值的讨论,注意:原创内容不一定是有价值的。这里还有很多方向问题可以值得深入讨论。

关于“页面价值”,乔兄可以看看“百度搜索研发部官方博客”的一文章:浅谈互联网页面价值(可去百度找找),这文章讲得比较深入,非常值得学习!我这里只引用一小段。

1、典型的低质量页面存在以下一些特征:

主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)
死链
虚假信息/诈骗等
空页面
站点不稳定
影响主需求的权限问题(下载/浏览需要注册会员/积分等)
信息不完整(转载不全等)
浏览体验差(广告/字体/页面布局等)

2、典型的高质量页面存在以下一些特征:

访问速度快(页面加载快/资源下载速度快)
页面整洁干净,主体内容在显著位置
页面信息完整
页面元素丰富(文字、图片、评论、相关推荐等)
###

搜索引擎判断内容质量优劣标准无外乎这么几点:可读性,实用性,真实性。这里的可读性主要体现在用户体验方面,试想一下,一篇语句不通顺,错字连篇的文章,用户都看不懂,更何况搜索引擎蜘蛛呢;其次,要说的是实用性,也就是有没有用户提供给用户实实在在的他们需要的信息;再次,真实性,所谓的真实性就是内容有没有一定的依据,不能歪曲事实,给用户产生误导,这一点尤其要体现在医疗站点方面。个人认为只要满足这三点,不敢保证你的内容一定是实实在在的高质量,但是至少搜索引擎不会反感和排斥。
个人拙见。希望各位前辈指正!

###

你的一篇文章,去里面的话去百度搜,搜到通知的东西越多,说明内容质量越低

###

前面的那么多评论,让我收获很多。

###

各位讨论了这么多,那么你们自己网站的内容是如何得来的呢??

###

除上诉各种算法外,我觉得最重要的一点,百度可通过对文章细节处理来进行相应判断。
比如:
1、是否把大标题加入,更利用用户浏览。
2、是否有相关文章之间连接,更方便用户体验。
3、是否有版权信息?
4、文章是否针对搜索引擎而写的(比如大量关键词堆积)等

###

据说百度今年会加大对原创站点权重。具体可以看百度星火计划

###

楼主说的没法读应该是指的frame框架,JS,图片等搜索引擎无法识别的元素。

###

很赞同上述观点!个人认为百度还从以下几个方面判断内容质量高低:
1.页面内容内是否包含非法关键词
2. 页面链接数量(特别是商务通)
3. 页面内容字数
4. 标题相似度
5. 权重标签的合理运用

###

百度在2013年3月20日对蜘蛛爬行从新做了调整,不知道您有没有关注您100多个网站的关键词和收录的变化,对于原创的文章 个人认为百度有如下的判断,以伪原创大比方,第一、重复词句过多的爬行不留痕迹,一般收录的少或者不收录,在3月20日之前,一般的伪原创工具都好用,现在不好用了。现在如果百度无法判断高质量的文章,他是不会收录的,不防你试试

###

等那狗日的百度把他自家所谓的原创识别算法弄出来,我们再讨论吧。 百度还真有那技术?不知什么时候了

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/17192.html