首页 > 问答 > 百度是怎么识别文章是原创的?

百度是怎么识别文章是原创的?

[导读]:对于一个咨询站点,百度是怎样识别原创的?有哪些因素可以考虑?希望大家一起来讨论 我先给起个头,一篇文章被抓取后会和数据库里面相关的主题-----再到相关的分类下,...

对于一个咨询站点,百度是怎样识别原创的?有哪些因素可以考虑?希望大家一起来讨论

我先给起个头,一篇文章被抓取后会和数据库里面相关的主题-----再到相关的分类下,----再细分,最后和库里存在的文章相对比,没有的话,就是原创。或者重复读不超过多少百分比;
最直接的说就是库里没有的它认为就是原创。
觉得百度对于原创的识别还需要一段时间——————————

###

大家怎么还在讨论这一个问题?比较老套统一的说法就是百度分词技术,加上词频统计指纹对比,然后判断。就像3楼说的那样差不多。

###

一、原创是有条件的,即百度收录之后的对比。
比如一个小网站发布了一篇原创文章,被新浪等权重较高的网站直接复制粘贴,标题内容丝毫不改,新浪等高权重网站收录了,而你的文章却没有收录。这时,你说哪个网站是原创。
二、回到题目,百度是怎么识别文章是原创的?
百度抓取你的文章之后,会将你文章的每个关键词生成一个相应的指纹,与之前相似主题的文章关键词指纹进行对比。当发现核心关键词偏差比较大的时候,便会认为是原创。因此要注意在文章中布局自己的目标关键词,相关关键词在文章中也要多次出现。(此段纯属本人臆断)
三、原创的就一定好吗?
百度没有说你的文章必须要原创,只要符合用户体验的文章就是好文章。

###

百度的字库通过对一些常用词的过滤后然后看主关键字出现的频率。应该在一点百分比比较合适就像关键字的百分比在百分之2-百分之8一样。当然肯定还会有相关文章对比如果其相识度超过百分60估计示为作弊。另外原创是效果不错,但是哪有这么多相关原创。而且百度也没有说原创的就是最好的。要不国内最大的网站应该颁发给那些盗版小说网站(因为他们的小说收费都是手打出来的)这么多原创没有理由不上第一,你们说是不!

###

个人感觉原创就要从第一个字到最后一个字都是自己写的,这才是真真正正的原创。对于伪原创,我认为首先是标题必须是自己想的,如果有描述,描述也需要自己去写,内容方面首段与尾端也是自己写的。还有一点就是文章看是否有可读性,一篇被用户认可的文章,不管是否是原创还是伪原创,都会被百度视为高质量文章。

本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/19169.html