百度是如何检测一篇文章的原创度的？-问答-微盟圈

难道是弄一句话搜索一下看有没有重复？
应该也不是吧，随便弄一篇乱七八糟读不通的文章百度上也搜索不到啊！
百度是如何判断原创度和文章句子的通顺可读性？

主要来是关键词检索，首先一些结构助词比如“的” 、“了”、“什么”等一般会自动忽略掉（除非标题里就只剩下结构助词，没有其他词），把文章切分成一端端的，然后进行词次数统计，跟已收录数据库里进行比较，词相同的越多也就是原创性越低喽。具体更多了解可搜索“分词技术”。

至于乱七八糟读不通的文章其实收录一般是有的，这个大量实验过，早期发外链为追求原创能收录，直接采用翻译文章的方法，但是这文章没有主题（核心关键词），也就是你搜关键词的时候他几乎匹配不出来这文章，没排名搜不到。文章连续性百度蜘蛛第一次抓取的时候是不能判断的。不过以后有很多人打开这页面又快速关闭掉，有一定程度的帮助判断内容是否垃圾，但是影响程度有限，否则可以攻击竞争对手了。

###

所谓百度原创度或者是百度原创率，指的是原创收录和总收录之间比值的百分比。比方说，你文章收录100篇，而你原创的文章收录60篇，那么你的百度原创度就是60%。百度自身有一套比较完善的软件来判断你网站所发内容，是否是原创，针对转载而来的，甚至可以检查到其首发地址，同时最近一段时间来，针对大量的网站收录下降的分析可以看出，百度似乎已经朝着这个方向发展，一些重复的内容都出现不同程度的删除，因为收录本身的下降同时也引起了网站权重的下降，具体表现就是快照停滞现象，但是这种收录下降有时并未引起关键字排名的大幅度下降，因为本身你网站的原创内容还是有的，由此可见，百度针对网站的收录做了一些归整，就此看来推出百度原创度这个新东西，毋庸置疑。

###

谢邀。可以了解下百度分词。百度如何识别原创，是百度的原创识别“起源”算法。
首先，通过内容相似程度来聚合采集和原创，将相似网页聚合在一起作为原创识别的候选集合；其次，对原创候选集合，通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页；最后，通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

也就是发布一篇文章，带上作者，来源，发布时间等等。建议楼主了解下百度原创星火计划。

###

百度百科解释：百度分词技术

一、数据处理
我们要理解分词技术先要理解一个概念。那就是查询处理，当用户向搜索引擎提交查询后，搜索引擎接收到用户的信息要做一系列的处理。步骤如下所示：

1.首先是到数据库里面索引相关的信息，这就是查询处理。
那么查询处理又是如何工作的呢？很简单，把用户提交的字符串没有超过3个的中文字，就会直接到数据库索引词汇。超过4个中文字的，首先用分隔符比如空格，标点符号，将查询串分割成若干子查询串。

举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是，百度，分词技术。”这种分词方法叫做反向匹配法。

2.然后再看用户提供的这个词有没有重复词汇
如果有的话，会丢弃掉，默认为一个词汇。接下来检查用户提交的字符串，有没有字母和数字。如果有的话，就把字母和数字认为一个词。这就是搜索引擎的查询处理。

可以百度搜索下，很容易理解，不过这个是版的例子，目前百度这方面的技术已近升级到了。

二、分词的原理：
1.字符串匹配的分词方法：
（1）.正向最大匹配法
（2）.反向最大匹配法
（3）.就是最短路径分词法。
（4）.双向最大匹配法。
2.词义分词法
3.统计分词法

更多了解请百度一下。。。

——————————————————————————
补充：
百度分词技术能够读懂一句话是否通顺，工具伪原创的垃圾文章能够被识别出来。
你试着用：正向最大匹配，就能够理解这个原理了。

###

建议看《这就是搜索引擎-核心技术讲解》，里面有详细讲解，百度一下有pdf电子书。

###

难道是弄一句话搜索一下看有没有重复？
这个肯定不是的！

你这个话题，想必没有谁能说清楚，哈哈，除非是百度内部人员。

本文来自投稿，不代表微盟圈立场，如若转载，请注明出处：https://www.vm7.com/a/ask/77217.html

百度是如何检测一篇文章的原创度的？

相关推荐