[导读]:搜索引擎索引系统概述:分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;...
搜索引擎索引系统概述:分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
这个term文本、termid、词类、词性具体都是什么意思呢?
term 完整的应该是 search term,百度省略了前面的 search
term文本 完整的是 search term text,搜索词的文本
termid 全拼是 search term identifier 搜索词 ID
词类 word class 学过有关亚里士多德的哲学或 JAVA,就明白 class 是什么了,类就是物以类聚的类的概念。
词性 part of speech 动词、名词、形容词等
无意中搜到这问题就来回答下吧,term可以理解为一个变量一块内存一个库,里面存储了大量的字或词。然后就很好明白了,标题是“百度是个好网站” ,“百度”或“百”“度”在库里有对应的文本,对应的ID,对应的词性和词类。切词分词就是根据这个库中多个文本的属性来进行的。
###term有一个意思是“专门名词”,termid是:标识( TermID)
比如说:标题是“百度是个好网站” 百度是term文本,词类是名词,词性是名词。
本文来自投稿,不代表微盟圈立场,如若转载,请注明出处:https://www.vm7.com/a/ask/35047.html
