搜索引擎【中文分词技术】

相信了解过SEO的朋友们都知道:蜘蛛把抓取到的网页是要经过系统的分析的才会给索引出来。那么分析中,就有一项非常重要的技术了,那就是搜索引擎蜘蛛的分词技术,百度的分词应该也是用的这个技术。中文分词技术

 

那么:什么是中文分词呢?

其实任何文档都可以看过是一些连续的词的组合,然而中文并没有词语间分隔,与英文不同。在中文的语法中,词汇是由两个以上汉字组成的,并且句子是连续书写的,句子间还有标点分开。所以这就要求在自动分析文字时,先要将整句话分隔成词汇,这也就是中文分词了。

 

那光说可能大家还不是很能理解啊,给大家举个例子就明白了。

“学历史学好”这是一个句子。我们很容易的就能分开这个词,“学/历史学/好”。但是搜索引擎的分析系统还没有这么牛逼啊,搜索引擎发展到的今天充其量也就是个幼儿的智商水平,它是不可能按照人的意思去分成这样的。它有可能会分成“学历/史学/好”。(当然这只是一个举例,事实上对于大多数中文句子来说中文分词技术还是挺人性化的)

 

目前的搜索引擎分词技术主要依靠的是字典和统计学。由于索引是按照关键词建立的,所以分词的效果决定着索引词以及搜索的效果。如果搜索引擎分词技术把“学历史学好”错误的分成“学历/史学/好”,当我们在查询“历史学”这个关键词的时候,就无法检索出这个文档,所以有此可见分词在搜索技术中的重要性!

    A+
发布日期:2017年04月07日  所属分类:SEO公司
最后修改时间:2017-03-28 16:48
付杰

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: