捕鱼网首页 临沂网络公司 临沂seo网站优化 临沂网站建设 新闻中心 捕鱼软件下载的联系方式

搜索引擎中文分词算法有哪些分类

发布时间:2020-01-04 23:08
发布者:admin
浏览次数:
我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于字标注的分词方法。
第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:正向大匹配法、逆向大匹配法、小匹配方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的致性等问题使其难以适应开放的大规模文本的分词处理(比如未登录词)。
第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。
第三类基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造个特定的词语时都占据着个确定的构词位置(即词位),假如规定每个字多只有四个构词位置:即b(词首),m (词中),e(词尾)和s(单独成词),那么下面句子(甲)的分词结果可以直接表示成如(乙)所示的逐字标注形式:
(甲)分词结果:/上海/计划/n/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。
(乙)字标注形式:上/b海/e计/b划/e n/s 本/s世/b 纪/e 末/s 实/b 现/e 人/b 均/e 国/b 内/e生/b产/e总/b值/e 五/b千/m 美/m 元/e 。/s
首先需要说明,这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含定数量的非汉字字符,本文所说的“字”,也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然,汉字依然是这个单元集合中数量多的类字符。