一种基于MMseg算法与逐点互信息算法的分词方法技术

技术编号：14954003 阅读：99 留言：0更新日期：2017-04-02 10:23

本发明专利技术涉及一种基于MMseg算法与逐点互信息算法的分词方法，基于词典使用MMseg算法对文本进行分词处理，获得分词结果后使用逐点互信息算法对分词结果进行校正；所述逐点互信息算法校正分词结果的具体过程如下：计算文本中相邻的字x与字y的逐点互信息，然后判断字x与字y的逐点互信息是否大于所设定的阈值，若是则将字x与字y作为一个独立的词语进行划分。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文分词领域，更具体地，涉及一种基于MMseg算法与逐点互信息算法的分词方法。
技术介绍
我国对于自然语言处理的研究起步较晚，在上世纪八十年代才建立起自己的自然语言处理模型，后来随着计算机的发展和用户自身需求的提高，国内对自然语言的重视程度大大提高，研究机构增多，研究队伍壮大。研究队伍在借鉴国外成果的同时结合了中文文本的特点，提出了新的理论模型，提高对中文理解研究的水平。英文分词中词与词之间存在空格，但是中文文本中，句子间的字符都是连接在一起的。例如，英文的“LileiandHanmeimei”，每个词之间都有空格将他们分开，而中文中“李雷和韩梅梅”却需要用分隔符把词语切分成“李雷/和/韩梅梅”，这就导致了中文分词难度较大。中文分词研究的难点主要来自于分词规范、歧义切分和未登录词识别这三个方面。歧义切分和未登录词识别是现阶段研究的重点。目前中文分词的主要方法有三类：基于字符串匹配的方法、基于统计的方法、基于理解的方法。基于以上这些算法，许多研究机构开发了一些常用的分词系统，其中主要有：(1)北航的书面汉语自动分词系统CDWS。北航研究的CDWS分词...
一种基于MMseg算法与逐点互信息算法的分词方法

【技术保护点】
一种基于MMseg算法与逐点互信息算法的分词方法，其特征在于：基于词典使用MMseg算法对文本进行分词处理，获得分词结果后使用逐点互信息算法对分词结果进行校正；所述逐点互信息算法校正分词结果的具体过程如下：计算文本中相邻的字x与字y的逐点互信息，然后判断字x与字y的逐点互信息是否大于所设定的阈值，若是则将字x与字y作为一个独立的词语进行划分。

【技术特征摘要】
1.一种基于MMseg算法与逐点互信息算法的分词方法，其特征在于：基于词典使用MMseg算法对文本进行分词处理，获得分词结果后使用逐点互信息算法对分词结果进行校正；所述逐点互信息算法校正分词结果的具体过程如下：计算文本中相邻的字x与字y的逐点互信息，然后判断字x与字y的逐点互信息是否大于所设定的阈值，若是则将字x与字y作为一个独立的词语进行划分。2.根据权利要求1所述的基于MMseg算法与逐点互信息算法的分词方法，其特征在于：所述MMseg算法对文本进行分词处理的具体过程如下：S1.逐行读入文本；S2.对文本进行拆分，形成若干个字符串；S3.对字符串i中的汉字使用简单最大匹配法或复杂最大匹配法与词典中的单词进行匹配，然后输出匹配结果；S4.判断步骤S3的匹配结果是否存在着最大词长词组，若是，则将其保存到文本集R中进行存储，然后执行步骤S5；S5.若步骤S3输出匹配结果的词组数量超过1个，则选择平均词语长度最大的词组保存到文本集R中进行存储，然后执行步骤S6；S6.对步骤S3输出的匹配结果的词组进行词语长度变化率的计算，选择变化率最小的词组保存到文本集R中进行存储，然后执行步骤S7；S7.对步骤S3输出的匹配结果的词组进行自由语素和的计算，选择自由语素和最大的词组保存到文本集R中进行存储；S8.重复执行步骤S3～S7直至所有的字符串均经历...

【专利技术属性】
技术研发人员：谭军，张凯华，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人