一种基于最小信息量的汉语快速分词系统及方法技术方案

技术编号:14780681 阅读:115 留言:0更新日期:2017-03-09 21:51
本发明专利技术涉及一种基于最小信息量的汉语快速分词系统及方法,包括备选词确定、歧义区域识别、歧义分词消除、结果统计四个模块。本发明专利技术无需提前获取词语的先验统计信息,并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理,在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。

【技术实现步骤摘要】

本专利技术属于汉语言文字信息处理领域,涉及一种基于最小信息量的汉语快速分词系统及方法
技术介绍
随着互联网的飞速发展,人们对搜索引擎、文本信息提取、文本语义分析、大数据处理等应用的需求不断增加,因此快速中文分词处理的重要性日益明显,其市场需求与应用规模与日俱增。但是,与英语、意大利语等西欧语言不同的是,汉语不能以空格作为词汇的分界标识,因此在数据处理时,需要专门的算法、工具,才能进行有效的分词处理。当前,常用的分词方法有两类:一类是基于简单的词典进行查找匹配。此类方法通常以给定的词典为参考,在汉语字符串中,根据词语的首汉字在词典中逐一查找与之匹配的汉语词语,然后按照前向匹配原则、后向匹配原则、和最长匹配原则中的一种,确定最终的分词结果。该方法能够快速地确定分词结果,但由于匹配规则简单,其结果的准确率往往不高,不能胜任对准确性要求较高的分词处理任务。另外一类分词方法是基于语言模型的概率方法,该方法需要先验的概率统计知识,然后通过计算各种分词方法的概率,选择概率可行性最大的分词方法进行分词。由于基于先验的统计知识,此类方法准确率更高,但却在两方面存在着不足:首先,此类方法在分词开始前需要知道各个词语的先验统计概率,所以如果没有先验统计或出现了新词,就会出现先验概率缺失的情况;第二,此类方法要对所有可能的分词情况进行处理,对于长度为N的文本,其复杂度是O(2N),这大大增加了计算的复杂度,其实际应用价值和处理问题的规模也因此受到限制。
技术实现思路
本专利技术技术解决问题:为了解决基于语言模型概率分词方法中存在的上述不足,提供一种基于最小信息量的快速分词系统及方法,无需提前获取词语的先验统计信息,并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理,在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。本专利技术技术解决方案:一种基于最小信息量的汉语快速分词系统,包括备选词确定模块、歧义区域识别模块、歧义分词消除模块和结果统计模块,其中:备选词确定模块:获得文本中的所有中文词语、汉字的位置与数量信息,并根据词典对文本进行初步的统计,以避免由于缺少词语先验统计信息或出现新词带来的不准确分词;从输入文本的第一个字符位置开始,利用词典,逐个确定文本中出现的全部汉字和所有中文词语,并记录全部汉字和所有中文词语的位置和数量;在文本中,所有可能是最终分词结果的词语都被称为备选词;歧义区域识别模块:根据备选词确定模块的全部汉字和所有中文词语的位置和数量,确定输入文本的所有歧义区间,以便后续的歧义消除;所述歧义区间是指有可能产生歧义划分的所有相关备选词的文本位置区间;基于备选词的位置信息,确定词语划分的三种情况:无歧义分词、单汉字分词和有歧义分词;对于无歧义分词和单汉字分词,将无歧义分词和单汉字分词作为分词结果记录;对于有歧义分词,记录歧义区间的起止位置及区间内备选词的序数信息,将有歧义分词交由歧义分词消除模块,以进一步消除该歧义区间的分词歧义,待歧义分词消除模块返回分词方案后,将该分词方案记入结果集;对某个字符长度大于等于2的备选词,如果备选词中的字符与备选词前、后的若干连续字符都不构成词典中的词语即另一个不同的备选词,则称该备选词为无歧义分词;如果某个汉字与它前后的字符都不构成词语,则某个汉字本身不会与其他汉字或词语产生歧义划分,称为单汉字分词;某个备选词的部分连续字符与它前、后的字符串构成新的备选词,则该词的划分就被称为有歧义划分;歧义分词消除模块:对给定歧义区间中的所有可选分词方案作比较,依据信息量最小原则,选择最优分词方案分词,并将结果存储,同时将结果返回给歧义区域识别模块执行,整个文本分词处理结束。所述系统还包括结果统计模块:将整个文本分词处理结果输出,同时将最终的分词结果累计到词库集合中,为后续的处理做出累加作用。所述备选词确定模块中,统计当前输入文本中所有备选词,并将这些备选词的词语的相关统计信息记录入相应的存储结构中,其中,每个词语w的统计信息包括:词语w在文本中出现的总次数,总次数由备选词的统计结构DocCount[w]记录;词语w在文本检测中出现的顺序信息,顺序信息由备选词序列CandidateWD记录,词语w在第k次出现时的起始位置CandidateStart[k]以及结束位置CandidateEnd[k]位置信息。所述歧义区域识别模块中的歧义区域识别实现如下:经过备选词确定后共有KN个备选词,设当前处理的备选词为第k个备选词CandidateWD[k],k<KN,根据备选词的开始位置信息CandidateStart[k]和结束位置信息CandidateEnd[k],逐个确定第k个备选词的归属类别,对于无歧义分词和单汉字分词,将有序对(CandidateStart[k],CandidateWD[k])作为分词结果直接保存到集合Result中;对于有歧义分词,则确定包含该词的歧义区间,并交由歧义分词消除模块进一步消除歧义,待歧义分词消除模块返回分词方案后,再将该分词方案记入结果集Result中。所述歧义分词消除模块实现为:首先,对所有可选分词方案进行冲突判断:一种分词方案对应着歧义区间内备选词指标集合ambiguityWordIndexSet的一个非空子集,若indSubset是ambiguityWordIndexSet的一个非空子集,即一种分词方案,如果indSubset中某两个元素i、j所对应的备选词CandidateWD[i]和CandidateWD[j]在歧义区间[ambiguityStart,ambiguityEnd]内同时占据了一个或多个位置,则称这两个备选词在该歧义区间产生了冲突;反之,如果indSubset中任意两个元素所对应的备选词相互都不产生干扰,则称indSubset对应的分词方案是无冲突的;对所述歧义区间内的所有无冲突的分词方案,计算各分词方案中全部类型分词的累计信息量,选择具有最小累计信息量的分词方案作为消除区间歧义的最优方法,并将该方案中所有词语的位置信息在歧义区间[ambiguityStart,ambiguityEnd]中做标记。一种基于最小信息量的汉语快速分词方法,包括步备选词确定步骤、歧义区域识别步骤、歧义分词消除模块和结果统计步骤,其中:(1)备选词确定步骤:获得文本中的所有中文词语、汉字的位置与数量信息,并根据词典对文本进行初步的统计,以避免由于缺少词语先验统计信息或出现新词带来的不准确分词;从输入文本的第一个字符位置开始,利用词典,逐个确定文本中出现的全部汉字和所有中文词语,并记录全部汉字和所有中文词语的位置和数量;在文本中,所有可能是最终分词结果的词语都被称为备选词;(2)歧义区域识别步骤:根据备选词确定步骤的全部汉字和所有中文词语的位置和数量,确定输入文本的所有歧义区间,以便后续的歧义消除;所述歧义区间是指有可能产生歧义划分的所有相关备选词的文本位置区间;基于备选词的位置信息,确定词语划分的三种情况:无歧义分词、单汉字分词和有歧义分词;对于无歧义分词和单汉字分词,将无歧义分词和单汉字分词作为分词结果记录;对于有歧义分词,记录歧义区间的起止位置及区间内备选词的序数信息,将有歧义分词交由歧义分词消除本文档来自技高网...
一种基于最小信息量的汉语快速分词系统及方法

【技术保护点】
一种基于最小信息量的汉语快速分词系统,其特征在于:包括备选词确定模块、歧义区域识别模块、歧义分词消除模块和结果统计模块,其中:备选词确定模块:获得文本中的所有中文词语、汉字的位置与数量信息,并根据词典对文本进行初步的统计,以避免由于缺少词语先验统计信息或出现新词带来的不准确分词;从输入文本的第一个字符位置开始,利用词典,逐个确定文本中出现的全部汉字和所有中文词语,并记录全部汉字和所有中文词语的位置和数量;在文本中,所有可能是最终分词结果的词语都被称为备选词;歧义区域识别模块:根据备选词确定模块的全部汉字和所有中文词语的位置和数量,确定输入文本的所有歧义区间,以便后续的歧义消除;所述歧义区间是指有可能产生歧义划分的所有相关备选词的文本位置区间;基于备选词的位置信息,确定词语划分的三种情况:无歧义分词、单汉字分词和有歧义分词;对于无歧义分词和单汉字分词,将无歧义分词和单汉字分词作为分词结果记录;对于有歧义分词,记录歧义区间的起止位置及区间内备选词的序数信息,将有歧义分词交由歧义分词消除模块,以进一步消除该歧义区间的分词歧义,待歧义分词消除模块返回分词方案后,将该分词方案记入结果集;对某个字符长度大于等于2的备选词,如果备选词中的字符与备选词前、后的若干连续字符都不构成词典中的词语即另一个不同的备选词,则称该备选词为无歧义分词;如果某个汉字与它前后的字符都不构成词语,则某个汉字本身不会与其他汉字或词语产生歧义划分,称为单汉字分词;某个备选词的部分连续字符与它前、后的字符串构成新的备选词,则该词的划分就被称为有歧义划分;歧义分词消除模块:对给定歧义区间中的所有可选分词方案作比较,依据信息量最小原则,选择最优分词方案分词,并将结果存储,同时将结果返回给歧义区域识别模块执行,整个文本分词处理结束。...

【技术特征摘要】
1.一种基于最小信息量的汉语快速分词系统,其特征在于:包括备选词确定模块、歧义区域识别模块、歧义分词消除模块和结果统计模块,其中:备选词确定模块:获得文本中的所有中文词语、汉字的位置与数量信息,并根据词典对文本进行初步的统计,以避免由于缺少词语先验统计信息或出现新词带来的不准确分词;从输入文本的第一个字符位置开始,利用词典,逐个确定文本中出现的全部汉字和所有中文词语,并记录全部汉字和所有中文词语的位置和数量;在文本中,所有可能是最终分词结果的词语都被称为备选词;歧义区域识别模块:根据备选词确定模块的全部汉字和所有中文词语的位置和数量,确定输入文本的所有歧义区间,以便后续的歧义消除;所述歧义区间是指有可能产生歧义划分的所有相关备选词的文本位置区间;基于备选词的位置信息,确定词语划分的三种情况:无歧义分词、单汉字分词和有歧义分词;对于无歧义分词和单汉字分词,将无歧义分词和单汉字分词作为分词结果记录;对于有歧义分词,记录歧义区间的起止位置及区间内备选词的序数信息,将有歧义分词交由歧义分词消除模块,以进一步消除该歧义区间的分词歧义,待歧义分词消除模块返回分词方案后,将该分词方案记入结果集;对某个字符长度大于等于2的备选词,如果备选词中的字符与备选词前、后的若干连续字符都不构成词典中的词语即另一个不同的备选词,则称该备选词为无歧义分词;如果某个汉字与它前后的字符都不构成词语,则某个汉字本身不会与其他汉字或词语产生歧义划分,称为单汉字分词;某个备选词的部分连续字符与它前、后的字符串构成新的备选词,则该词的划分就被称为有歧义划分;歧义分词消除模块:对给定歧义区间中的所有可选分词方案作比较,依据信息量最小原则,选择最优分词方案分词,并将结果存储,同时将结果返回给歧义区域识别模块执行,整个文本分词处理结束。2.根据权利要求1所述的基于最小信息量的汉语快速分词系统,其特征在于:所述系统还包括结果统计模块:将整个文本分词处理结果输出,同时将最终的分词结果累计到词库集合中,为后续的处理做出累加作用。3.根据权利要求1或2所述的基于最小信息量的汉语快速分词系统,其特征在于:所述备选词确定模块中,统计当前输入文本中所有备选词,并将这些备选词的词语的相关统计信息记录入相应的存储结构中,其中,每个词语w的统计信息包括:词语w在文本中出现的总次数,总次数由备选词的统计结构DocCount[w]记录;词语w在文本检测中出现的顺序信息,顺序信息由备选词序列CandidateWD记录,词语w在第k次出现时的起始位置CandidateStart[k]以及结束位置CandidateEnd[k]位置信息。4.根据权利要求1或2所述的基于最小信息量的汉语快速分词系统,其特征在于:所述歧义区域识别模块中的歧义区域识别实现如下:经过备选词确定后共有KN个备选词,设当前处理的备选词为第k个备选词CandidateWD[k],k<KN,根据备选词的开始位置信息CandidateStart[k]和结束位置信息CandidateEnd[k],逐个确定第k个备选词的归属类别,对于无歧义分词和单汉字分词,将有序对(CandidateStart[k],CandidateWD[k])作为分词结果直接保存到集合Result中...

【专利技术属性】
技术研发人员:蒋东辰闫艺鑫牛颖
申请(专利权)人:北京林业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1