【技术实现步骤摘要】
本专利技术属于汉语言文字信息处理领域,涉及一种基于最小信息量的汉语快速分词系统及方法。
技术介绍
随着互联网的飞速发展,人们对搜索引擎、文本信息提取、文本语义分析、大数据处理等应用的需求不断增加,因此快速中文分词处理的重要性日益明显,其市场需求与应用规模与日俱增。但是,与英语、意大利语等西欧语言不同的是,汉语不能以空格作为词汇的分界标识,因此在数据处理时,需要专门的算法、工具,才能进行有效的分词处理。当前,常用的分词方法有两类:一类是基于简单的词典进行查找匹配。此类方法通常以给定的词典为参考,在汉语字符串中,根据词语的首汉字在词典中逐一查找与之匹配的汉语词语,然后按照前向匹配原则、后向匹配原则、和最长匹配原则中的一种,确定最终的分词结果。该方法能够快速地确定分词结果,但由于匹配规则简单,其结果的准确率往往不高,不能胜任对准确性要求较高的分词处理任务。另外一类分词方法是基于语言模型的概率方法,该方法需要先验的概率统计知识,然后通过计算各种分词方法的概率,选择概率可行性最大的分词方法进行分词。由于基于先验的统计知识,此类方法准确率更高,但却在两方面存在着不足:首先,此类方法在分词开始前需要知道各个词语的先验统计概率,所以如果没有先验统计或出现了新词,就会出现先验概率缺失的情况;第二,此类方法要对所有可能的分词情况进行处理,对于长度为N的文本,其复杂度是O(2N),这大大增加了计算的复杂度,其实际应用价值和处理问题的规模也因此受到限制。
技术实现思路
本专利技术技术解决问题:为了解决基于语言模型概率分词方法中存在的上述不足,提供一种基于最小信息量的快速分词系统及方 ...
【技术保护点】
一种基于最小信息量的汉语快速分词系统,其特征在于:包括备选词确定模块、歧义区域识别模块、歧义分词消除模块和结果统计模块,其中:备选词确定模块:获得文本中的所有中文词语、汉字的位置与数量信息,并根据词典对文本进行初步的统计,以避免由于缺少词语先验统计信息或出现新词带来的不准确分词;从输入文本的第一个字符位置开始,利用词典,逐个确定文本中出现的全部汉字和所有中文词语,并记录全部汉字和所有中文词语的位置和数量;在文本中,所有可能是最终分词结果的词语都被称为备选词;歧义区域识别模块:根据备选词确定模块的全部汉字和所有中文词语的位置和数量,确定输入文本的所有歧义区间,以便后续的歧义消除;所述歧义区间是指有可能产生歧义划分的所有相关备选词的文本位置区间;基于备选词的位置信息,确定词语划分的三种情况:无歧义分词、单汉字分词和有歧义分词;对于无歧义分词和单汉字分词,将无歧义分词和单汉字分词作为分词结果记录;对于有歧义分词,记录歧义区间的起止位置及区间内备选词的序数信息,将有歧义分词交由歧义分词消除模块,以进一步消除该歧义区间的分词歧义,待歧义分词消除模块返回分词方案后,将该分词方案记入结果集;对某个字 ...
【技术特征摘要】
1.一种基于最小信息量的汉语快速分词系统,其特征在于:包括备选词确定模块、歧义区域识别模块、歧义分词消除模块和结果统计模块,其中:备选词确定模块:获得文本中的所有中文词语、汉字的位置与数量信息,并根据词典对文本进行初步的统计,以避免由于缺少词语先验统计信息或出现新词带来的不准确分词;从输入文本的第一个字符位置开始,利用词典,逐个确定文本中出现的全部汉字和所有中文词语,并记录全部汉字和所有中文词语的位置和数量;在文本中,所有可能是最终分词结果的词语都被称为备选词;歧义区域识别模块:根据备选词确定模块的全部汉字和所有中文词语的位置和数量,确定输入文本的所有歧义区间,以便后续的歧义消除;所述歧义区间是指有可能产生歧义划分的所有相关备选词的文本位置区间;基于备选词的位置信息,确定词语划分的三种情况:无歧义分词、单汉字分词和有歧义分词;对于无歧义分词和单汉字分词,将无歧义分词和单汉字分词作为分词结果记录;对于有歧义分词,记录歧义区间的起止位置及区间内备选词的序数信息,将有歧义分词交由歧义分词消除模块,以进一步消除该歧义区间的分词歧义,待歧义分词消除模块返回分词方案后,将该分词方案记入结果集;对某个字符长度大于等于2的备选词,如果备选词中的字符与备选词前、后的若干连续字符都不构成词典中的词语即另一个不同的备选词,则称该备选词为无歧义分词;如果某个汉字与它前后的字符都不构成词语,则某个汉字本身不会与其他汉字或词语产生歧义划分,称为单汉字分词;某个备选词的部分连续字符与它前、后的字符串构成新的备选词,则该词的划分就被称为有歧义划分;歧义分词消除模块:对给定歧义区间中的所有可选分词方案作比较,依据信息量最小原则,选择最优分词方案分词,并将结果存储,同时将结果返回给歧义区域识别模块执行,整个文本分词处理结束。2.根据权利要求1所述的基于最小信息量的汉语快速分词系统,其特征在于:所述系统还包括结果统计模块:将整个文本分词处理结果输出,同时将最终的分词结果累计到词库集合中,为后续的处理做出累加作用。3.根据权利要求1或2所述的基于最小信息量的汉语快速分词系统,其特征在于:所述备选词确定模块中,统计当前输入文本中所有备选词,并将这些备选词的词语的相关统计信息记录入相应的存储结构中,其中,每个词语w的统计信息包括:词语w在文本中出现的总次数,总次数由备选词的统计结构DocCount[w]记录;词语w在文本检测中出现的顺序信息,顺序信息由备选词序列CandidateWD记录,词语w在第k次出现时的起始位置CandidateStart[k]以及结束位置CandidateEnd[k]位置信息。4.根据权利要求1或2所述的基于最小信息量的汉语快速分词系统,其特征在于:所述歧义区域识别模块中的歧义区域识别实现如下:经过备选词确定后共有KN个备选词,设当前处理的备选词为第k个备选词CandidateWD[k],k<KN,根据备选词的开始位置信息CandidateStart[k]和结束位置信息CandidateEnd[k],逐个确定第k个备选词的归属类别,对于无歧义分词和单汉字分词,将有序对(CandidateStart[k],CandidateWD[k])作为分词结果直接保存到集合Result中...
【专利技术属性】
技术研发人员:蒋东辰,闫艺鑫,牛颖,
申请(专利权)人:北京林业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。