中文分词歧义消除方法和系统技术方案

技术编号:14198532 阅读:47 留言:0更新日期:2016-12-15 20:13
本发明专利技术实施例提供一种中文分词歧义消除方法和系统,所述方法包括:对待分词语句进行分词,获得初始分词结果;针对初始分词结果,提取分词歧义点;构造包含分词歧义点的新分词,并计算新分词的最大熵模型得分;根据新分词的最大熵模型得分,判断新分词是否为有效分词;用有效分词修正初始分词结果。本发明专利技术实施例克服了现有技术中需要大量训练语料数据和歧义语料库的缺点,分词效果达到实用的精度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别涉及一种中文分词歧义消除方法和系统
技术介绍
中文分词是中文分析及计算机处理中的一大难点,其中,中文分词歧义消除问题一直是中文分词中备受关注的难点和热点问题。目前,常用的中文分词歧义消除方法有ngram模型法、动词优先法、信息熵法、中文歧义词库法等。这些方法都在不同程度上解决了分词歧义问题,但是还没有一种适用于各种场景的分词方法,能够在各种场合下有效消除中文分词歧义。以现有的CAS(compare-and-swap)技术为例,其只考虑了儿童闲聊场景的分词歧义问题,效果已经能够达到实用,但是对于其他场景的分词歧义问题,实现效果并不是很好。此外,现有的一些中文分词歧义消除方法通常需要大量的训练语料,建立超大歧义词字典。这些过程需要投入很大的人力和时间,进行人工标注,否则精度将不能达到实用要求。一般人工智能机构很难在短时间内获取这些训练语料和歧义词典,即便是获取到了,在分词算法的实时计算上又提出了更高的要求。这对于人工智能进一步应用到实用场景是一个瓶颈。
技术实现思路
本专利技术的目的是提供一种中文分词歧义消除方法,用以解决现有算法需要大量训练语料和歧义词库的问题,以及伴随而来的算法的实时性问题。相应的,本专利技术实施例还提供一种中文分词歧义消除系统,用以保证上述方法的实现及应用。为了解决上述问题,本专利技术实施例公开了一种中文分词歧义消除方法,包括:对待分词语句进行分词,获得初始分词结果;针对所述初始分词结果,提取分词歧义点;构造包含所述分词歧义点的新分词,并计算所述新分词的最大熵模型得分;根据所述新分词的最大熵模型得分,判断所述新分词是否为有效分词;用所述有效分词修正所述初始分词结果。优选地,所述提取分词歧义点的步骤包括:针对所述初始分词结果中的每个词构造候选词;在场景库中进行搜索,确定所述候选词是否存在于所述场景库中;提取存在于所述场景库中的候选词的第一个字或最后一个字作为分词歧义点。优选地,所述待分词语句共包括N个字,依次为z1至zN,所述初始分词结果共包括M个词,依次为c1至cM,所述初始分词结果中的第i个词ci的最后一个字为zj,所述第i个词ci的候选词包括:cizj+1,cizj+1zj+2,……cizj+1zj+2……zN,其中,M、N、i、j均为大于零的整数,且M≤N,i<M,j<N。优选地,所述场景库用于存储与应用场景相关联的词,包括至少一个主题词典。优选地,所述构造包含所述分词歧义点的新分词通过以下三种方式的至少其中之一来实现:在所述待分词语句中,将从前方紧邻所述分词歧义点的至少一个字与所述分词歧义点组合,构造所述新分词;在所述待分词语句中,将所述分词歧义点与从后方紧邻所述分词歧义点的至少一个字组合,构造所述新分词;在所述待分词语句中,将从前方紧邻所述分词歧义点的至少一个字、所述分词歧义点、以及从后方紧邻所述分词歧义点的至少一个字组合,构造所述新分词。优选地,还包括对所述最大熵模型进行训练。优选地,所述对所述最大熵模型进行训练的步骤包括:选择样本数据,对所述样本数据进行正确分词,获得正确的分词结果;构造所述正确的分词结果中的每个分词的特征;使用所述特征,训练所述最大熵模型;其中,所述正确的分词结果包括L个分词,依次为z1至zL,其中第i个分词zi的特征包括:zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。优选地,所述对所述最大熵模型进行训练的步骤还包括:常用文本标注,针对所述正确的分词结果中的每个分词,判断其是否存在于所述场景库的主题词典中,将存在于所述场景库的主题词典中的分词标注为常用文本;常用文本替换,针对所述正确的分词结果,将被标注为常用文本的分词替换为其所在的主题词典的名称;模型特征构造,针对经过所述常用文本替换的正确的分词结果中的每个分词,构造所述最大熵模型的特征;其中,经过所述常用文本替换的正确的分词结果包括L个分词,依次为s1至sL,其中第i个分词si的特征包括:si-2,si-1,si+1,si+2,sisi+1,si+1si+2,si-1si,si-2si-1,si-1si+1。本专利技术实施例还公开一种中文分词歧义消除系统,包括:初始分词模块,用于对待分词语句进行分词,获得初始分词结果;分词歧义点提取模块,用于针对所述初始分词结果,提取分词歧义点;最大熵模型得分计算模块,用于构造包含所述分词歧义点的新分词,并计算所述新分词的最大熵模型得分;有效分词判断模块,用于根据所述新分词的最大熵模型得分,判断所述新分词是否为有效分词;修正模块,用于用所述有效分词修正所述初始分词结果。优选地,所述分词歧义点提取模块包括:候选词构造子模块,用于针对所述初始分词结果中的每个词构造候选词;搜索子模块,用于在场景库中进行搜索,确定所述候选词是否存在于所述场景库中;提取子模块,提取存在于所述场景库中的候选词的第一个字或最后一个字作为分词歧义点。优选地,所述待分词语句共包括N个字,依次为z1至zN,所述初始分词结果共包括M个词,依次为c1至cM,所述初始分词结果中的第i个词ci的最后一个字为zj,所述第i个词ci的候选词包括:cizj+1,cizj+1zj+2,……cizj+1zj+2……zN,其中,M、N、i、j均为大于零的整数,且M≤N,i<M,j<N。优选地,所述场景库用于存储与应用场景相关联的词,包括至少一个主题词典。优选地,所述构造包含所述分词歧义点的新分词通过以下三种方式的至少其中之一来实现:在所述待分词语句中,将从前方紧邻所述分词歧义点的至少一个字与所述分词歧义点组合,构造所述新分词;在所述待分词语句中,将所述分词歧义点与从后方紧邻所述分词歧义点的至少一个字组合,构造所述新分词;在所述待分词语句中,将从前方紧邻所述分词歧义点的至少一个字、所述分词歧义点、以及从后方紧邻所述分词歧义点的至少一个字组合,构造所述新分词。优选地,所述中文分词歧义消除系统还包括最大熵模型训练模块,用于对所述最大熵模型进行训练。优选地,所述最大熵模型训练模块包括:样本数据分词模块,用于选择样本数据,对所述样本数据进行正确分词,获得正确的分词结果;分词特征构造模块,用于构造所述正确的分词结果中的每个分词的特征;最大熵模型训练模块,用于使用所述特征,训练所述最大熵模型;其中,所述正确的分词结果包括L个分词,依次为z1至zL,其中第i个分词zi的特征包括:zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。优选地,所述最大熵模型训练模块还包括:常用文本标注模块,用于针对所述正确的分词结果中的每个分词,判断其是否存在于所述场景库的主题词典中,将存在于所述场景库的主题词典中的分词标注为常用文本;常用文本替换模块,用于针对所述正确的分词结果,将被标注为常用文本的分词替换为其所在的主题词典的名称;模型特征构造模块,用于针对经过所述常用文本替换的正确的分词结果中的每个分词,构造所述最大熵模型的特征;其中,经过所述常用文本替换的正确的分词结果包括L个分词,依次为s1至sL,其中第i个分词si的特征包括:si-2,si-1,si+本文档来自技高网...
中文分词歧义消除方法和系统

【技术保护点】
一种中文分词歧义消除方法,其特征在于,包括:对待分词语句进行分词,获得初始分词结果;针对所述初始分词结果,提取分词歧义点;构造包含所述分词歧义点的新分词,并计算所述新分词的最大熵模型得分;根据所述新分词的最大熵模型得分,判断所述新分词是否为有效分词;用所述有效分词修正所述初始分词结果。

【技术特征摘要】
1.一种中文分词歧义消除方法,其特征在于,包括:对待分词语句进行分词,获得初始分词结果;针对所述初始分词结果,提取分词歧义点;构造包含所述分词歧义点的新分词,并计算所述新分词的最大熵模型得分;根据所述新分词的最大熵模型得分,判断所述新分词是否为有效分词;用所述有效分词修正所述初始分词结果。2.根据权利要求1所述的中文分词歧义消除方法,其特征在于,所述提取分词歧义点的步骤包括:针对所述初始分词结果中的每个词构造候选词;在场景库中进行搜索,确定所述候选词是否存在于所述场景库中;提取存在于所述场景库中的候选词的第一个字或最后一个字作为分词歧义点。3.根据权利要求2所述的中文分词歧义消除方法,其特征在于,所述待分词语句共包括N个字,依次为z1至zN,所述初始分词结果共包括M个词,依次为c1至cM,所述初始分词结果中的第i个词ci的最后一个字为zj,所述第i个词ci的候选词包括:cizj+1,cizj+1zj+2,……cizj+1zj+2……zN,其中,M、N、i、j均为大于零的整数,且M≤N,i<M,j<N。4.根据权利要求1所述的中文分词歧义消除方法,其特征在于,所述场景库用于存储与应用场景相关联的词,包括至少一个主题词典。5.根据权利要求1所述的中文分词歧义消除方法,其特征在于,所述构造包含所述分词歧义点的新分词通过以下三种方式的至少其中之一来实现:在所述待分词语句中,将从前方紧邻所述分词歧义点的至少一个字与所述分词歧义点组合,构造所述新分词;在所述待分词语句中,将所述分词歧义点与从后方紧邻所述分词歧义点的至少一个字组合,构造所述新分词;在所述待分词语句中,将从前方紧邻所述分词歧义点的至少一个字、所述分词歧义点、以及从后方紧邻所述分词歧义点的至少一个字组合,构造所述新分词。6.根据权利要求4所述的中文分词歧义消除方法,其特征在于,还包括对所述最大熵模型进行训练。7.根据权利要求6所述的中文分词歧义消除方法,其特征在于,所述对所述最大熵模型进行训练的步骤包括:选择样本数据,对所述样本数据进行正确分词,获得正确的分词结果;构造所述正确的分词结果中的每个分词的特征;使用所述特征,训练所述最大熵模型;其中,所述正确的分词结果包括L个分词,依次为z1至zL,其中第i个分词zi的特征包括:zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。8.根据权利要求7所述的中文分词歧义消除方法,其特征在于,所述对所述最大熵模型进行训练的步骤还包括:常用文本标注,针对所述正确的分词结果中的每个分词,判断其是否存在于所述场景库的主题词典中,将存在于所述场景库的主题词典中的分词标注为常用文本;常用文本替换,针对所述正确的分词结果,将被标注为常用文本的分词替换为其所在的主题词典的名称;模型特征构造,针对经过所述常用文本替换的正确的分词结果中的每个分词,构造所述最大熵模型的特征;其中,经过所述常用文本替换的正确的分词结果包括L个分词,依次为s1至sL,其中第i个分词si的特征包括:si-2,si-1,si+1,si+2,sisi+1,si+1si+2,si-1si,si-2si-1,si-1si+1。9.一种中文分词歧义消除系统,其特征在于,包括:初始分词模块,用于对待分词语句进行分词,获得初始分词结果;分词歧义点提取模块,用于针对...

【专利技术属性】
技术研发人员:柳艳红郭祥郭瑞
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1