中文分词歧义消除方法和系统技术方案

技术编号：14198532 阅读：47 留言：0更新日期：2016-12-15 20:13

本发明专利技术实施例提供一种中文分词歧义消除方法和系统，所述方法包括：对待分词语句进行分词，获得初始分词结果；针对初始分词结果，提取分词歧义点；构造包含分词歧义点的新分词，并计算新分词的最大熵模型得分；根据新分词的最大熵模型得分，判断新分词是否为有效分词；用有效分词修正初始分词结果。本发明专利技术实施例克服了现有技术中需要大量训练语料数据和歧义语料库的缺点，分词效果达到实用的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，特别涉及一种中文分词歧义消除方法和系统。
技术介绍
中文分词是中文分析及计算机处理中的一大难点，其中，中文分词歧义消除问题一直是中文分词中备受关注的难点和热点问题。目前，常用的中文分词歧义消除方法有ngram模型法、动词优先法、信息熵法、中文歧义词库法等。这些方法都在不同程度上解决了分词歧义问题，但是还没有一种适用于各种场景的分词方法，能够在各种场合下有效消除中文分词歧义。以现有的CAS(compare-and-swap)技术为例，其只考虑了儿童闲聊场景的分词歧义问题，效果已经能够达到实用，但是对于其他场景的分词歧义问题，实现效果并不是很好。此外，现有的一些中文分词歧义消除方法通常需要大量的训练语料，建立超大歧义词字典。这些过程需要投入很大的人力和时间，进行人工标注，否则精度将不能达到实用要求。一般人工智能机构很难在短时间内获取这些训练语料和歧义词典，即便是获取到了，在分词算法的实时计算上又提出了更高的要求。这对于人工智能进一步应用到实用场景是一个瓶颈。
技术实现思路
本专利技术的目的是提供一种中文分词歧义消除方法，用以解决现有算法需要大量训练语料和歧义词库的问题，以及伴随而来的算法的实时性问题。相应的，本专利技术实施例还提供一种中文分词歧义消除系统，用以保证上述方法的实现及应用。为了解决上述问题，本专利技术实施例公开了一种中文分词歧义消除方法，包括：对待分词语句进行分词，获得初始分词结果；针对所述初始分词结果，提取分词歧义点；构造包含所述分词歧义点的新分词，并计算所述新分词的最大熵模型得分；根据所述新分词的最大熵模型得分，判...
中文分词歧义消除方法和系统

【技术保护点】
一种中文分词歧义消除方法，其特征在于，包括：对待分词语句进行分词，获得初始分词结果；针对所述初始分词结果，提取分词歧义点；构造包含所述分词歧义点的新分词，并计算所述新分词的最大熵模型得分；根据所述新分词的最大熵模型得分，判断所述新分词是否为有效分词；用所述有效分词修正所述初始分词结果。

【技术特征摘要】
1.一种中文分词歧义消除方法，其特征在于，包括：对待分词语句进行分词，获得初始分词结果；针对所述初始分词结果，提取分词歧义点；构造包含所述分词歧义点的新分词，并计算所述新分词的最大熵模型得分；根据所述新分词的最大熵模型得分，判断所述新分词是否为有效分词；用所述有效分词修正所述初始分词结果。2.根据权利要求1所述的中文分词歧义消除方法，其特征在于，所述提取分词歧义点的步骤包括：针对所述初始分词结果中的每个词构造候选词；在场景库中进行搜索，确定所述候选词是否存在于所述场景库中；提取存在于所述场景库中的候选词的第一个字或最后一个字作为分词歧义点。3.根据权利要求2所述的中文分词歧义消除方法，其特征在于，所述待分词语句共包括N个字，依次为z1至zN，所述初始分词结果共包括M个词，依次为c1至cM，所述初始分词结果中的第i个词ci的最后一个字为zj，所述第i个词ci的候选词包括：cizj+1，cizj+1zj+2，……cizj+1zj+2……zN，其中，M、N、i、j均为大于零的整数，且M≤N，i<M，j<N。4.根据权利要求1所述的中文分词歧义消除方法，其特征在于，所述场景库用于存储与应用场景相关联的词，包括至少一个主题词典。5.根据权利要求1所述的中文分词歧义消除方法，其特征在于，所述构造包含所述分词歧义点的新分词通过以下三种方式的至少其中之一来实现：在所述待分词语句中，将从前方紧邻所述分词歧义点的至少一个字与所述分词歧义点组合，构造所述新分词；在所述待分词语句中，将所述分词歧义点与从后方紧邻所述分词歧义点的至少一个字组合，构造所述新分词；在所述待分词语句中，将从前方紧邻所述分词歧义点的至少一个字、所述分词歧义点、以及从后方紧邻所述分词歧义点的至少一个字组合，构造所述新分词。6.根据权利要求4所述的中文分词歧义消除方法，其特征在于，还包括对所述最大熵模型进行训练。7.根据权利要求6所述的中文分词歧义消除方法，其特征在于，所述对所述最大熵模型进行训练的步骤包括：选择样本数据，对所述样本数据进行正确分词，获得正确的分词结果；构造所述正确的分词结果中的每个分词的特征；使用所述特征，训练所述最大熵模型；其中，所述正确的分词结果包括L个分词，依次为z1至zL，其中第i个分词zi的特征包括：zi-2，zi-1，zi+1，zi+2，zizi+1,zi+1zi+2，zi-1zi，zi-2zi-1，zi-1zi+1。8.根据权利要求7所述的中文分词歧义消除方法，其特征在于，所述对所述最大熵模型进行训练的步骤还包括：常用文本标注，针对所述正确的分词结果中的每个分词，判断其是否存在于所述场景库的主题词典中，将存在于所述场景库的主题词典中的分词标注为常用文本；常用文本替换，针对所述正确的分词结果，将被标注为常用文本的分词替换为其所在的主题词典的名称；模型特征构造，针对经过所述常用文本替换的正确的分词结果中的每个分词，构造所述最大熵模型的特征；其中，经过所述常用文本替换的正确的分词结果包括L个分词，依次为s1至sL，其中第i个分词si的特征包括：si-2，si-1，si+1，si+2，sisi+1,si+1si+2，si-1si，si-2si-1，si-1si+1。9.一种中文分词歧义消除系统，其特征在于，包括：初始分词模块，用于对待分词语句进行分词，获得初始分词结果；分词歧义点提取模块，用于针对...

【专利技术属性】
技术研发人员：柳艳红，郭祥，郭瑞，
申请(专利权)人：北京智能管家科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人