一种中文零代词消解方法及系统技术方案

技术编号:20045312 阅读:27 留言:0更新日期:2019-01-09 04:17
本发明专利技术公开了一种中文零代词消解方法及系统,所述方法包括:通过对目标语料进行预处理,获取零代词标记;对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;根据所有目标零代词及候选先行语获得表述对集合;获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;根据排序结果得到对应的零代词消解结果。本发明专利技术利用结合句法分析的预设优化规则,实现零代词的准确识别,通过使用深度学习的方法,使得零代词消解得以完成。

【技术实现步骤摘要】
一种中文零代词消解方法及系统
本专利技术涉及数据处理
,尤其涉及一种中文零代词消解方法及系统。
技术介绍
零代词消解是代词消解中针对零指代现象的一类特殊的消解,广泛存在于自然语言文本中,尤其是在中文中。在篇章中,用户能够根据上下文关系推断出的部分可以省略,该省略的部分在句子中一般承担相应的句法成分,并且回指前文中的某个语言学单位,用零代词表示。零代词消解就是恢复零代词指代前文语言学单位的过程,有时也被称为省略恢复。零代词消解与显性代词消解相比,最大的问题在于缺少显性的代词表示,因此比显性代词消解更具难度和挑战。零代词消解一般划分成识别和消解两个子任务。识别子任务目的是识别出省略句中零代词存在的位置,消解子任务是为识别的零代词选择先行语。目前,许多工作都是围绕消解子任务展开的。现有的零代词识别的准确率还很低,因此研究零代词消解问题时一般采用标准零代词识别。零代词识别和消解算法往往依赖于句法分析,自动句法分析的准确率并不高,由此也导致零代词识别和消解的准确率很难达到应用的标准。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种中文零代词消解方法及系统。本专利技术是以如下技术方案实现的:第一方面提供了一种中文零代词消解方法,包括:通过对目标语料进行预处理,获取候选零代词标记;对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;根据所有目标零代词及候选先行语获得表述对集合;获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;根据排序结果得到对应的零代词消解结果。进一步地,所述通过对目标语料进行预处理,获取候选零代词标记,包括:根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。进一步地,所述对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;包括:将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;将上下文语义特征输入logistic层,得到目标语料候选零代词指代关系的概率;结合预设优化规则对指代关系概率进行优化,得到概率优化结果;根据概率优化结果获得目标零代词。进一步地,所述根据所有目标零代词及候选先行语获得表述对集合;包括:根据上下文分析识别出候选先行语;根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;根据句法分析特征和词向量特征,结合长短期记忆网络LSTMa和LSTMb,提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。优选地,所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;所述词向量特征包括本身词向量特征和上下文词向量特征;所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。第二方面提供了一种中文零代词消解系统,包括:预处理模块,用于通过对目标语料进行预处理,获取候选零代词标记;零代词识别模块,用于对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;表述对集合获取模块,用于根据所有目标零代词及候选先行语获得表述对集合;指代关系概率获取模块,用于获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;零代词消解模块,用于根据排序结果得到对应的零代词消解结果。进一步地,所述预处理模块包括:零代词标记单元,用于根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。进一步地,所述零代词识别模块包括:上下文语义特征获取单元,用于将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;指代词识别单元,用于将上下文语义特征输入logistic层,得到目标语料候选零代词指代词的概率;概率优化结果获取单元,用于结合预设优化规则对指代关系概率进行优化,得到概率优化结果;目标零代词获取单元,用于根据概率优化结果获得目标零代词。进一步地,所述表述对集合获取模块包括:候选先行语识别单元,用于根据上下文分析识别出候选先行语;对应集合获取单元,用于根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;表述对集合构建单元,用于将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;表述对特征提取单元,用于根据句法分析特征和词向量特征,结合长短期记忆网络LSTMa和LSTMb,提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。优选地,所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;所述词向量特征包括本身词向量特征和上下文词向量特征;所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。本专利技术根据目标零代词及候选先行语获得表述对集合;进一步获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;然后根据排序结果得到对应的零代词消解结果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是实施例一提供的中文零代词消解方法流程图;图2是实施例一提供的所述对候选零代词进行位置识别,位置识别的结果结合预设优化规则,得到目标零代词的流程图;图3是实施例一提供的所述根据所有目标零代词及候选先行语获得表述对集合的的流程图;图4是零代词消解模型示意图;图5是实施例一提供的中文零代词消解系统框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例一:本实施例提供了一种中文零代词消解方法,其中,所述零代词消解其实包含了零代词识别和零代词消解两个过程;如图1所示,包括:S101.通过对目标语料进行预处理,获取候选零代词标记;进一本文档来自技高网
...

【技术保护点】
1.一种中文零代词消解方法,其特征在于,包括:通过对目标语料进行预处理,获取候选零代词标记;对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;根据所有目标零代词及候选先行语获得表述对集合;获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;根据排序结果得到对应的零代词消解结果。

【技术特征摘要】
2017.08.30 CN 20171076544481.一种中文零代词消解方法,其特征在于,包括:通过对目标语料进行预处理,获取候选零代词标记;对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;根据所有目标零代词及候选先行语获得表述对集合;获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;根据排序结果得到对应的零代词消解结果。2.根据权利要求1所述的消解方法,其特征在于,所述通过对目标语料进行预处理,获取候选零代词标记,包括:根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。3.根据权利要求1所述的消解方法,其特征在于,所述对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;包括:将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;将上下文语义特征输入logistic层,得到目标语料候选零代词指代关系的概率;结合预设优化规则对指代关系概率进行优化,得到概率优化结果;根据概率优化结果获得目标零代词。4.根据权利要求1所述的消解方法,其特征在于,所述根据所有目标零代词及候选先行语获得表述对集合;包括:根据上下文分析识别出候选先行语;根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;根据句法分析特征和词向量特征,结合长短期记忆网络模型,提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。5.根据权利要求4所述的消解方法,其特征在于,所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;所述词向量特征包括本身词向量特征和上下文词向量特征;所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。6.一种中文零代词消解系统,其特征在于,包括:预处理...

【专利技术属性】
技术研发人员:刘秉权孙承杰栾克鑫游世学杜新凯
申请(专利权)人:哈尔滨工业大学北京中科汇联科技股份有限公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1