一种中文零代词消解方法及系统技术方案

技术编号：20045312 阅读：27 留言：0更新日期：2019-01-09 04:17

本发明专利技术公开了一种中文零代词消解方法及系统，所述方法包括：通过对目标语料进行预处理，获取零代词标记；对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；根据所有目标零代词及候选先行语获得表述对集合；获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；根据排序结果得到对应的零代词消解结果。本发明专利技术利用结合句法分析的预设优化规则，实现零代词的准确识别，通过使用深度学习的方法，使得零代词消解得以完成。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文零代词消解方法及系统
本专利技术涉及数据处理
，尤其涉及一种中文零代词消解方法及系统。
技术介绍
零代词消解是代词消解中针对零指代现象的一类特殊的消解，广泛存在于自然语言文本中，尤其是在中文中。在篇章中，用户能够根据上下文关系推断出的部分可以省略，该省略的部分在句子中一般承担相应的句法成分，并且回指前文中的某个语言学单位，用零代词表示。零代词消解就是恢复零代词指代前文语言学单位的过程，有时也被称为省略恢复。零代词消解与显性代词消解相比，最大的问题在于缺少显性的代词表示，因此比显性代词消解更具难度和挑战。零代词消解一般划分成识别和消解两个子任务。识别子任务目的是识别出省略句中零代词存在的位置，消解子任务是为识别的零代词选择先行语。目前，许多工作都是围绕消解子任务展开的。现有的零代词识别的准确率还很低，因此研究零代词消解问题时一般采用标准零代词识别。零代词识别和消解算法往往依赖于句法分析，自动句法分析的准确率并不高，由此也导致零代词识别和消解的准确率很难达到应用的标准。
技术实现思路
为了解决上述技术问题，本专利技术提出了一种中文零代词消解方法及系统。本专利技术是以如下技术方案实现的：第一方面提供了一种中文零代词消解方法，包括：通过对目标语料进行预处理，获取候选零代词标记；对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；根据所有目标零代词及候选先行语获得表述对集合；获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；根据排序结果得到对应的零代词消解结果。进一步地，所述通过对目标语料进行预处...

【技术保护点】
1.一种中文零代词消解方法，其特征在于，包括：通过对目标语料进行预处理，获取候选零代词标记；对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；根据所有目标零代词及候选先行语获得表述对集合；获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；根据排序结果得到对应的零代词消解结果。

【技术特征摘要】
2017.08.30 CN 20171076544481.一种中文零代词消解方法，其特征在于，包括：通过对目标语料进行预处理，获取候选零代词标记；对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；根据所有目标零代词及候选先行语获得表述对集合；获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；根据排序结果得到对应的零代词消解结果。2.根据权利要求1所述的消解方法，其特征在于，所述通过对目标语料进行预处理，获取候选零代词标记，包括：根据数据集划分方法将目标数据集进行划分，得到零代词在训练集、测试集、验证集上的标记。3.根据权利要求1所述的消解方法，其特征在于，所述对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；包括：将候选零代词上下文的词向量作为输入，利用双向循环神经网络获得上下文语义特征；将上下文语义特征输入logistic层，得到目标语料候选零代词指代关系的概率；结合预设优化规则对指代关系概率进行优化，得到概率优化结果；根据概率优化结果获得目标零代词。4.根据权利要求1所述的消解方法，其特征在于，所述根据所有目标零代词及候选先行语获得表述对集合；包括：根据上下文分析识别出候选先行语；根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合；所有的目标零代词具有对应的目标零代词集合；将目标零代词集合与候选先行语集合做笛卡尔积运算，构建出表述对集合；根据句法分析特征和词向量特征，结合长短期记忆网络模型，提取出表述对特征；所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。5.根据权利要求4所述的消解方法，其特征在于，所述句法分析特征包括短语结构句法分析特征和依存句法分析特征；所述短语结构句法分析特征包括候选先行语和零代词的距离特征，以及在语法树上的位置关系；所述依存句法分析特征包括零代词与候选先行语的关系特征；所述词向量特征包括本身词向量特征和上下文词向量特征；所述本身词向量特征为构成先行语的词语的词向量特征；所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。6.一种中文零代词消解系统，其特征在于，包括：预处理...

【专利技术属性】
技术研发人员：刘秉权，孙承杰，栾克鑫，游世学，杜新凯，
申请(专利权)人：哈尔滨工业大学，北京中科汇联科技股份有限公司，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人