【技术实现步骤摘要】
一种基于强化学习的指代消解方法
本专利技术涉及自然语言处理领域,更具体地,是一种基于强化学习的指代消解方法。
技术介绍
指代是自然语言普遍存在的一种表达方式,人们为了避免重复,习惯用代词、称谓和缩略语等来指代前面提到的实体,这使得语言简洁连贯。然而大量的指代增加了自然语言处理的难度,指代消解就是识别文本中同一实体的不同的表达式的任务。对信息抽取、自动文摘、自动问答、机器翻译、以及机器阅读理解等自然语言处理应用都有极为重要的基础支撑作用。指代消解的方法主要有以下几种:基于启发式语言学规则的消解方法:由于缺少标准的语料资源,早期的指代消解系统采用的是基于启发性规则的消解方法,这些方法由人工制定的规则集合所组成,系统根据这些规则判断实体表达间是否存在指代关系。通过句法层面的语句分析再结合大量的语言学知识生成启发式规则应用于指代消解的任务中。基于启发式规则的方法是人对自然语言现象的经验性总结,需要大量的人工设计和标注。它的缺点是普适性和移植性差,很难找到一个普适的规则库覆盖所有的指代消解情况。基于统计模型的方法:随着自然语言处理技术的发展和大规模语料库的不断出现,一些基于 ...
【技术保护点】
1.一种基于强化学习的指代消解方法,其特征在于:包括如下步骤:S1、预处理;包括分词、分句、词性标注、词形还原、命名实体识别、句法解析;词向量转换和指代特征抽取;输入层将候选先行词词向量和相关特征、指代词词向量和相关特征以及其他相关特征做向量拼接处理产生一个i维向量h0作为神经网络模型的输入;S2、构建神经网络模型,对候选先行词和对应的指代词进行打分排序,得到指代链;S3、通过改进的强化学习方法对模型进行训练;针对启发式损失函数的不足,采用奖励衡量的机制来进行深度学习训练,将启发式损失函数的代价参数Δh进行改进,用当前决策序列下,改动某一个决策所带来的奖励的下降来作为惩罚系 ...
【技术特征摘要】
1.一种基于强化学习的指代消解方法,其特征在于:包括如下步骤:S1、预处理;包括分词、分句、词性标注、词形还原、命名实体识别、句法解析;词向量转换和指代特征抽取;输入层将候选先行词词向量和相关特征、指代词词向量和相关特征以及其他相关特征做向量拼接处理产生一个i维向量h0作为神经网络模型的输入;S2、构建神经网络模型,对候选先行词和对应的指代词进行打分排序,得到指代链;S3、通过改进的强化学习方法对模型进行训练;针对启发式损失函数的不足,采用奖励衡量的机制来进行深度学习训练,将启发式损失函数的代价参数Δh进行改进,用当前决策序列下,改动某一个决策所带来的奖励的下降来作为惩罚系数;S4、使用训练好的模型进行指代消解,输入文本数据,输出消解链。2.根据权利要求1所述的一种基于强化学习的指代消解方法,其特征在于:步骤S1所述的词向量转换和指代特征抽取,具体包括:候选先行词和指代词词向量特征:对候选先行词和指代词进行词向量转换,包括候选先行词和指代词的中心词,指代的前两个单词和指代的后两个单词;对候选先行词和指代词的前5个单词,后5个单词分别求平均词向量;额外的指代特征:包括候选先行词和指代词的词性,候选先行词和指代词所处文本序列中的位置以及候选先行词和指代词的长度;文档类型特征:文本文档的类型;独热编码转换:将上述几种特征进行独热编码转换;距离特征:为了方便处理所有距离特征和长度特征,将其分为[0,1,2,3,4,5-7,8-15,16-31,32-63,64+]几类,并通过独热编码进行转换。3.根据权利要求1所述的一种...
【专利技术属性】
技术研发人员:赵忠华,李舟军,赵志云,杨泽,赵硕,王禄恒,付培国,孙利远,万欣欣,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。