一种基于常识和推理的中文缺失代词补全方法技术

技术编号:21060339 阅读:34 留言:0更新日期:2019-05-08 07:03
本发明专利技术公开了一种中文缺失代词补全方法,属于信息处理领域,该方法的特征包括:构建输入文本以及上下文文本矩阵;循环神经网络分别形成输入文本语义信息矩阵和输入文本上下文句子层面、词语层面语义背景矩阵;基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重;更新得到上下文句子层面语义信息矩阵;将结果融合输入文本矩阵;利用语义相似度得到输入文本上下文词语层面各句子重要程度的注意力权重;结合外部知识库更新词语注意力权重;结合句子注意力权重更新得到上下文语义信息矩阵;融合输入文本信息得到最终输入文本的推理信息矩阵;通过多层感知器得到层级式各词语的缺失代词概率分布;预测输入文本各词语缺失代词类型。

A Chinese missing pronoun completion method based on common sense and inference

【技术实现步骤摘要】
一种基于常识和推理的中文缺失代词补全方法
本专利技术涉及信息处理领域,特别涉及一种基于常识和语义推理的中文缺失代词补全方法。
技术介绍
现有研究表明,中文是一种倾向于省略代词的语言,在中文中使用明确主题词的概率只有64%,省略代词的类型会根据不同语言环境而发生变化。在正式的中文表述比如新闻、杂志语料中,省略的代词常常为第三人称,而在非正式口语表述语料中,省略代词的类型除了第三人称,还包括一、二人称。中文对话的过程中,交流者可以在上下文语义背景环境中理解代词指示,从而省略代词以防止重复的表述;然而在英文表述中,每一个主题词都应该通过其代词或者确定先行词进行明确表达,中文省略代词在跨语言交流的过程中往往会导致模糊以及歧义。因此中文缺失代词补全任务非常值得研究。在传统中文缺失代词补全任务中,常常利用特征工程的方法。特征工程从三个不同的角度提取数据中存在的特点——词汇特征、结构特征和句法特征。词汇特征主要包含词本身的含义、词性的连接和n-gram信息等;结构的特征包括对话人的信息、标点的信息等;句法特征主要包含句法树的结构、节点关系等信息。在提取特征的过程中,需要专家花销大量人工时间来对特征本文档来自技高网...

【技术保护点】
1.一种基于常识和语义推理的中文缺失代词补全方法,其特征在于,所述方法包含以下结构和步骤:(1)向量化输入文本:对输入文本词语进行映射,将词语转化为相应词向量,输入已分词的输入文本即数值化为各个词语对应词向量连接而成的文本矩阵;(2)循环神经网络形成输入文本语义矩阵:对步骤(1)得到的文本矩阵进行处理,利用循环神经网络编码各个词对应输入文本的语义信息,得到输入文本语义矩阵;(3)向量化输入文本上下文:对输入文本上下文词语进行映射,将词语转化为相应词向量,输入已分词的输入文本上下文即数值化为各个词语对应词向量连接而成的上下文文本矩阵;(4)循环神经网络形成输入文本上下文背景语义矩阵:对步骤(3)...

【技术特征摘要】
1.一种基于常识和语义推理的中文缺失代词补全方法,其特征在于,所述方法包含以下结构和步骤:(1)向量化输入文本:对输入文本词语进行映射,将词语转化为相应词向量,输入已分词的输入文本即数值化为各个词语对应词向量连接而成的文本矩阵;(2)循环神经网络形成输入文本语义矩阵:对步骤(1)得到的文本矩阵进行处理,利用循环神经网络编码各个词对应输入文本的语义信息,得到输入文本语义矩阵;(3)向量化输入文本上下文:对输入文本上下文词语进行映射,将词语转化为相应词向量,输入已分词的输入文本上下文即数值化为各个词语对应词向量连接而成的上下文文本矩阵;(4)循环神经网络形成输入文本上下文背景语义矩阵:对步骤(3)得到的上下文文本矩阵进行处理,利用循环神经网络编码各个词对应输入文本上下文的语义信息,此语义信息两个分支得到不同的背景语义矩阵:①输入文本上下文句子层面背景语义矩阵;②输入文本上下文词语层面背景语义矩阵;(5)基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重:对步骤(2)得到的输入文本矩阵和步骤(4)①得到的输入文本上下文句子层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文句子层面各句子重要程度的注意力权重;(6)基于注意力机制更新得到输入文本上下文句子层面语义信息矩阵:对步骤(4)①得到的输入文本上下文句子层面语义信息矩阵利用步骤(5)得到的句子层面注意力权重进行处理,通过注意力机制,得到更新后的上下文句子层面语义信息矩阵;(7)基于前向神经网络得到输入文本与上下文句子层面信息融合矩阵:对步骤(2)得到加入语义信息的输入文本矩阵和步骤(6)得到的输入文本上下文句子层面语义信息矩阵进行处理,利用前向神经网络,得到融合后的输入文本信息矩阵;(8)基于语义相似度得到输入文本上下文词语层面各词语重要程度的注意力权重:对步骤(7)得到的融合后输入文本信息矩阵和步骤(4)②得到的输入文本上下文词语层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文词语层面各词语重要程度的注意力权重;(9)向量化从常识知识库中抽取的关键名词:从常识知识库中提取缺失代词附近常出现的名词,对名词排序抽取关键词,将关键词通过映射转化为相应词向量,连接得到关键名词矩阵;(10)基于常识知识库得到输入文本上下文词常识关键名词位置信息矩阵:将步骤(9)得到的关键名词词向量矩阵与步骤(3)得到输入文本上下文词向量矩阵进行处理,得到输入文本上下文常识关键名词位置信息矩阵;(11)基于注意力机制和常识关键词更新得到输入文本上下文词语层面语义信息矩阵:对步骤(8)得到的输入文本上下文词语层面各词语重要程度的注意力权重与步骤(10)得到的输入文本上下文词常识关键名词位置信息矩阵进行处理,得到更新后输入文本上下文词语层面各词语重要程度的权重,再将更新后的权重与步骤(4)②得到的输入文本上下文词语层面语义信息矩阵处理,得到更新的输入文本上下文词语层面语义信息矩阵;(12)基于点乘得到最终输入文本上下文信息矩阵:对步骤(5)得到的输入文本上下文句子层面各句子重要程度的注意力权重和步骤(11)得到的上下文词语层面语义信息矩阵进行处理,得到最终输入文本上下文信息矩阵;(13)基于前向神经网络得到输入文本与上下文信息融合推理矩阵:对步骤(2)得到加的入语义信息的输入文本矩阵和步骤(12)得到的输入文本上下文词语层面语义信息矩阵进行处理,利用前向神经网络,得到最终融合后的输入文本信息矩阵;(14)多层感知器得到层级式输入文本各词语缺失代词的概率分布:对步骤(13)得到的输入文本信息矩阵各个词向量对应的特征表示进行处理,利用多层感知机和层级式的分类标签,得到最终输入文本各词语缺失代词的概率分布;(15)使用概率分布预测输入文本各词语缺失代词类型:对步骤(15)得到的各词语的缺失代词的概率分布进行处理,在整体输入文本层面对各个词语的概率分布进行预测,得到输入文本各词语缺失代词类型。2.如权利要求1所述的方法,其特征在于,所属步骤(1)具体包括:(1.1)初始化词语到词向量编号的映射索引及词向量矩阵;(1.2)通过索引将词语映射为相应词向量编号;(1.3)通过各个输入文本词语对应的词语编号取得词向量矩阵中对应的词向量;(1.4)将取得的词向量进行连接,得到各个词语的词向量连接而成的输入文本矩阵。3.如权利要求1所述的方法,其特征在于,所属步骤(2)具体包括:(2.1)初始化循环神经网络参数;(2.2)将步骤(1)得到的输入文本矩阵通过循环神经网络进行处理,得到关于各个词向量相关的输入文本语义矩阵。4.如权利要求1所述的方法,其特征在于,所属步骤(2)循环神经网络为双向长短期记忆网络。5.如权利要求1所述的方法,其特征在于,所属步骤(3)具体包括:(3.1)初始化词语到词向量编号的映射索引及词向量矩阵;(3.2)通过索引将词语映射为相应词向量编号;(3.3)通过各个输入文本上下文词语对应的词语编号取得词向量矩阵中对应的词向量;(3.4)将取得的词向量进行连接,得到各个词语的词向量连接而成的输入文本上下文矩阵。6.如权利要求1所述的方法,其特征在于,所属步骤(3)输入文本上下文包含输入文本的前五个句子与后两个句子,共七句话。7.如权利要求1所述的方法,其特征在于,所属步骤(4)具体包括(4.1)初始化循环神经网络参数;(4.2)将步骤(4)得到的输入文本矩阵通过循环神经网络进行处理,得到关于各个词向量相关的文本语义信息;(4.3)取循环神经网络在上下文句子层面隐藏层最后一个状态的...

【专利技术属性】
技术研发人员:佟见卓李思高升杨婧璇徐雅静
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1