一种基于神经网络推理的中文缺失代词补全方法技术

技术编号:20622801 阅读:49 留言:0更新日期:2019-03-20 14:31
本发明专利技术公开了一种中文缺失代词补全方法,属于信息处理领域,该方法的特征包括:构建输入文本矩阵;循环神经网络形成输入文本语义信息矩阵;构建输入文本上下文文本矩阵;循环神经网络形成句子层面、词语层面两个输入文本上下文语义信息矩阵;利用神经网络推理得到输入文本上下文句子层面各句子重要程度的注意力权重;更新得到上下文句子层面语义信息矩阵;将结果融合输入文本矩阵得到输入文本推理信息矩阵;利用神经网络推理得到输入文本上下文词语层面各句子重要程度的注意力权重;更新得到上下文词语层面语义信息矩阵;融合得到最终输入文本的推理信息矩阵;通过多层感知器得到各词语的缺失代词概率分布;预测输入文本各词语缺失代词类型。

A Chinese missing pronoun completion method based on neural network reasoning

The invention discloses a Chinese missing pronoun completion method, which belongs to the field of information processing. The characteristics of the method include: constructing input text matrix; forming input text semantic information matrix by cyclic neural network; constructing input text context text matrix; forming sentence and word input text context semantic information matrix by cyclic neural network; and utilizing nerve network. Network reasoning obtains the attention weight of each sentence at the sentence level of the input text context; updates the semantic information matrix at the sentence level of the context; fuses the results into the input text matrix to get the information matrix of the input text reasoning; uses the neural network reasoning to get the attention weight of each sentence at the word level of the input text context context; updates the context words to get the attention weight of each sentence at the word level of the input text context. Semantic information matrix at language level; inferential information matrix of final input text by fusion; probability distribution of missing pronouns of each word by multi-layer perceptron; prediction of missing pronoun types of each word in input text.

【技术实现步骤摘要】
一种基于神经网络推理的中文缺失代词补全方法
本专利技术涉及信息处理领域,特别涉及一种基于神经网络推理的中文缺失代词补全方法。
技术介绍
现有技术表明,英文表述中对于明确代词的使用率超过92%,然而在中文中只有64%,这表明了中文是一种倾向于省略代词的语言。代词补全在翻译任务里——即一种倾向于省略代词的语言(如:中文)翻译成为明确代词语言(如:英文)的过程中,可以避免造成严重的语义混淆问题。因此中文的缺失代词补全是一项非常值得研究的任务。传统的缺失代词补全问题利用了特征工程的方法,将语义、语法、先行词等信息作为特征,利用有监督的序列标注模型预测每一个输入文本的词语前缺失代词的类型。然而特征工程的方法十分依赖人工设计的特征,对于每一类特征的依赖程度也随着数据不同而变化,需要专家花销大量人工时间来对特征工程进行构建;同时,传统的特征工程方法没有将上下文的信息完整的考虑,会导致关键信息的缺失和忽视。本专利技术为了解决上述问题,采用了神经网络推理和层级式的注意力机制,通过此结构模拟人脑的推理过程,首先通过注意力模型推理出上下文中关键句子,再通过注意力模型推理上下文关键词,最后将句子层级信息、词本文档来自技高网...

【技术保护点】
1.一种基于神经网络推理的中文缺失代词补全方法,其特征在于,所述方法包含以下结构和步骤:(1)输入文本词语向量化:对输入文本进行映射,将词语转化为相应词向量,输入已分词的输入文本即数值化为各个词语对应词向量连接而成的文本矩阵;(2)循环神经网络形成输入文本语义信息矩阵:对步骤(1)得到的文本矩阵进行处理,利用循环神经网络捕获各个词对应输入文本的语义信息,得到输入文本语义信息矩阵;(3)输入文本上下文词语向量化:对输入文本上下文进行映射,将词语转化为相应词向量,输入已分词的输入文本上下文即数值化为各个词语对应词向量连接而成的上下文文本矩阵;(4)循环神经网络形成输入文本上下文背景语义信息矩阵:对...

【技术特征摘要】
1.一种基于神经网络推理的中文缺失代词补全方法,其特征在于,所述方法包含以下结构和步骤:(1)输入文本词语向量化:对输入文本进行映射,将词语转化为相应词向量,输入已分词的输入文本即数值化为各个词语对应词向量连接而成的文本矩阵;(2)循环神经网络形成输入文本语义信息矩阵:对步骤(1)得到的文本矩阵进行处理,利用循环神经网络捕获各个词对应输入文本的语义信息,得到输入文本语义信息矩阵;(3)输入文本上下文词语向量化:对输入文本上下文进行映射,将词语转化为相应词向量,输入已分词的输入文本上下文即数值化为各个词语对应词向量连接而成的上下文文本矩阵;(4)循环神经网络形成输入文本上下文背景语义信息矩阵:对步骤(3)得到的上下文文本矩阵进行处理,利用循环神经网络捕获各个词对应输入文本上下文的语义信息,此语义信息包含两部分:①输入文本上下文句子层面语义信息矩阵;②输入文本上下文词语层面语义信息矩阵;(5)基于神经网络推理得到输入文本上下文句子层面各句子重要程度的注意力权重:对步骤(2)得到的输入文本矩阵和步骤(4)①得到的输入文本上下文句子层面语义信息矩阵进行处理,利用神经网络推理,得到输入文本上下文句子层面各句子重要程度的注意力权重;(6)输入文本上下文句子层面语义信息更新:对步骤(4)①得到的输入文本上下文句子层面语义信息矩阵利用步骤(5)得到的句子层面注意力权重进行处理,得到更新后的上下文句子层面语义信息矩阵;(7)基于前向神经网络的推理信息融合:对步骤(2)得到加入语义信息的输入文本矩阵和步骤(6)得到的输入文本上下文句子层面语义信息矩阵进行处理,利用前向神经网络,得到融合后的输入文本推理信息矩阵;(8)基于神经网络推理得到输入文本上下文词语层面各词语重要程度的注意力权重:对步骤(7)得到的输入文本推理信息矩阵和步骤(4)②得到的输入文本上下文词语层面语义信息矩阵进行处理,利用神经网络推理,得到输入文本上下文词语层面各词语重要程度的注意力权重;(9)输入文本上下文词语层面语义信息更新:对步骤(4)②得到的输入文本上下文词语层面语义信息矩阵利用步骤(8)得到的词语层面注意力权重进行处理,得到更新后的上下文词语层面语义信息矩阵;(10)基于前向神经网络的推理信息二次融合:对步骤(2)得到加的入语义信息的输入文本矩阵、步骤(6)得到的输入文本上下文句子层面语义信息矩阵和步骤(9)得到的输入文本上下文词语层面语义信息矩阵进行处理,利用前向神经网络,得到最终融合后的输入文本的推理信息矩阵;(11)多层感知器得到输入文本各词语缺失代词的概率分布:对步骤(10)得到的输入文本推理信息矩阵各个词向量对应的特征表示进行处理,利用多层感知机,得到输入文本各词语的缺失代词的概率分布;(12)使用概率分布预测输入文本各词语缺失代词类型:对步骤(11)得到的各词语的缺失代词的概率分布进行处理,在整体输入文本层面对各个词语的概率分布进行预测,得到输入文本各词语缺失代词类型。2.如权利要求1所述的方法,其特征在于,所属步骤(1)具体包括:(1.1)初始化词语到词向量编号的映射索引及词向量矩阵;(1.2)通过索引将词语映射为相应词向量编号;(1.3)通过各个输入文本词语对应的词语编号取得词向量矩阵中对应的词向量;(1.4)将取得的词向量进行连接,得到各个词语的词向量连接而成的输入文本矩阵。3.如权利要求1所述的方法,其特征在于,所属步骤(2)具体包括:(2.1)初始化循环神经网络参数;(2.2)将步骤(1)得到的输入文本矩阵通过循环神经网络进行处理,得到关于各个词向量相关的文本语义信息矩阵。4.如权利要求1所述的方法,其特征在于,所属步骤(2)循环神经网络为双向长短期记忆网络。5.如权利要求1所述的方法,其特征在于,所属步骤(3)具体包括:(3.1)初始化词语到词向量编号的映射索引及词向量矩阵;(3.2)通过...

【专利技术属性】
技术研发人员:杨婧璇李思佟见卓高升徐雅静
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1