一种文本翻译的方法、信息处理的方法以及装置制造方法及图纸

技术编号：20725209 阅读：21 留言：0更新日期：2019-03-30 17:45

本发明专利技术实施例公开了一种信息处理的方法，包括：获取待处理文本信息所对应的目标文本序列，目标文本序列中包括多个元素；根据目标文本序列获取上下文向量；根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量；根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度；采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理，得到文本编码结果。本发明专利技术实施例还提供一种文本翻译的方法及装置。本发明专利技术实施例采用与离散序列相关的上下文向量对该离散序列进行编码，由此，强化离散序列中各个元素之间的依存关系，从而增强神经网络模型的性能，提升模型的学习能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本翻译的方法、信息处理的方法以及装置
本专利技术涉及人工智能领域，尤其一种文本翻译的方法、信息处理的方法以及装置。
技术介绍
注意力机制已经成为大多数深度学习模型中的一个基本模块，它可以动态地按照需求选择网络中的相关表示。研究表明，在机器翻译以及图像注释等任务中，注意力机制作用显著。目前，基于注意力机制现已提出一种自关注神经网络(self-attentionnetwork，SAN)模型，该SAN模型可以对离散序列中的每个元素计算一个注意力权重，为了便于理解，请参阅图1，图1为现有方案中SAN模型对离散序列建模的一个基本架构示意图，如图所示，SAN网络可以直接计算出神经网络中隐藏状态之间的依存关系，每个上层网络表示都会与下层网络表示建立直接连接。请参阅图2，图2为现有方案中SAN模型表示两个词语之间关系的一个示意图，如图所示，使用注意力机制的SAN模型在计算两个词语(如图2中的“talk”与“Sharon”)之间的依存度时，仅考虑到两个词之间的关系，因此，对于离散序列而言，元素在整个离散序列中的网络表示较弱，从而降低了神经网络模型的性能。
技术实现思路
本专利技术实施例提供了一种文本翻译的方法、信息处理的方法以及装置，采用与离散序列相关的上下文向量对该离散序列进行编码，由此，强化离散序列中各个元素之间的依存关系，从而增强神经网络模型的性能，提升模型的学习能力。有鉴于此，本专利技术的第一方面提供了一种文本翻译的方法，包括：获取目标文本信息所对应的目标文本序列，其中，所述目标文本序列中包括多个元素；根据所述目标文本序列获取上下文向量；根据所述上下文向量以及所述...

【技术保护点】
1.一种文本翻译的方法，其特征在于，包括：获取目标文本信息所对应的目标文本序列，其中，所述目标文本序列中包括多个元素；根据所述目标文本序列获取上下文向量；根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量，其中，所述目标请求向量与所述目标文本序列中的元素具有对应关系，所述目标键向量与所述目标文本序列中的元素具有对应关系；根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度；采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理，得到文本编码结果；对所述文本编码结果进行解码处理，以得到所述目标文本信息所对应的文本翻译结果。

【技术特征摘要】
1.一种文本翻译的方法，其特征在于，包括：获取目标文本信息所对应的目标文本序列，其中，所述目标文本序列中包括多个元素；根据所述目标文本序列获取上下文向量；根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量，其中，所述目标请求向量与所述目标文本序列中的元素具有对应关系，所述目标键向量与所述目标文本序列中的元素具有对应关系；根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度；采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理，得到文本编码结果；对所述文本编码结果进行解码处理，以得到所述目标文本信息所对应的文本翻译结果。2.一种信息处理的方法，其特征在于，包括：获取待处理文本信息所对应的目标文本序列，其中，所述目标文本序列中包括多个元素；根据所述目标文本序列获取上下文向量；根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量，其中，所述目标请求向量与所述目标文本序列中的元素具有对应关系，所述目标键向量与所述目标文本序列中的元素具有对应关系；根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度；采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理，得到文本编码结果。3.根据权利要求2所述的方法，其特征在于，所述根据所述目标文本序列获取上下文向量，包括：获取所述目标文本序列中每个元素的向量；根据所述目标文本序列中每个元素的向量计算所述目标文本序列的平均值，其中，所述平均值用于表示所述上下文向量。4.根据权利要求2所述的方法，其特征在于，所述根据所述目标文本序列获取上下文向量，包括：获取所述目标文本序列所对应的L层文本序列，其中，所述L层文本序列为在所述目标文本序列之前生成的网络层，所述L为大于或等于1的整数；根据所述L层文本序列生成所述上下文向量。5.根据权利要求2所述的方法，其特征在于，所述根据所述目标文本序列获取上下文向量，包括：获取所述目标文本序列所对应的L层文本序列，其中，所述L层文本序列为在所述目标文本序列之前生成的网络层，所述L为大于或等于1的整数；根据所述L层文本序列获取L层第一上下文向量，其中，每层第一上下文向量为每层文本序列中元素的平均值；根据所述目标文本序列获取第二上下文向量，其中，所述第二上下文向量为所述目标文本序列中元素的平均值；根据所述L层第一上下文向量以及所述第二上下文向量，计算得到所述上下文向量。6.根据权利要求2至5中任一项所述的方法，其特征在于，所述根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量，包括：根据所述目标文本序列计算原始请求向量、原始键向量以及原始值向量，其中，所述原始值向量用于确定所述目标文本序列所对应的目标输出向量；根据所述上下文向量、所述原始请求向量以及所述原始键向量，计算请求向量标量以及键向量标量；根据所述上下文向量、所述请求向量标量以及所述键向量标量，计算所述目标请求向量以及所述目标键向量。7.根据权利要求6所述的方法，其特征在于，所述根据所述目标文本序列计算原始请求向量、原始键向量以及原始值向量，包括：采用如下方式计算所述原始请求向量、所述原始键向量以及所述原始值向量：其中，所述Q表示所述原始请求向量，所述K表示所述原始键向量，所述V表示所述原始值向量，所述H表示所述目标文本序列，所述WQ表示第一参数矩阵，所述WK表示第二参数矩阵，所述WV表示第三参数矩阵，所述第一参数矩阵、所述第二参数矩阵以及所述第三参数矩阵为预先训练得到的参数矩阵；所述根据所述上下文向量、所述原始请求向量以及所述原始键向量，计算请求向量标量以及键向量标量，包括：采用如下方式计算所述请求向量标量以及所述键向量标量：其中，所述λQ表示所述请求向量标量，所述λK表示所述键向量标量，所述σ(·)表示sigmoid非线性变化，所述C表示所述上下文向量，所述UQ表示第四参数矩阵，所述UK表示第五参数矩阵，所述第四参数矩阵以及所述第五参数矩阵为预先训练得到的参数矩阵，所述表示第一线性变换因子，所述表示第二线性变换因子，所述表示第三线性变换因子，所述表示第四线性变换因子；所述根据所述上下文向量、所述请求向量标量以及所述键向量标量，计算所述目标请求向量以及所述目标键向量，包括：采用如下方式计算所述目标请求向量以及所述目标键向量：其中，所述表示所述目标请求向量，所述表示所述目标键向量。8.根据权利要求2所述的方法，其特征在于，所述根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度，包括：采用如下方式计算所述逻辑相似度：其中，所述e表示所述逻辑相似度，所述表示所述目标请求向量，所述表示所述目标键向量，所述表示所述目标键向量的转置，所述d表示模型隐藏状态向量的维度。9.根据权利要求2所述的方法，其特征在于，所述采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理，得到文本编码结果，包括：根据所述逻辑相似度确定所述目标文本序列所对应的权重值，其中，所述权重...

【专利技术属性】
技术研发人员：涂兆鹏，杨宝嵩，王星，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人