自然语言处理的方法和产品技术

技术编号：31583350 阅读：17 留言：0更新日期：2021-12-25 11:27

本公开的实施例涉及自然语言处理的方法和产品。在该方法中，包括：基于第一语言的语料的表示，生成第一语义编码向量；基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量。该方法还包括：通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量。该方法还包括：基于混合语义向量，生成第二语言的语料的混合表示。本公开的实施例还涉及一种训练自然语言模型的方法、装置。通过使用这种方法，有效地提高了不同语言之间的转换的准确性，降低了语义学习的成本，从而既使得下游任务的执行结果更准确，也降低了计算资源的开销。开销。开销。

全部详细技术资料下载

【技术实现步骤摘要】
自然语言处理的方法和产品

[0001]本公开的各实施例涉及自然语言处理
，更具体地，涉及不同语言的语义转换的方法、装置、设备、介质和程序产品。

技术介绍

[0002]一些经过预训练的自然语言模型可以处理跨不同语言的语料之间的转换任务。但是，源语言和目标语言都需要是常见的语言，并且目标语言的语料依然会丢失语义信息。特别是当两种语言是跨语系的语言时，这种丢失语义信息的情况会非常明显，甚至影响到下游任务的继续执行。而且，当没有足够多的预先标注的语料作为样本数据时，根本不可能训练出对应的自然语言模型。
[0003]为了提升自然语言模型的准确性，可以使用更多的预先标注的语料来训练模型。但是，获取预先标注的语料的成本通常较高。而且，更多的训练数据也使模型变得复杂，带来的计算资源的开销也很大。类似问题也存在于其他需要执行跨语言转换任务的模型中。

技术实现思路

[0004]本公开的实施例提供了一种自然语言处理的方法、装置、设备、介质和程序产品。
[0005]在本公开的第一方面中，提供了一种用于自然语言处理的方法。该方法包括：基于第一语言的语料的表示，生成第一语义编码向量；基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量；以及基于混合语义向量，生成第二语言的语料的混合表示。
[0006]在本公开的第二方面中，提供了一种用于训练自然语言处理模型的方法。该方法包括：获取样本数据，样本数据包括第一语言的语料的表示以及第二...

【技术保护点】

【技术特征摘要】
1.一种用于自然语言处理的方法，包括：基于第一语言的语料的表示，生成第一语义编码向量；基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；通过混合所述第一语义编码向量和所述第二语义编码向量，生成混合语义向量；以及基于所述混合语义向量，生成所述第二语言的语料的混合表示。2.根据权利要求1所述的方法，其中生成所述第二语言的混合表示包括：基于所述第一语义编码向量和所述第二语义编码向量的混合比例，混合所述第一语义编码向量和所述第二语义编码向量，其中所述第一语义编码向量和所述第二语义编码向量具有相关联的语义。3.根据权利要求2所述的方法，还包括：基于所述第一语义编码向量和所述第二语义编码向量，确定与所述第一语言的语料和所述第二语言的语料之间的语义重要性相关联的权重；以及基于与所述权重相关联的熵，确定所述混合比例。4.根据权利要求2所述的方法，其中混合所述第一语义编码向量和所述第二语义编码向量包括：对所述第一语言的语料的表示和所述第二语言的语料的表示进行采样；以及混合与经采样的所述第一语言的语料的表示相对应的第一语义编码向量和与经采样的所述第二语言的语料的表示相对应的所述第二语义编码向量。5.根据权利要求4所述的方法，其中所述第二语言的语料包括：从所述第一语言的语料到所述第二语言的语料的翻译语料。6.根据权利要求4或5所述的方法，还包括：将所述第一语言的语料的表示和所述第二语言的语料的表示分批处理；基于与一批处理量的大小的指数相关联的函数，确定概率阈值；以及基于所述概率阈值，调整对所述第一语言的语料的表示和所述第二语言的语料的表示的采样的数目。7.一种用于训练自然语言处理模型的方法，包括：获取样本数据，所述样本数据包括第一语言的语料的表示以及第二语言的语料的表示；获取针对第一语言的语料和第二语言的语料预先标注的样本标签；以及利用所述样本数据和所述样本标签训练所述自然语言处理模型。8.根据权利要求7所述的方法，所述方法还包括：将任务损失函数与一致性损失函数的和确定为目标损失函数，训练所述自然语言处理模型，其中所述任务损失函数与所述第一语言的语料的表示和所述第二语言的语料的表示的交叉熵相关联，所述一致性损失函数与所述第一语言的语料的表示和所述第二语言的语料的表示的均方误差或相对熵相关联。9.根据权利要求7所述的方法，其中所述样本数据还包括：将与预先标注的所述第一语言的语料相对应的表示和与预先标注的所述第二语言的语料相对应的表示进行组合而形成的样本数据，其中所述第二语言的语料包括从所述第一语言的语料到所述第二语言的语料的翻译语料。
10.一种用于自然语言处理的装置，包括：第一语义向量模块，被配置为基于第一语言的语料的表示，生成第一语义编码向量；第二语义向量模块，被配置为基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；混合语义向量模块，被配置为通过混合所述第一语义编码向量和所述第二语义编码向量，生成混合语义向量；以及混合表示模块，被配置为基于所述混合语义向量，生成所述第二语言的语料的混合表示。11.根据权利要求10所述的装...

【专利技术属性】
技术研发人员：杨惠云，陈华栋，周浩，李磊，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人