文本表示方法、装置、电子设备与存储介质制造方法及图纸

技术编号:32486931 阅读:64 留言:0更新日期:2022-03-02 09:52
本发明专利技术提供一种文本表示方法、装置、电子设备与存储介质,所述方法包括:确定目标文本;将目标文本输入至跨语种文本表示模型,得到跨语种文本表示模型输出的文本表示,所述文本表示为所述目标文本的编码表示;其中,所述跨语种文本表示模型是以样本文本的文本表示与对应的样本正例的正例表示之间的一致性,以及所述样本文本的文本表示与对应的样本负例的负例表示之间的差异性为目标训练得到的,所述样本正例与所述样本文本的语种不同且语义相同,所述样本负例与所述样本文本的语种不同且语义不同。本发明专利技术提供的方法、装置、电子设备与存储介质,实现了不需要花费长时间的训练、仅需要少量的语料数据即可获得跨语种文本表示模型效果显著的提升。型效果显著的提升。型效果显著的提升。

【技术实现步骤摘要】
文本表示方法、装置、电子设备与存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本表示方法、装置、电子设备与存储介质。

技术介绍

[0002]近年来,多语种的语音和语言技术的研发层出不穷,语音助手Siri、Assistant等都能够支持多语言的语义理解技术。当前针对多语种的相关任务,都会针对每一语种单独设计一套系统,需要花费大量的人力、物力。因此,如何能够通过统一建模,快速将系统迁移到所有语种上,是当前学术界和工业界较为关注的热点问题。
[0003]目前,多语言的统一建模表示的方法通常如下:首先使用获取到的多语种数据,通过mask learning(掩码学习)的方案,训练一个统一语义表示的多语种模型,再使用平行语料对,对模型进行对齐微调。上述方法需要使用大量的多语种语料以及各语种间的平行语料对,并且还需要通过长时间的训练,才可以训练出一个效果较好的多语种预训练模型。

技术实现思路

[0004]本专利技术提供一种文本表示方法、装置、电子设备与存储介质,用以解决现有技术中所需平行语料数据过多、训练时间过长的缺陷,实现不需要花费长时间的训练、仅需要少量的语料数据即可获得跨语种文本表示模型效果显著的提升。
[0005]本专利技术提供一种文本表示方法,包括:
[0006]确定目标文本;
[0007]将所述目标文本输入至跨语种文本表示模型,得到所述跨语种文本表示模型输出的文本表示,所述文本表示为所述目标文本的编码表示;
[0008]其中,所述跨语种文本表示模型是以样本文本的文本表示与对应的样本正例的正例表示之间的一致性,以及所述样本文本的文本表示与对应的样本负例的负例表示之间的差异性为目标训练得到的,所述样本正例与所述样本文本的语种不同且语义相同,所述样本负例与所述样本文本的语种不同且语义不同。
[0009]根据本专利技术提供的一种文本表示方法,所述跨语种文本表示模型是基于如下步骤训练得到的:
[0010]基于第一句对齐损失函数,对跨语种预训练模型进行训练,得到句对齐模型,所述第一句对齐损失函数用于约束所述跨语种预训练模型输出的句子表示之间的相似度;
[0011]基于第一词对齐损失函数,对所述句对齐模型进行训练,得到词对齐模型,所述第一词对齐损失函数用于约束所述句对齐模型输出的词表示之间的相似度;
[0012]基于所述词对齐模型,确定所述跨语种文本表示模型。
[0013]根据本专利技术提供的一种文本表示方法,所述基于所述词对齐模型,确定所述跨语种文本表示模型,包括:
[0014]基于第二句对齐损失函数和第二词对齐损失函数,对所述词对齐模型进行训练,
得到所述跨语种文本表示模型,所述第二句对齐损失函数和第二词对齐损失函数分别用于约束所述词对齐模型输出的句子表示之间的相似度和词表示之间的相似度。
[0015]根据本专利技术提供的一种文本表示方法,所述第一句对齐损失函数包括对比学习损失函数,或包括所述对比学习损失函数和掩码损失函数;
[0016]所述对比学习损失函数是基于第一文本表示与第一正例表示之间的一致性,以及所述第一文本表示与第一负例表示之间的差异性确定的,所述第一文本表示、所述第一正例表示和所述第一负例表示分别是所述跨语种预训练模型基于所述样本文本、样本正例和样本负例的第一句子表示确定的;
[0017]所述掩码损失函数是基于所述跨语种预训练模型对掩码文本中被掩码的分词的预测概率确定的,所述掩码文本是对所述样本文本进行掩码得到的。
[0018]根据本专利技术提供的一种文本表示方法,所述样本文本的第一句子表示包括所述样本文本的原始句子表示,或者包括所述原始句子表示和所述样本文本的增强句子表示;
[0019]所述样本文本的增强句子表示是基于如下步骤确定的:
[0020]将所述样本文本输入至初始的跨语种预训练模型,由所述初始的跨语种预训练模型对所述样本文本进行增强处理后进行特征提取,得到所述跨语种预训练模型输出的所述样本文本的增强句子表示,所述增强处理包括更换所述样本文本中分词的位置,修改所述样本文本中分词的向量表示的特征值,以及去掉所述样本文本中分词的权重中的至少一种。
[0021]根据本专利技术提供的一种文本表示方法,所述第一词对齐损失函数是基于第二文本表示与第二正例表示之间的一致性,以及所述第二文本表示与第二负例表示之间的差异性确定的;
[0022]所述第二文本表示、所述第二正例表示和所述第二负例表示分别是所述句对齐模型基于句词文本表示、句词正例表示和句词负例表示确定的;
[0023]所述句词文本表示、句词正例表示和句词负例表示分别是基于所述样本文本、样本正例和样本负例的第二句子表示,以及所述样本文本、样本正例和样本负例中对应分词的词表示确定的。
[0024]根据本专利技术提供的一种文本表示方法,所述句词文本表示是基于如下步骤确定的:
[0025]将所述样本文本输入至初始的句对齐模型,得到所述初始的句对齐模型输出的所述样本文本的第二句子表示以及所述样本文本中所述对应分词的词表示;
[0026]将所述样本文本的第二句子表示与所述样本文本中所述对应分词的词表示进行拼接,得到所述句词文本表示。
[0027]根据本专利技术提供的一种文本表示方法,所述将所述目标文本输入至跨语种文本表示模型,得到所述跨语种文本表示模型输出的文本表示,之后还包括:
[0028]基于所述文本表示,对所述目标文本进行命名实体识别、文本分类和文本翻译中的至少一种。
[0029]本专利技术还提供一种文本表示装置,包括:
[0030]确定模块,用于确定目标文本;
[0031]输入模块,用于将所述目标文本输入至跨语种文本表示模型,得到所述跨语种文
本表示模型输出的文本表示,所述文本表示为所述目标文本的编码表示;
[0032]其中,所述跨语种文本表示模型是以样本文本的文本表示与对应的样本正例的正例表示之间的一致性,以及所述样本文本的文本表示与对应的样本负例的负例表示之间的差异性为目标训练得到的,所述样本正例与所述样本文本的语种不同且语义相同,所述样本负例与所述样本文本的语种不同且语义不同。
[0033]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本表示方法的步骤。
[0034]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本表示方法的步骤。
[0035]本专利技术提供的文本表示方法、装置、电子设备与存储介质,通过跨语种文本表示模型在预训练模型产物上再进行训练,并且以样本文本的文本表示与对应样本正例的正例表示之间的一致性,以及样本文本的文本表示与对应样本负例的负例表示之间的差异性为目标进行训练,实现了不需要花费长时间的训练、且仅需要少量的语料数据即可获得跨语种文本表示模型效果显著的提升,并且本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本表示方法,其特征在于,包括:确定目标文本;将所述目标文本输入至跨语种文本表示模型,得到所述跨语种文本表示模型输出的文本表示,所述文本表示为所述目标文本的编码表示;其中,所述跨语种文本表示模型是以样本文本的文本表示与对应的样本正例的正例表示之间的一致性,以及所述样本文本的文本表示与对应的样本负例的负例表示之间的差异性为目标训练得到的,所述样本正例与所述样本文本的语种不同且语义相同,所述样本负例与所述样本文本的语种不同且语义不同。2.根据权利要求1所述的文本表示方法,其特征在于,所述跨语种文本表示模型是基于如下步骤训练得到的:基于第一句对齐损失函数,对跨语种预训练模型进行训练,得到句对齐模型,所述第一句对齐损失函数用于约束所述跨语种预训练模型输出的句子表示之间的相似度;基于第一词对齐损失函数,对所述句对齐模型进行训练,得到词对齐模型,所述第一词对齐损失函数用于约束所述句对齐模型输出的词表示之间的相似度;基于所述词对齐模型,确定所述跨语种文本表示模型。3.根据权利要求2所述的文本表示方法,其特征在于,所述基于所述词对齐模型,确定所述跨语种文本表示模型,包括:基于第二句对齐损失函数和第二词对齐损失函数,对所述词对齐模型进行训练,得到所述跨语种文本表示模型,所述第二句对齐损失函数和第二词对齐损失函数分别用于约束所述词对齐模型输出的句子表示之间的相似度和词表示之间的相似度。4.根据权利要求2所述的文本表示方法,其特征在于,所述第一句对齐损失函数包括对比学习损失函数,或包括所述对比学习损失函数和掩码损失函数;所述对比学习损失函数是基于第一文本表示与第一正例表示之间的一致性,以及所述第一文本表示与第一负例表示之间的差异性确定的,所述第一文本表示、所述第一正例表示和所述第一负例表示分别是所述跨语种预训练模型基于所述样本文本、样本正例和样本负例的第一句子表示确定的;所述掩码损失函数是基于所述跨语种预训练模型对掩码文本中被掩码的分词的预测概率确定的,所述掩码文本是对所述样本文本进行掩码得到的。5.根据权利要求4所述的文本表示方法,其特征在于,所述样本文本的第一句子表示包括所述样本文本的原始句子表示,或者包括所述原始句子表示和所述样本文本的增强句子表示;所述样本文本的增强句子表示是基于如下步骤确定的:将所述样本文本输入至初始的跨语种预训练模型,由所述初始的跨语种预训练模型对所述样本文本进行增强处理后进行特征提取,...

【专利技术属性】
技术研发人员:王永超王栋刘权陈志刚胡国平刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1