获取复述语句的方法、装置及设备制造方法及图纸

技术编号:37625041 阅读:16 留言:0更新日期:2023-05-18 12:16
本申请公开了一种获取复述语句的方法、装置及设备。其中,该方法包括:获取源语句;将所述源语句输入到机器翻译模型中,并利用所述机器翻译模型确定所述源语句的第一长度和与所述源语句具有语义相关性的语句集合,其中,所述语句集合中的语句长度为对所述第一长度进行不同的长度调整得到的;依据所述机器翻译模型对应的受限条件对所述语句集合中的语句进行修改,得到目标语句,其中,多个所述目标语句之间互为复述语句。本申请解决了通过Beam Search方法在解码端解码出的多个句子作为彼此的复述存在多样性不足的技术问题。此的复述存在多样性不足的技术问题。此的复述存在多样性不足的技术问题。

【技术实现步骤摘要】
获取复述语句的方法、装置及设备


[0001]本申请涉及机器翻译领域,具体而言,涉及一种获取复述语句的方法、装置及设备。

技术介绍

[0002]单语复述语料指的是语义一致,用词不同的单语平行语料,可用于复述判别,数据增强,复述生成等多个任务,但是目前已有的复述语料数量有限,尤其是中文复述语料,相当短缺,而且已有的复述语料质量也欠佳。
[0003]虽然单语复述语料短缺,但是网络上却存在大量用于翻译任务的双语平行语料。目前使用双语语料获取单语复述语料的通常做法是回译以及Beam Search方法,回译是指通过源语言A翻译为目标语言B,然后再通过目标语言B回译为源语言A',从而把A与A'作为最终的复述语料;Beam Search方法是指通过解码端解码出多个句子,把这多个句子互相作为彼此的复述,从而得到复述语料。但是这样得到的结果往往有语义偏移以及多样性不足的问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种获取复述语句的方法、装置及设备,以至少解决通过Beam Search方法在解码端解码出的多个句子作为彼此的复述存在多样性不足的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种获取复述语句的方法,包括:获取源语句;将源语句输入到机器翻译模型中,并利用机器翻译模型确定源语句的第一长度和与源语句具有语义相关性的语句集合,其中,语句集合中的语句长度为对第一长度进行不同的长度调整得到的;依据机器翻译模型对应的受限条件对语句集合中的语句进行修改,得到目标语句,其中多个目标语句之间互为复述语句。
[0007]可选地,机器翻译模型包括编码器和解码器,将源语句输入到机器翻译模型中,包括:将源语句输入到编码器中进行编码,得到源语句中每个词对应的编码向量,以及得到源语句对应的语义向量,其中,源语句为待翻译的原始语句。
[0008]可选地,利用机器翻译模型确定源语句的第一长度之后,方法还包括:将语句长度、编码向量以及语义向量输入到解码器中,通过解码器得到源语句翻译后的目标语句。
[0009]可选地,在将语句长度、编码向量以及语义向量输入到解码器之前,方法还包括:将语句长度和语义向量做乘积计算后,再将乘积计算后的结果和编码向量输入到解码器中进行解码。
[0010]可选地,机器翻译模型包括编码器和解码器,将源语句输入到机器翻译模型中,包括:将源语句输入到编码器中进行位置编码,得到源语句中每个词的位置向量。
[0011]可选地,在得到源语句中每个词的位置向量之后,方法还包括:将源语句中每个词
的位置向量输入到解码器中,根据语句长度更新位置向量。
[0012]可选地,依据机器翻译模型对应的受限条件对语句集合中的语句进行修改,包括:语句集合中的词为解码器输出的词,修改从解码器中随机选取的输出的词的概率。
[0013]可选地,修改从解码器中随机选取的输出的词的概率,包括:将从解码器中随机选取的输出的词的概率置为0。
[0014]根据本申请实施例的另一方面,还提供了一种获取复述语句的装置,包括:获取模块,用于获取源语句;确定模块,用于将源语句输入到机器翻译模型中,并利用机器翻译模型确定源语句的第一长度和与源语句具有语义相关性的语句集合,其中,语句集合中的语句长度为对第一长度进行不同的长度调整得到的;修改模块,用于依据机器翻译模型对应的受限条件对语句集合中的语句进行修改,得到目标语句,其中,多个目标语句之间互为复述语句。
[0015]根据本申请实施例的又一方面,还提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,与存储器连接,用于执行实现以下功能的程序指令:获取源语句;将源语句输入到机器翻译模型中,并利用机器翻译模型确定源语句的第一长度和与源语句具有语义相关性的语句集合,其中,语句集合中的语句长度为对第一长度进行不同的长度调整得到的;依据机器翻译模型对应的受限条件对语句集合中的语句进行修改,得到目标语句,其中,多个目标语句之间互为复述语句。
[0016]根据本申请实施例的再一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行上述获取复述语句的方法。
[0017]在本申请实施例中,通过获取源语句,将源语句输入到机器翻译模型中,并利用机器翻译模型确定源语句的第一长度和与源语句具有语义相关性的语句集合,并依据机器翻译模型对应的受限条件对语句集合中的语句进行修改,得到目标语句,达到了将不同的目标语句互相作为复述语句对,得到复述语料的目的,从而实现了提高复述语句多样性的技术效果,进而解决了通过Beam Search方法在解码端解码出的多个句子作为彼此的复述存在多样性不足的技术问题。
附图说明
[0018]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0019]图1是根据本申请实施例的一种电子设备的结构图;
[0020]图2是根据本申请实施例的一种获取复述语句的方法的流程图;
[0021]图3是根据本申请实施例的一种Seq2Seq网络结构示意图;
[0022]图4是根据本申请实施例的一种改进的Seq2Seq网络结构示意图;
[0023]图5是根据本申请实施例的一种获取复述语句的装置的结构图。
具体实施方式
[0024]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0025]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026]首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
[0027]平行语料:是指由原文文本及其平行对应的译语文本构成的双语或多语语料。
[0028]复述语料:将多个语义相似的句子作为彼此的复述,得到复述语料。
[0029]单语平行语料:包含一种语言的文本,且描述的都是相同的文本。
[0030]双语复述语料:包含两种语言的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种获取复述语句的方法,其特征在于,包括:获取源语句;将所述源语句输入到机器翻译模型中,并利用所述机器翻译模型确定所述源语句的第一长度和与所述源语句具有语义相关性的语句集合,其中,所述语句集合中的语句长度为对所述第一长度进行不同的长度调整得到的;依据所述机器翻译模型对应的受限条件对所述语句集合中的词进行修改,得到目标语句,其中,多个所述目标语句之间互为复述语句。2.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括编码器和解码器,所述将所述源语句输入到机器翻译模型中,包括:将所述源语句输入到所述编码器中进行编码,得到所述源语句中每个词对应的编码向量,以及得到所述源语句对应的语义向量,其中,所述源语句为待翻译的原始语句。3.根据权利要求2所述的方法,其特征在于,所述利用所述机器翻译模型确定所述源语句的第一长度之后,所述方法还包括:将所述语句长度、所述编码向量以及所述语义向量输入到所述解码器中,通过所述解码器得到所述源语句翻译后的所述目标语句。4.根据权利要求3所述的方法,其特征在于,在所述将所述语句长度、所述编码向量以及所述语义向量输入到所述解码器之前,所述方法还包括:将所述语句长度和所述语义向量做乘积计算后,再将所述乘积计算后的结果和所述编码向量输入到所述解码器中进行解码。5.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括编码器和解码器,所述将所述源语句输入到机器翻译模型中,包括:将所述源语句输入到所述编码器中进行位置编码,得到所述源语句中每个词的位置向量。6.根据权利要求5所述的方法,其特征在于,在得到所述源语句中每个词的所述位置向量之后,所述方法还包括:将所述源语句中每个词的所述位置向量输入到所述解码器中...

【专利技术属性】
技术研发人员:王鹏
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1