获取复述语句的方法、装置及设备制造方法及图纸

技术编号：37625041 阅读：16 留言：0更新日期：2023-05-18 12:16

本申请公开了一种获取复述语句的方法、装置及设备。其中，该方法包括：获取源语句；将所述源语句输入到机器翻译模型中，并利用所述机器翻译模型确定所述源语句的第一长度和与所述源语句具有语义相关性的语句集合，其中，所述语句集合中的语句长度为对所述第一长度进行不同的长度调整得到的；依据所述机器翻译模型对应的受限条件对所述语句集合中的语句进行修改，得到目标语句，其中，多个所述目标语句之间互为复述语句。本申请解决了通过Beam Search方法在解码端解码出的多个句子作为彼此的复述存在多样性不足的技术问题。此的复述存在多样性不足的技术问题。此的复述存在多样性不足的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
获取复述语句的方法、装置及设备

[0001]本申请涉及机器翻译领域，具体而言，涉及一种获取复述语句的方法、装置及设备。

技术介绍

[0002]单语复述语料指的是语义一致，用词不同的单语平行语料，可用于复述判别，数据增强，复述生成等多个任务，但是目前已有的复述语料数量有限，尤其是中文复述语料，相当短缺，而且已有的复述语料质量也欠佳。
[0003]虽然单语复述语料短缺，但是网络上却存在大量用于翻译任务的双语平行语料。目前使用双语语料获取单语复述语料的通常做法是回译以及Beam Search方法，回译是指通过源语言A翻译为目标语言B，然后再通过目标语言B回译为源语言A'，从而把A与A'作为最终的复述语料；Beam Search方法是指通过解码端解码出多个句子，把这多个句子互相作为彼此的复述，从而得到复述语料。但是这样得到的结果往往有语义偏移以及多样性不足的问题。
[0004]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种获取复述语句的方法、装置及设备，以至少解决通过Beam Search方法在解码端解码出的多个句子作为彼此的复述存在多样性不足的技术问题。
[0006]根据本申请实施例的一个方面，提供了一种获取复述语句的方法，包括：获取源语句；将源语句输入到机器翻译模型中，并利用机器翻译模型确定源语句的第一长度和与源语句具有语义相关性的语句集合，其中，语句集合中的语句长度为对第一长度进行不同的长度调整得到的；依据机器翻译模型对应的受限条件...

【技术保护点】

【技术特征摘要】
1.一种获取复述语句的方法，其特征在于，包括：获取源语句；将所述源语句输入到机器翻译模型中，并利用所述机器翻译模型确定所述源语句的第一长度和与所述源语句具有语义相关性的语句集合，其中，所述语句集合中的语句长度为对所述第一长度进行不同的长度调整得到的；依据所述机器翻译模型对应的受限条件对所述语句集合中的词进行修改，得到目标语句，其中，多个所述目标语句之间互为复述语句。2.根据权利要求1所述的方法，其特征在于，所述机器翻译模型包括编码器和解码器，所述将所述源语句输入到机器翻译模型中，包括：将所述源语句输入到所述编码器中进行编码，得到所述源语句中每个词对应的编码向量，以及得到所述源语句对应的语义向量，其中，所述源语句为待翻译的原始语句。3.根据权利要求2所述的方法，其特征在于，所述利用所述机器翻译模型确定所述源语句的第一长度之后，所述方法还包括：将所述语句长度、所述编码向量以及所述语义向量输入到所述解码器中，通过所述解码器得到所述源语句翻译后的所述目标语句。4.根据权利要求3所述的方法，其特征在于，在所述将所述语句长度、所述编码向量以及所述语义向量输入到所述解码器之前，所述方法还包括：将所述语句长度和所述语义向量做乘积计算后，再将所述乘积计算后的结果和所述编码向量输入到所述解码器中进行解码。5.根据权利要求1所述的方法，其特征在于，所述机器翻译模型包括编码器和解码器，所述将所述源语句输入到机器翻译模型中，包括：将所述源语句输入到所述编码器中进行位置编码，得到所述源语句中每个词的位置向量。6.根据权利要求5所述的方法，其特征在于，在得到所述源语句中每个词的所述位置向量之后，所述方法还包括：将所述源语句中每个词的所述位置向量输入到所述解码器中...

【专利技术属性】
技术研发人员：王鹏，
申请(专利权)人：广州视源人工智能创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人