机翻译文标签标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37846857 阅读:22 留言:0更新日期:2023-06-14 22:32
本发明专利技术提供一种机翻译文标签标注方法、装置、电子设备及存储介质,所述方法包括:获取带标签的源文句子和无标签的第一译文句子;输入源文句子和第一译文句子至译文标注模型,获取译文标注模型输出的译文标注序列,译文标注序列用于表示译文句子中各分词对应的标签;基于译文标注序列,生成带标签的第二译文句子。通过将源文句子和第一译文句子输入至译文标注模型,可以获取译文标注模型输出的译文标注序列,译文标注序列能够用于对第一译文句子进行标注,避免将标签作为句子的一部分输入至机器翻译模型,能够保证译文质量,且能够获得比基于词对齐等其他标注方法更好的标注结果,从而精准地在机翻译文中添加相应的标签。精准地在机翻译文中添加相应的标签。精准地在机翻译文中添加相应的标签。

【技术实现步骤摘要】
机翻译文标签标注方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种机翻译文标签标注方法、装置、电子设备及存储介质。

技术介绍

[0002]端到端的神经机器翻译模型以其较好的翻译性能成为目前主流的机器翻译方法,甚至在一些特定领域上,机器翻译已经可以替代人工翻译。但是,在工业应用中,翻译业务中往往还存在大量的特殊需求,比如对待翻译文本,不仅需要将文本内容正确翻译,还需要将本文中上下标、超文本标记语言(Hyper Text Markup Language,html)标签等内容迁移到目标译文中。
[0003]相关技术中,针对将源文中的html标签迁移到目标译文中的问题,有两种常见的解决方案:一是使用词对齐的方法,在机器翻译结束后,将源文中的单词和机翻译文中的单词进行对齐,然后根据对齐关系在机翻译文中添加相应的标签;另一种方法,直接将标签也作为源文的一部分,在机器翻译时,使模型在输出译文的同时,自动在相应位置输出对应的标签。
[0004]但是,这两种方法都存在一些问题,第一种方法(词对齐的方法),标签标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种机翻译文标签标注方法,其特征在于,包括:获取带标签的源文句子和无标签的第一译文句子,所述第一译文句子为所述源文句子对应的机翻译文句子;输入所述源文句子和所述第一译文句子至译文标注模型,获取所述译文标注模型输出的译文标注序列,所述译文标注序列用于表示译文句子中各分词对应的标签;基于所述译文标注序列,生成带标签的第二译文句子;所述译文标注模型是通过对跨语言预训练模型进行有监督训练获取的。2.根据权利要求1所述机翻译文标签标注方法,其特征在于,在所述输入所述源文句子和所述第一译文句子至译文标注模型,获取所述译文标注模型输出的译文标注序列之前,还包括:构建数据集,所述数据集包括多个带标签的源文句子样本、各源文句子样本对应的译文句子样本和各源文句子样本对应的译文标注序列;基于各源文句子样本、各源文句子样本对应的译文句子样本和各源文句子样本对应的译文标注序列,对所述跨语言预训练模型进行有监督训练,获取所述译文标注模型。3.根据权利要求2所述机翻译文标签标注方法,其特征在于,所述构建数据集,包括:基于各源文句子样本,进行机器翻译,获取各源文句子样本对应的译文句子样本;基于各源文句子样本对应的译文句子样本,进行译文句子分词,获取各源文句子样本对应的译文分词序列;接收目标输入,所述目标输入用于对各源文句子样本对应的译文分词序列进行标签标注;响应于所述目标输入,确定各源文句子样本对应的译文标注序列。4.根据权利要求3所述机翻译文标签标注方法,其特征在于,所述接收目标输入,包括:针对各源文句子样本,接收子输入,所述子输入用于对所述源文句子样本对应的译文分词序列进行标签标注;所述接收子输入包括...

【专利技术属性】
技术研发人员:张文博
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1