一种基于固定范式的术语翻译方法及系统技术方案

技术编号:33081112 阅读:25 留言:0更新日期:2022-04-15 10:34
本发明专利技术是属于机器翻译技术领域,具体提供了一种基于固定范式的术语翻译方法及系统,其中方法包括:根据用户或者翻译需求,以key

【技术实现步骤摘要】
一种基于固定范式的术语翻译方法及系统


[0001]本专利技术是属于机器翻译
,特别是关于一种基于固定范式的术语 翻译方法及系统。

技术介绍

[0002]机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自 然语言的过程。作为计算语言学的一个重要分支,它涉及认知科学、语言学 等学科,是人工智能的终极目标之一。
[0003]现有主流的机器翻译模型是使用基于自注意力机制的编码

解码结构的神 经网络模型,由编码器和解码器组成。二者均以自注意力层为主。翻译流程 主要包括:首先把输入的词映射到高维的向量空间得到词向量,再把词向量 输入到编码器,通过自注意力机制得到上下文向量,解码器再根据上下文向 量和自注意力机制,通过神经网络中的softmax层输出到目标语言的词向量空 间。最后通过词典得到目标语言词汇。
[0004]与统计机器翻译有较多流程和多个模型不同,神经网络机器翻译主要只 有一个神经网络模型。由于其“黑盒”的特点,很难有较好的方法人为去约 束某些词的翻译。同时,同一个词根据不同的语境中也会有不同的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于固定范式的术语翻译方法,其特征在于,包括以下步骤:S1,建立术语库;根据用户或者翻译需求,以key

value储存形式存储在数据库中,当有新的术语原文翻译需求时,继续导入即可;S2,模型训练,包含以下步骤:S21,根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换为“__start__目标术语译文__end__”;S22,将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模型;S3,翻译阶段;从数据库中读取术语库后,使用正向最大匹配算法匹配术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到目标译文。2.如权利要求1所述的基于固定范式的术语翻译方法,其特征在于,所述S1中的建立术语库具体包括:对术语库中的术语原文做一定的长度限制,中文最长不超过7个字,英文最长不超过4个单词。3.如权利要求1所述的基于固定范式的术语翻译方法,其特征在于,所述S21与S22之间还包括:如果匹配得到的句对数量少于预设数量,则使用命名实体识别工具对原训练集进行实体识别;即抽取不少于五倍预设数量句对含有名词的语料,然后使用对齐工具fastalign,把原文中识别得到的名词与译文中识别得到的名词对上,即可得到新的术语库,并重复步骤S21。4.如权利要求1所述的基于固定范式的术语翻译方法,其特征在于,所述S3具体包括以下步骤:S31,从左向右对最大术语原文的最大长度的字符与术语库进行匹配,如果能匹配上,则替换为__start__目标术语译文__end__,如果匹配不上,则减小长度再进行匹配,...

【专利技术属性】
技术研发人员:贝超宗浩苑聪虎刘清民
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1