【技术实现步骤摘要】
翻译处理方法和装置
本专利技术涉及语言处理
,尤其涉及一种翻译处理方法和装置。
技术介绍
在获取海外的资讯内容时,如财经、体育、时政、旅游信息等,由于不同国家使用的语言不同,需要对获取的海外资讯进行翻译,翻译成对应国家的目标语言信息。若通过编辑人员对获取的海外信息进行编译,翻译成目标语言供用户阅读,人力成本较高,翻译的效率也较低,尤其对于一些小语种国家的信息,很难覆盖。为了提高翻译效率,相关技术中可以通过翻译工具进行翻译。而现有的翻译工具通常按照句子级别的翻译任务进行处理,即将句子拆分为单词,将单词翻译成目标语言单词,再由目标语言单词组成句子,这种方式带来较多语法错误,翻译质量低,生成的翻译文本阅读体验上难以满足用户需求。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种翻译处理方法,根据预先学习得到的源语言与目标语言之间句子的对应关系,以及文本段的语义信息,对源语言句子进行翻译处理得到目标语言句子,提高了文本翻译的质量和效率。本专利技术的第二个目的在于提出一种翻译处理装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种翻译处理方法,包括:获取源语言的文本段;其中,所述文本段包括多个源语言句子;对所述文本段进行语义识别,生成所述文本段的语义信息;根据预先学习得到的源语言与目标语言之间句子的对应关系,确定所述文本段中各源语言句子对应的目标语言句子;根据所述文本段的语义信息,对所述文本 ...
【技术保护点】
1.一种翻译处理方法,其特征在于,所述方法包括以下步骤:获取源语言的文本段;其中,所述文本段包括多个源语言句子;对所述文本段进行语义识别,生成所述文本段的语义信息;根据预先学习得到的源语言与目标语言之间句子数量的对应关系,确定所述文本段中各源语言句子对应的目标语言句子的数量;根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应数量的目标语言句子。
【技术特征摘要】
1.一种翻译处理方法,其特征在于,所述方法包括以下步骤:获取源语言的文本段;其中,所述文本段包括多个源语言句子;对所述文本段进行语义识别,生成所述文本段的语义信息;根据预先学习得到的源语言与目标语言之间句子数量的对应关系,确定所述文本段中各源语言句子对应的目标语言句子的数量;根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应数量的目标语言句子。2.根据权利要求1所述的翻译处理方法,其特征在于,所述根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应数量的目标语言句子,包括:对各源语言句子顺序进行翻译处理得到对应数量的目标语言句子;其中,根据所述文本段的语义信息,以及根据排序在前的源语言句子进行翻译处理已得到的目标语言句子,对排序在后的源语言句子进行翻译处理。3.根据权利要求2所述的翻译处理方法,其特征在于,所述对各源语言句子顺序进行翻译处理得到对应数量的目标语言句子之前,还包括:根据各源语言句子在所述文本段中的出现顺序,生成句子序列;若一个源语言句子对应至少两个目标语言句子,根据所述至少两个目标语言句子的句子个数,对所述一个源语言句子进行复制,将所述复制得到的源语言句子插入所述句子序列中与所述一个源语言句子的相邻位置;若至少两个源语言句子对应一个目标语言句子,对所述至少两个源语言句子进行合并,将合并得到的源语言句子替换所述句子序列中的所述至少两个源语言句子;对不存在对应目标语言句子的源语言句子从所述句子序列中删除;根据所述句子序列中各源语言句子顺序,确定各源语言句子的翻译处理顺序。4.根据权利要求2所述的翻译处理方法,其特征在于,所述对各源语言句子顺序进行翻译处理得到对应数量的目标语言句子,包括:对当前处理的源语言句子,将对应的语义向量以及所含单词在对应源语言句子中的相对位置信息输入翻译模型的编码器中,以根据所述文本段的语义信息和已得到的目标语言句子的字符向量进行编码,得到编码向量;将所述编码向量输入所述翻译模型的解码器中,得到对应目标语言句子的字符向量。5.根据权利要求4所述的翻译处理方法,其特征在于,所述将对应的语义向量以及所含单词在对应源语言句子中的相对位置信息输入翻译模型的编码器中,以根据所述文本段的语义信息和已得到的目标语言句子的字符向量进行编码,得到编码向量,包括:根据当前处理的源语言句子,生成用于指示当前处理的源语言句子与所含各单词的语义依赖程度的第一注意力信息;根据所述第一注意力信息和所述文本段的语义信息,生成用于指示当前处理的源语言句子与所述文本段的语义依赖程度的第二注意力信息;根据所述第二注意力信息和所述已得到的目标语言句子的字符向量,生成用于指示当前处理的源语言句子与所述已得到的目标语言句子的单词一致性的第三注意力信息;根据所述第三注意力信息生成所述编码向量。6.根据权利要求5所述的翻译处理方法,其特征在于,所述根据当前处理的源语言...
【专利技术属性】
技术研发人员:熊皓,何中军,胡晓光,李芝,吴华,忻舟,吴甜,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。