翻译处理方法和装置制造方法及图纸

技术编号:20363545 阅读:27 留言:0更新日期:2019-02-16 16:49
本发明专利技术提出一种翻译处理方法和装置,其中,方法包括:获取源语言的文本段,对文本段进行语义识别,生成文本段的语义信息,根据预先学习得到的源语言与目标语言之间句子数量的对应关系,确定文本段中各源语言句子对应的目标语言句子的数量,根据文本段的语义信息,对文本段中各源语言句子进行翻译处理,得到对应数量的目标语言句子。根据预先学习得到的源语言与目标语言之间句子的对应关系,以及文本段的语义信息,对源语言句子进行翻译处理得到目标语言句子,提高了文本翻译的质量和效率。

【技术实现步骤摘要】
翻译处理方法和装置
本专利技术涉及语言处理
,尤其涉及一种翻译处理方法和装置。
技术介绍
在获取海外的资讯内容时,如财经、体育、时政、旅游信息等,由于不同国家使用的语言不同,需要对获取的海外资讯进行翻译,翻译成对应国家的目标语言信息。若通过编辑人员对获取的海外信息进行编译,翻译成目标语言供用户阅读,人力成本较高,翻译的效率也较低,尤其对于一些小语种国家的信息,很难覆盖。为了提高翻译效率,相关技术中可以通过翻译工具进行翻译。而现有的翻译工具通常按照句子级别的翻译任务进行处理,即将句子拆分为单词,将单词翻译成目标语言单词,再由目标语言单词组成句子,这种方式带来较多语法错误,翻译质量低,生成的翻译文本阅读体验上难以满足用户需求。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种翻译处理方法,根据预先学习得到的源语言与目标语言之间句子的对应关系,以及文本段的语义信息,对源语言句子进行翻译处理得到目标语言句子,提高了文本翻译的质量和效率。本专利技术的第二个目的在于提出一种翻译处理装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种翻译处理方法,包括:获取源语言的文本段;其中,所述文本段包括多个源语言句子;对所述文本段进行语义识别,生成所述文本段的语义信息;根据预先学习得到的源语言与目标语言之间句子的对应关系,确定所述文本段中各源语言句子对应的目标语言句子;根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应的目标语言句子。为达上述目的,本专利技术第二方面实施例提出了一种翻译处理装置,包括:获取模块,用于获取源语言的文本段;其中,所述文本段包括多个源语言句子;识别模块,用于对所述文本段进行语义识别,生成所述文本段的语义信息;确定模块,用于根据预先学习得到的源语言与目标语言之间句子的对应关系,确定所述文本段中各源语言句子对应的目标语言句子;处理模块,用于根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应的目标语言句子。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的翻译处理方法。为达上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述方法实施例所述的翻译处理方法。本专利技术所提供的技术方案可以包含如下的有益效果:获取源语言的文本段,对文本段进行语义识别,生成文本段的语义信息,根据预先学习得到的源语言与目标语言之间句子的对应关系,确定文本段中各源语言句子对应的目标语言句子,根据文本段的语义信息,对文本段中各源语言句子进行翻译处理,得到对应的目标语言句子。根据预先学习得到的源语言与目标语言之间句子的对应关系,以及文本段的语义信息,对源语言句子进行翻译处理得到目标语言句子,提高了文本翻译的质量和效率。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种翻译处理方法的流程示意图;图2为本专利技术实施例所提供的另一种翻译处理方法的流程示意图;图3为本专利技术实施例所提供的又一种翻译处理方法的流程示意图;图4为本专利技术实施例提供的翻译模型的编码器的结构示意图;图5为本专利技术实施例所提供的再一种翻译处理方法的流程示意图;图6为本专利技术实施例提供的一种翻译处理装置的结构示意图;图7为本专利技术实施例所提供的另一种翻译处理装置的结构示意图;以及图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。根据获取的文本,通过训练好的翻译模型进行翻译,翻译效率较高,而目前的翻译模型主要有以下两种方式:第一种方式,通常是基于句子级别进行建模,训练语料也是基于源语言句子、目标语言句子对进行采集的。直接利用句子级别的翻译模型去对一些网站或者文档进行整篇文章的翻译存在如下问题:1)网站的标题通常都较短,浓缩了整篇文章的信息,直接进行单独的翻译往往会产生难以理解的内容。2)句子之间具有一定的逻辑和关联性,一些术语的翻译必须保持一致,句子之间也必须保持一定的逻辑性。3)由于语言之间的差异性,用多个英文句子表述的信息可能只需要很少个甚至更短的句子来表达。基于上述原因,直接采取句子级别的翻译模型翻译的质量较差。第二种方式,基于篇章级别的翻译模型,该模型大都采用基于上下文memory的机制来解决,以较为成熟的端到端循环神经网络模型为例(Seq2SeqRNNbasedModels),在对句子进行编码时,都会考虑一些历史信息,通常这些历史信息是若干前序句子的编码信息。但受限于RNN的记忆能力,一般学术界的篇章翻译模型通常只记忆若干前序句子,并没有对整个篇章进行建模,因此相比于传统的基于句子级别建模的翻译模型并没有明显优势,无法应用到实际产品当中。为解决上述翻译模型存在的文本翻译质量较差的问题,本专利技术实施例提供了一种翻译处理方法和装置。下面参考附图描述本专利技术实施例的翻译处理方法和装置。图1为本专利技术实施例所提供的一种翻译处理方法的流程示意图。如图1所示,该方法包括以下步骤:步骤101,获取源语言的文本段,其中,文本段包括多个源语言句子。本专利技术实施例提供的翻译处理方法的执行主体可以为智能手机、平板电脑、笔记本电脑以及可穿戴设备的终端,或者终端中的翻译处理模块,本实施例中不作限定。其中,源语言,是指待翻译的文本段采用的语言,例如为英语、法语、德语、西班牙语等等。作为一种可能的实现方式,用户可通过浏览国外网站直接获取得到源语言的文本段,或者是对获取的源语言的视频或语音信息,识别得到对应的文本段。作为另一种可能的实现方式,可通过网络爬虫对海外站点信息进行监控爬取,实时获取海外站点的更新内容信息,获取源语言的文本段。步骤102,对文本段进行语义识别,生成文本段的语义信息。具体地,对获取到的文本段进行语义识别,作为一种可能的实现方式,可以采用预先训练好的语义识别模型,将文本段输入模型中,对文本段进行语义识别,生成文本段的语义信息。步骤103,根据预先学习得到的源语言与目标语言之间句子数量的对应关系,确定文本段中各源语言句子对应的目标语言句子的数量。具体地,获取大量的源语言语料对应的样本句子和目标语言语料对应的各样本句子,预先对翻译模型进行训练,使得翻译模型已经预先学习得到源语言与目标语言之间句子数量的对应关系。基于预先学习得到的源语言与目标语言之间句子数量的对应关系,确定输入的文本段中各源语言句子对应的目标语言句子的数量。需要理解的是,由于语言之间存在差异性,表达同一个意思,不同语言所需要用到的句子个数不同,例如,在源语言中为表达一个意思,可能需要3句话来表达,但是对应到目标语言中,可能仅需要本文档来自技高网...

【技术保护点】
1.一种翻译处理方法,其特征在于,所述方法包括以下步骤:获取源语言的文本段;其中,所述文本段包括多个源语言句子;对所述文本段进行语义识别,生成所述文本段的语义信息;根据预先学习得到的源语言与目标语言之间句子数量的对应关系,确定所述文本段中各源语言句子对应的目标语言句子的数量;根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应数量的目标语言句子。

【技术特征摘要】
1.一种翻译处理方法,其特征在于,所述方法包括以下步骤:获取源语言的文本段;其中,所述文本段包括多个源语言句子;对所述文本段进行语义识别,生成所述文本段的语义信息;根据预先学习得到的源语言与目标语言之间句子数量的对应关系,确定所述文本段中各源语言句子对应的目标语言句子的数量;根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应数量的目标语言句子。2.根据权利要求1所述的翻译处理方法,其特征在于,所述根据所述文本段的语义信息,对所述文本段中各源语言句子进行翻译处理,得到对应数量的目标语言句子,包括:对各源语言句子顺序进行翻译处理得到对应数量的目标语言句子;其中,根据所述文本段的语义信息,以及根据排序在前的源语言句子进行翻译处理已得到的目标语言句子,对排序在后的源语言句子进行翻译处理。3.根据权利要求2所述的翻译处理方法,其特征在于,所述对各源语言句子顺序进行翻译处理得到对应数量的目标语言句子之前,还包括:根据各源语言句子在所述文本段中的出现顺序,生成句子序列;若一个源语言句子对应至少两个目标语言句子,根据所述至少两个目标语言句子的句子个数,对所述一个源语言句子进行复制,将所述复制得到的源语言句子插入所述句子序列中与所述一个源语言句子的相邻位置;若至少两个源语言句子对应一个目标语言句子,对所述至少两个源语言句子进行合并,将合并得到的源语言句子替换所述句子序列中的所述至少两个源语言句子;对不存在对应目标语言句子的源语言句子从所述句子序列中删除;根据所述句子序列中各源语言句子顺序,确定各源语言句子的翻译处理顺序。4.根据权利要求2所述的翻译处理方法,其特征在于,所述对各源语言句子顺序进行翻译处理得到对应数量的目标语言句子,包括:对当前处理的源语言句子,将对应的语义向量以及所含单词在对应源语言句子中的相对位置信息输入翻译模型的编码器中,以根据所述文本段的语义信息和已得到的目标语言句子的字符向量进行编码,得到编码向量;将所述编码向量输入所述翻译模型的解码器中,得到对应目标语言句子的字符向量。5.根据权利要求4所述的翻译处理方法,其特征在于,所述将对应的语义向量以及所含单词在对应源语言句子中的相对位置信息输入翻译模型的编码器中,以根据所述文本段的语义信息和已得到的目标语言句子的字符向量进行编码,得到编码向量,包括:根据当前处理的源语言句子,生成用于指示当前处理的源语言句子与所含各单词的语义依赖程度的第一注意力信息;根据所述第一注意力信息和所述文本段的语义信息,生成用于指示当前处理的源语言句子与所述文本段的语义依赖程度的第二注意力信息;根据所述第二注意力信息和所述已得到的目标语言句子的字符向量,生成用于指示当前处理的源语言句子与所述已得到的目标语言句子的单词一致性的第三注意力信息;根据所述第三注意力信息生成所述编码向量。6.根据权利要求5所述的翻译处理方法,其特征在于,所述根据当前处理的源语言...

【专利技术属性】
技术研发人员:熊皓何中军胡晓光李芝吴华忻舟吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1