文本翻译方法及装置制造方法及图纸

技术编号:18350248 阅读:38 留言:0更新日期:2018-07-01 23:20
本发明专利技术实施例提供一种文本翻译方法及装置,属于语言处理技术领域。该方法包括:基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别;将源文本所属的聚类类别进行向量化,得到源文本对应的聚类类别向量,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。由于在翻译过程中可结合源文本的整体语义及其它翻译隐藏参考要素对源文本进行翻译。因此,提高了翻译模型的领域鲁棒性及翻译准确度。

【技术实现步骤摘要】
文本翻译方法及装置
本专利技术实施例涉及语言处理
,更具体地,涉及一种文本翻译方法及装置。
技术介绍
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。目前侧重于结合用户的使用领域对源文本(源语言对应的文本)进行机器翻译,即在机器翻译时考虑用户讲话内容的应用领域。其中,应用领域可以分为教育领域、科研领域及人文领域等等。对于语音识别后得到的源文本,相关技术中提供了如下两种文本翻译方法:第一种是位于语料层面的文本翻译方法,主要是先确定源文本的应用领域,筛选同属该应用领域的训练语料,并基于筛选出的训练语料构建翻译模型,从而利用构建的翻译模型来对源文本进行翻译。第二种是位于模型层面的文本翻译方法,主要是将多个不同应用领域的翻译模型进行组合,如根据源文本的应用领域与不同翻译模型的应用领域之间的相关度,为每一翻译模型赋予权重,从而按照每一翻译模型的权重将所有翻译模型进行组合生成新的混合模型,利用新的混合模型对源文本进行翻译。由于上述方法均需要预先确定源文本的应用领域,但是在实际翻译过程中源文本的应用领域可能难以确定,且同一词汇可能会属于多个应用领域,从而导致很难准确翻译。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的文本翻译方法及装置。根据本专利技术实施例的第一方面,提供了一种文本翻译方法,该方法包括:基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别;其中,每种聚类类别对应一个聚类中心特征向量,每种聚类类别及每种聚类类别对应的聚类中心特征向量是对训练源文本的特征向量进行聚类后所确定的;将源文本所属的聚类类别进行向量化,得到源文本对应的聚类类别向量,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。本专利技术实施例提供的方法,通过基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别。将源文本所属的聚类类别进行向量化,得到源文本对应的聚类类别向量,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本,每个候选目标文本对应一个翻译分值。基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。由于在翻译前可确定源文本所属的聚类类别,并可将源文本及源文本所属的聚类类别一起作为翻译模型的输入参数,从而使得翻译过程可结合源文本的整体语义及其它隐藏翻译要素对源文本进行翻译。因此,提高了翻译模型的领域鲁棒性及翻译准确度。结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,该方法还包括:对源文本中所有分词的词向量取平均值,得到源文本的特征向量。结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别,包括:计算源文本对应的特征向量与每个聚类中心特征向量之间的距离,确定计算得到的所有距离中最小距离对应的聚类中心特征向量,并作为目标聚类中心特征向量;将目标聚类中心特征向量对应的聚类类别作为源文本所属的聚类类别。结合第一方面的第一种可能的实现方式,在第四种可能的实现方式中,基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果,包括:将每个候选目标文本分别输入至源文本所属的聚类类别对应的领域语言模型,输出每个候选目标文本的领域语言模型分值;根据每个候选目标文本的翻译分值及领域语言模型分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,根据每个候选目标文本的翻译分值及领域语言模型分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果,包括:对每个候选目标文本的翻译分值及领域语言模型分值进行加权求和,得到每个候选目标文本的综合分值,从所有综合分值中选取最大综合分值对应的候选目标文本作为源文本的翻译结果。结合第一方面的第一种可能的实现方式,在第六种可能的实现方式中,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,包括:在源文本中第一个分词的词向量之前添加源文本对应的聚类类别向量;或者,将源文本对应的聚类类别向量分别与源文本中每一分词的词向量进行拼接;或者,在源文本中第一个分词的词向量之前添加源文本对应的聚类类别向量,并将源文本对应的聚类类别向量分别与源文本中每一分词的词向量进行拼接。结合第一方面的第一种可能的实现方式,在第七种可能的实现方式中,翻译模型为编解码模型,翻译模型中的编码模型采用双向循环神经网络结构,翻译模型中的解码模型采用循环神经网络结构;相应地,将整合结果输入至翻译模型,输出至少一个候选目标文本,包括:将整合结果输入至翻译模型中,分别得到源文本中每一分词在源文本所属的聚类类别下的前向表征及反向表征;将每一分词在源文本所属的聚类类别下的前向表征及反向表征进行拼接,得到每一分词在源文本中的表征向量;基于每一分词在源文本中的表征向量对源文本进行解码,得到至少一个候选目标文本。根据本专利技术实施例的第二方面,提供了一种文本翻译装置,该装置包括:确定模块,用于基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别;其中,每种聚类类别对应一个聚类中心特征向量,每种聚类类别及每种聚类类别对应的聚类中心特征向量是对训练源文本的特征向量进行聚类后所确定的;翻译模块,用于将源文本所属的聚类类别进行向量化,得到源文本对应的聚类类别向量,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;选取模块,用于基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。根据本专利技术实施例的第三方面,提供了一种文本翻译设备,包括:至少一个处理器;以及与处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本翻译方法。根据本专利技术的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本翻译方法。应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本专利技术实施例。附图说明图1为本专利技术实施例的一种文本翻译方法的流程示意图;图2为本专利技术实施例的另一种文本翻译方法的流程示意图;图3为本专利技术实施例的又一种文本翻译方法的流程示意图;图4为本专利技术实施例的再一种文本翻译方法的流程示意图;图5为本专利技术实施例的一种文本翻译装置的框图;图6为本专利技术实施例的一种文本翻译设备的框图。具体实施方式下面结合附图和实施例,对本专利技术实施例的具体实施方式作进一步详细描本文档来自技高网...
文本翻译方法及装置

【技术保护点】
1.一种文本翻译方法,其特征在于,包括:基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定所述源文本所属的聚类类别;其中,每种聚类类别对应一个聚类中心特征向量,每种聚类类别及每种聚类类别对应的聚类中心特征向量是对训练源文本的特征向量进行聚类后所确定的;将所述源文本所属的聚类类别进行向量化,得到所述源文本对应的聚类类别向量,将所述源文本中分词的词向量与所述源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果。

【技术特征摘要】
1.一种文本翻译方法,其特征在于,包括:基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定所述源文本所属的聚类类别;其中,每种聚类类别对应一个聚类中心特征向量,每种聚类类别及每种聚类类别对应的聚类中心特征向量是对训练源文本的特征向量进行聚类后所确定的;将所述源文本所属的聚类类别进行向量化,得到所述源文本对应的聚类类别向量,将所述源文本中分词的词向量与所述源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述源文本中所有分词的词向量取平均值,得到所述源文本的特征向量。3.根据权利要求1所述的方法,其特征在于,所述基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定所述源文本所属的聚类类别,包括:计算源文本对应的特征向量与每个聚类中心特征向量之间的距离,确定计算得到的所有距离中最小距离对应的聚类中心特征向量,并作为目标聚类中心特征向量;将所述目标聚类中心特征向量对应的聚类类别作为所述源文本所属的聚类类别。4.根据权利要求1所述的方法,其特征在于,所述基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果,包括:将每个候选目标文本分别输入至所述源文本所属的聚类类别对应的领域语言模型,输出每个候选目标文本的领域语言模型分值;根据每个候选目标文本的翻译分值及领域语言模型分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果。5.根据权利要求4所述的方法,其特征在于,所述根据每个候选目标文本的翻译分值及领域语言模型分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果,包括:对每个候选目标文本的翻译分值及领域语言模型分值进行加权求和,得到每个候选目标文本的综合分值,从所有综合分值中选取最大综合分值对应的候选目标文本作为所述源文本的翻译结果。6.根据权利要求1所述的方法,其特征在于,所述将所述源文本中分词的词向量与所述源文本...

【专利技术属性】
技术研发人员:黄宜鑫孟廷刘俊华魏思胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1