翻译方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:37769966 阅读:9 留言:0更新日期:2023-06-06 13:33
本申请实施例公开了一种翻译方法、装置、设备、介质及程序产品,属于自然语言处理技术领域。该方法包括:通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列;通过翻译模型对至少两个词序列进行嵌入编码,得到至少两个编码向量;通过翻译模型对至少两个编码向量进行解码,得到至少两个解码结果;从至少两个解码结果中确定出翻译结果。该方法能够实现更准确地字词切分,从而得到更准确的翻译结果。翻译结果。翻译结果。

【技术实现步骤摘要】
翻译方法、装置、设备、介质及程序产品


[0001]本申请实施例涉及自然语言处理
,特别涉及一种翻译方法、装置、设备、介质及程序产品。

技术介绍

[0002]分词技术是一项基础的自然语音处理(Natural Language Processing,NLP)底层技术。例如,在句子翻译的过程中,首先需要将待翻译的句子拆分成词,基于拆分后的词生成词序列,之后对词序列进行编码与解码,最终输出翻译后的句子。
[0003]常见的中文分词工具有jieba分词工具、pkuseg分词工具、以及SWCS分词工具等。不同的分词工具对同一句子会产生总体相似、细节不同的分词结果。尤其是对新词和专有名词,不同分词工具会因训练语料的不同,而展示出不同的切分方式。

技术实现思路

[0004]本申请实施例提供了一种翻译方法、装置、设备、介质及程序产品。所述技术方案如下:
[0005]根据本申请的一方面内容,提供了一种翻译方法,所述方法包括:
[0006]通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列;
[0007]通过翻译模型对所述至少两个词序列进行嵌入编码,得到至少两个编码向量;
[0008]通过所述翻译模型对所述至少两个编码向量进行解码,得到至少两个解码结果;
[0009]从所述至少两个解码结果中确定出翻译结果。
[0010]根据本申请的另一方面内容,提供了一种翻译装置,所述装置包括:
[0011]分词模块,用于通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列;
[0012]编码模块,用于通过翻译模型对所述至少两个词序列进行嵌入编码,得到至少两个编码向量;
[0013]解码模块,用于通过所述翻译模型对所述至少两个编码向量进行解码,得到至少两个解码结果;
[0014]输出模块,用于从所述至少两个解码结果中确定出翻译结果。
[0015]根据本申请的另一方面内容,提供了一种计算机设备,所述计算机设备包括处理器、与所述处理器相连的存储器,所述存储器上存储有程序指令,所述处理器执行所述程序指令时实现如本申请各个方面提供的翻译方法。
[0016]根据本申请的另一方面内容,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时实现如本申请各个方面提供的翻译方法。
[0017]根据本申请的另一个方面内容,提供了一种计算机程序产品(或计算机程序),所述计算机程序产品(或计算机程序)包括计算机指令,所述计算机指令存储在计算机可读存
储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令时实现如本申请各个方面提供的翻译方法。
[0018]根据本申请的另一个方面内容,提供了一种芯片,所述芯片包括可编程逻辑电路和/或程序指令,当所述芯片运行时,用于实现如本申请各个方面提供的翻译方法。
[0019]本申请实施例提供的技术方案带来的有益效果可以包括:
[0020]本申请提供的翻译方法,采用多种分词方式对待翻译句子进行分词处理,得到多个词序列,之后通过翻译模型同时针对多个词序列进行编码与解码,得到多个解码结果,也即得到多个待选的翻译结果,从多个待选的翻译结果中确定出一个翻译结果。上述翻译方法中采用多种分词方式,缓解了新词和专业词在一种分词方式下切分不准确的问题,同时针对各种分词方式对应的词序列进行翻译,从中选取出更准确地翻译结果,提升了模型鲁棒性。
附图说明
[0021]为了更清楚地介绍本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0022]图1示出了本申请一个示例性实施例提供的翻译方法的流程图;
[0023]图2示出了本申请另一个示例性实施例提供的翻译方法的流程图;
[0024]图3示出了本申请另一个示例性实施例提供的翻译方法的流程图;
[0025]图4示出了本申请一个示例性实施例提供的模型训练方法的流程图;
[0026]图5示出了本申请一个示例性实施例提供的翻译装置的框图;
[0027]图6示出了本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
[0028]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0029]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0030]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术,也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0031]其中,自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这
一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
[0032]机器翻译技术自问世以来,经历过多次技术迭代演化,目前已经进入了以自监督注意力机制为核心的Transformer网络架构时代。该模型在各个标准数据集上已经取得了比前一代基于循环神经网络(Recurrent Neural Networks,RNN)模型显著更好的结果,在工业界得到了广泛应用。然而,Transformer模型结构复杂,规模庞大,参数众多,已有研究工作证明,Transformer模型比较脆弱,若输入存在微小扰动,则会产生差别很大的结果,模型效果下降。对于低资源场景(训练数据少于100万条),由于模型参数数量显著大于训练数据数据量,更容易发生过拟合现象,进一步削弱模型的泛化能力。
[0033]另一方面,机器翻译模型通常需要一个嵌入矩阵,将离散的输入词元(token)转换成稠密的向量,才能执行接续的计算逻辑。嵌入矩阵所包含的元素个数通常为词表大小|V|乘以向量维度d。如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译方法,其特征在于,所述方法包括:通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列;通过翻译模型对所述至少两个词序列进行嵌入编码,得到至少两个编码向量;通过所述翻译模型对所述至少两个编码向量进行解码,得到至少两个解码结果;从所述至少两个解码结果中确定出翻译结果。2.根据权利要求1所述的方法,其特征在于,所述至少两种分词方式包括第一分词方式和第二分词方式;所述通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列,包括:通过所述第一分词方式将所述待翻译句子拆分成字与词,生成第一词序列;通过所述第二分词方式将所述待翻译句子拆分成字与词,生成第二词序列。3.根据权利要求2所述的方法,其特征在于,所述通过所述第一分词方式将所述待翻译句子拆分成字与词,生成第一词序列;通过所述第二分词方式将所述待翻译句子拆分成字与词,生成第二词序列,包括:通过所述第一分词方式将所述待翻译句子拆分成字与词,生成第一中间序列;通过所述第二分词方式将所述待翻译句子拆分成字与词,生成第二中间序列;将所述第一中间序列和所述第二中间序列作为一个整体,拆分序列中的整词成为子词,得到所述第一中间序列对应的第一子词序列和所述第二中间序列对应的第二子词序列;将所述第一子词序列和所述第二子词序列作为一个整体,将序列中目标词频对应的子词拆分成字,得到所述第一子词序列对应的所述第一词序列和所述第二子词序列对应的所述第二词序列。4.根据权利要求3所述的方法,其特征在于,所述将所述第一子词序列和所述第二子词序列作为一个整体,将序列中目标词频对应的子词拆分成字,得到所述第一子词序列对应的所述第一词序列和所述第二子词序列对应的所述第二词序列,包括:统计所述第一子词序列和所述第二子词序列中的各个子词的词频;将所述词频低于词频阈值的子词拆分成字,得到所述第一词元序列和所述第二词元序列。5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:将所述待翻译句子拆分成单字,生成单字序列;将所述至少两个词序列和所述单字序列作为输入数据,将所述输入数据输入到所述翻译模型中进行嵌入编码,得到至少三个编码向量,其中,所述至少三个编码向量的数量等...

【专利技术属性】
技术研发人员:史庭训薛征山
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1