【技术实现步骤摘要】
翻译方法、装置、设备、介质及程序产品
[0001]本申请实施例涉及自然语言处理
,特别涉及一种翻译方法、装置、设备、介质及程序产品。
技术介绍
[0002]分词技术是一项基础的自然语音处理(Natural Language Processing,NLP)底层技术。例如,在句子翻译的过程中,首先需要将待翻译的句子拆分成词,基于拆分后的词生成词序列,之后对词序列进行编码与解码,最终输出翻译后的句子。
[0003]常见的中文分词工具有jieba分词工具、pkuseg分词工具、以及SWCS分词工具等。不同的分词工具对同一句子会产生总体相似、细节不同的分词结果。尤其是对新词和专有名词,不同分词工具会因训练语料的不同,而展示出不同的切分方式。
技术实现思路
[0004]本申请实施例提供了一种翻译方法、装置、设备、介质及程序产品。所述技术方案如下:
[0005]根据本申请的一方面内容,提供了一种翻译方法,所述方法包括:
[0006]通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序 ...
【技术保护点】
【技术特征摘要】
1.一种翻译方法,其特征在于,所述方法包括:通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列;通过翻译模型对所述至少两个词序列进行嵌入编码,得到至少两个编码向量;通过所述翻译模型对所述至少两个编码向量进行解码,得到至少两个解码结果;从所述至少两个解码结果中确定出翻译结果。2.根据权利要求1所述的方法,其特征在于,所述至少两种分词方式包括第一分词方式和第二分词方式;所述通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列,包括:通过所述第一分词方式将所述待翻译句子拆分成字与词,生成第一词序列;通过所述第二分词方式将所述待翻译句子拆分成字与词,生成第二词序列。3.根据权利要求2所述的方法,其特征在于,所述通过所述第一分词方式将所述待翻译句子拆分成字与词,生成第一词序列;通过所述第二分词方式将所述待翻译句子拆分成字与词,生成第二词序列,包括:通过所述第一分词方式将所述待翻译句子拆分成字与词,生成第一中间序列;通过所述第二分词方式将所述待翻译句子拆分成字与词,生成第二中间序列;将所述第一中间序列和所述第二中间序列作为一个整体,拆分序列中的整词成为子词,得到所述第一中间序列对应的第一子词序列和所述第二中间序列对应的第二子词序列;将所述第一子词序列和所述第二子词序列作为一个整体,将序列中目标词频对应的子词拆分成字,得到所述第一子词序列对应的所述第一词序列和所述第二子词序列对应的所述第二词序列。4.根据权利要求3所述的方法,其特征在于,所述将所述第一子词序列和所述第二子词序列作为一个整体,将序列中目标词频对应的子词拆分成字,得到所述第一子词序列对应的所述第一词序列和所述第二子词序列对应的所述第二词序列,包括:统计所述第一子词序列和所述第二子词序列中的各个子词的词频;将所述词频低于词频阈值的子词拆分成字,得到所述第一词元序列和所述第二词元序列。5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:将所述待翻译句子拆分成单字,生成单字序列;将所述至少两个词序列和所述单字序列作为输入数据,将所述输入数据输入到所述翻译模型中进行嵌入编码,得到至少三个编码向量,其中,所述至少三个编码向量的数量等...
【专利技术属性】
技术研发人员:史庭训,薛征山,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。