一种数据处理方法、装置和电子设备制造方法及图纸

技术编号:28752937 阅读:27 留言:0更新日期:2021-06-09 10:18
本发明专利技术实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:获取源语言文本;依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息;采用机器翻译模型依据所述源语言文本对应的编码信息,将所述源语言文本翻译为目标语言文本;相对于现有技术直接对源语言文本中文字进行编码而言,本发明专利技术实施例能够对源语言文本进行更细粒度的编码,从而能够提高机器翻译模型翻译的质量。模型翻译的质量。模型翻译的质量。

【技术实现步骤摘要】
一种数据处理方法、装置和电子设备


[0001]本专利技术涉及数据处理
,特别是涉及一种数据处理方法、装置和电子设备。

技术介绍

[0002]人工智能包括十分广泛的科学,由不同的领域组成,如机器学习,计算机视觉等等。总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作;自人工智能诞生以来,理论和技术日益成熟,应用领域也不断扩大。如机器翻译领域,例如将汉语翻译成英语、将英语翻译成汉语等等。
[0003]机器翻译的过程中,通常直接将汉语中的文字进行编码,然后基于编码的结果进行翻译。但相对于与英语等欧洲语言而言,汉语的字词数目更多且语义更丰富,使得汉语与其他语言存在语义上的不均衡,对于一些训练稀疏的文字,无法准确的翻译。

技术实现思路

[0004]本专利技术实施例提供一种数据处理方法,以提高机器翻译的质量。
[0005]相应的,本专利技术实施例还提供了一种数据处理装置和一种电子设备,用以保证上述方法的实现及应用。
[0006]为了解决上述问题,本专利技术实施例公开了一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取源语言文本;依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息;采用机器翻译模型依据所述源语言文本对应的编码信息,将所述源语言文本翻译为目标语言文本。2.根据权利要求1所述的方法,其特征在于,所述依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息,包括:依据文字的字形对所述源语言文本中各文字进行编码,得到各文字对应的编码信息;将各文字对应的编码信息进行拼接,生成所述源语言文本对应的编码信息。3.根据权利要求2所述的方法,其特征在于,所述依据文字的字形对所述源语言文本中各文字进行编码,得到各文字对应的编码信息,包括:针对所述源语言文本中每个文字执行如下操作:以偏旁为最小单位对所述文字进行拆分;分别对所述文字包含的各偏旁进行编码,得到各偏旁对应的字形编码信息;依据所述文字包含的各偏旁的字形编码信息,生成所述文字的编码信息。4.根据权利要求3所述的方法,其特征在于,所述依据文字的字形对所述源语言文本中各文字进行编码,得到各文字对应的编码信息,还包括:在所述以偏旁为最小单位对所述文字进行拆分之后,依据所述文字的字形结构确定所述文字包含的各偏旁的空间信息;对所述文字包含的各偏旁的空间信息进行编码,得到各偏旁对应的空间编码信息;所述依据所述文字包含的各偏旁的字形编码信息,生成所述文字的编码信息,包括:采用所述文字包含的各偏旁的字形编码信息和对应的空间编码信息,组成所述文字的编码信息。5.根据权利要求4所述的方法,其特征在于,所述采用所述文字包含的各偏旁的字形编码信息和对应的空间编码信息,组成所述文字的编码信息,包括:采用所述文字包含的各偏旁的字形编码信息和对应的空间编码信息,组成...

【专利技术属性】
技术研发人员:许静芳翟飞飞戴磊杨正彪戴加明李质轩王坤武静王青龙
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1