【技术实现步骤摘要】
数据处理方法、装置、设备及可读存储介质
[0001]本申请涉及人工智能中的自然语言处理
,尤其涉及一种数据处理方法、装置、设备及可读存储介质。
技术介绍
[0002]文本翻译已经被广泛应用于各个领域中,并在一定程度上取得了很大的进展。然而对于富样式文本,即文本中的某些句子或者词语包含多种格式,例如包含不同的颜色、文字加粗、下划线等格式。在对这类富样式文本进行翻译时,目前只能实现对文本中的文字内容进行翻译,不能实现对文本中格式的完整保留,从而降低了文本翻译的完整性,导致数据处理准确性较低。
技术实现思路
[0003]本申请实施例提供一种数据处理方法、装置、设备及可读存储介质,可以使得文本翻译更完整,提高数据处理准确性。
[0004]第一方面,本申请提供一种数据处理方法,包括:
[0005]获取源文本数据,源文本数据为富样式文本数据;
[0006]获取源文本数据中目标源词语的词语位置,基于该目标源词语的词语位置在源文本数据中添加第一约束标签,该目标源词语的样式为目标源样式;
...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取源文本数据,所述源文本数据为富样式文本数据;获取所述源文本数据中目标源词语的词语位置,基于所述目标源词语的词语位置在所述源文本数据中添加第一约束标签,所述目标源词语的样式为目标源样式;基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,所述第二约束标签是在所述目标文本数据中目标词语的词语位置添加的,所述目标词语为与所述目标源词语对应的词语,所述目标文本数据是对所述源文本数据进行翻译得到的;基于所述第一约束标签和所述第二约束标签将所述目标源样式映射为所述目标词语的目标样式,以得到包含所述目标样式的目标文本数据。2.根据权利要求1所述的方法,其特征在于,所述获取源文本数据之前,所述方法还包括:获取第一样本数据和第二样本数据,所述第二样本数据是对所述第一样本数据进行翻译得到的,所述第一样本数据为富样式文本数据;对所述第一样本数据和所述第二样本数据进行对齐处理,以确定所述第一样本数据中的样本词语与所述第二样本数据中的样本词语之间的样本对应关系;获取所述第一样本数据中第一样本词语的样本词语位置,基于所述样本词语位置在所述第一样本数据中添加第一样本约束标签,所述第一样本词语的样式为第一样式;获取参考样本,基于添加第一样本约束标签后的第一样本数据、所述样本对应关系以及所述参考样本,训练得到目标处理模型;所述基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,包括:采用所述目标处理模型基于添加第一约束标签后的源文本数据和所述词语间的对应关系,得到添加了第二约束标签的目标文本数据。3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本数据和所述第二样本数据进行对齐处理,以确定所述第一样本数据中的样本词语与所述第二样本数据中的样本词语之间的样本对应关系,包括:对所述第一样本数据和第二样本数据进行分词处理,得到N个第一单词和M个第二单词之间的第一对应关系,第一单词为所述第一样本数据中的单词,第二单词为所述第二样本数据中的单词,N、M均为正整数;基于所述N个第一单词和所述M个第二单词之间的第一对应关系,确定i个第一词语与j个第二词语之间的第二对应关系,第一词语为所述N个第一单词中的至少一个单词组成的词语,第二词语为所述M个第二单词中的至少一个单词组成的词语,i、j均为正整数;基于所述第二对应关系确定所述第一样本数据和所述第二样本数据是否对齐,若所述第一样本数据和所述第二样本数据对齐,则将对齐关系作为所述源文本数据中的样本词语与所述目标文本数据中的样本词语之间的样本对应关系。4.根据权利要求3所述的方法,其特征在于,所述基于所述第二对应关系确定所述第一样本数据和所述第二样本数据是否对齐,包括:采用对齐一致性原则确定第一目标词语和第二目标词语是否对齐,所述第一目标词语
为所述i个第一词语中的任意一个,所述第二目标词语为所述j个第二词语中的任意一个,所述对齐一致性原则用于指示所述第一样本...
【专利技术属性】
技术研发人员:李尔楠,熊明钧,孟凡东,周杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。