【技术实现步骤摘要】
数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质
[0001]本申请涉及数据处理
,尤其涉及一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质。
技术介绍
[0002]在双语互译中,一般由人工针对原文和译文的句子对来标注出相互对应的词语,以形成对齐的双语平行语料,可以作为机器模型的训练数据以应用于机器翻译中,也可以作为双语语料库以应用于双语研究等工作中。
[0003]但是,现有的人工标注得到的平行语料,其质量完全依赖于标注人员的翻译水平,但是标注人员的翻译水平参差不齐,很难确保实现统一的比较高的标注质量。
技术实现思路
[0004]本申请实施例提供一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质,以提高双语标注质量。
[0005]为达到上述目的,本申请实施例提供了一种数据处理方法,包括:
[0006]获取针对互译句对的多组标注信息;
[0007]分别计算每一组标注信息的句对互译比;
[0008]在所述多组标注信息中选择预订 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取针对互译句对的多组标注信息;分别计算每一组标注信息的句对互译比;在所述多组标注信息中选择预定数量的句对互译比计算互译比标准差;如果所述互译比标准差小于预设的标准差上限,则计算所述预订数量的句对互译比的平均值,作为所述互译句对的质量评估结果。2.根据权利要求1所述的数据处理方法,其特征在于,所述互译句对包括:互为翻译关系的句子一和句子二;则计算每一组标注信息的句对互译比,包括:计算句子一的互译比X1=N
12
/N1,其中,N
12
代表句子一相对于句子二互译的词数,N1代表句子一的总词数;计算句子二的互译比X2=N
21
/N2,其中,N
21
代表句子二相对于句子一互译的词数,N2代表句子二的总词数;在所述句子一的互译比和句子的二的互译比之中,选择数值较小的作为该组标注信息的句对互译比。3.根据权利要求1所述的数据处理方法,其特征在于,所述在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差,包括:按照句子互译比从小到大的顺序,选择连续的预定数量Y组的标注信息,计算互译比标准差。4.根据权利要求3所述的数据处理方法,其特征在于,所述预定数量Y为最小采纳人数。5.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:如果所述互译句对的质量评估结果为优秀;确定所述互译句对的数据源;在所述数据源中获得Z个互译句对,并获得所述Z个互译句对的质量评估结果;根据所述Z个互译句对的质量评估结果确定所述数据源的质量评估结果。6.一种数据处理装置,其特征在于,包括:第一获取模块,用于获取针对互译句对的多组标注信息;第一计算模块,用于分别计算每一组标注信息的句对互译比;选择模块,用于在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差;第二计算模块,用于在所述互译比标准差小于预设的标准差上限的情况下计算所述预订数量的句对互译比的平均值,作为所...
【专利技术属性】
技术研发人员:王佳骏,赵宇,周凤鸣,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。