数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质制造方法及图纸

技术编号:30774966 阅读:34 留言:0更新日期:2021-11-16 07:33
本申请公开了一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质。该方法包括:获取针对互译句对的多组标注信息;分别计算各组标注信息的互译句对互译比;计算多个所述互译句对互译比中标准差小于预设阈值的部分互译句对互译比的平均值;选择与所述平均值的差值最小的互译句对互译比所属的标注信息,作为所述互译句对的参考标注信息。本申请实施例可以基于统计分布的平均值来合理地体现多个标注人员的平均水平,减少了由于标注人员的个体差异导致的评价不准确的问题。注人员的个体差异导致的评价不准确的问题。注人员的个体差异导致的评价不准确的问题。

【技术实现步骤摘要】
数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质


[0001]本申请涉及数据处理
,尤其涉及一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质。

技术介绍

[0002]在双语互译中,一般由人工针对原文和译文的句子对来标注出相互对应的词语,以形成对齐的双语平行语料,可以作为机器模型的训练数据以应用于机器翻译中,也可以作为双语语料库以应用于双语研究等工作中。
[0003]但是,现有的人工标注得到的平行语料,其质量完全依赖于标注人员的翻译水平,但是标注人员的翻译水平参差不齐,很难确保实现统一的比较高的标注质量。

技术实现思路

[0004]本申请实施例提供一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质,以提高双语标注质量。
[0005]为达到上述目的,本申请实施例提供了一种数据处理方法,包括:
[0006]获取针对互译句对的多组标注信息;
[0007]分别计算每一组标注信息的句对互译比;
[0008]在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差;
[0009]如果所述互译比标准差小于预设的标准差上限,则计算所述预订数量的句对互译比的平均值,作为所述互译句对的质量评估结果。
[0010]本申请实施例还提供了一种数据处理装置,包括:
[0011]第一获取模块,用于获取针对互译句对的多组标注信息;
[0012]第一计算模块,用于分别计算每一组标注信息的句对互译比;
[0013]选择模块,用于在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差;
[0014]第二计算模块,用于在所述互译比标准差小于预设的标准差上限的情况下计算所述预订数量的句对互译比的平均值,作为所述互译句对的质量评估结果。
[0015]本申请实施例还提供了一种电子设备,包括:
[0016]存储器,用于存储程序;
[0017]处理器,用于运行所述存储器中存储的所述程序,所述程序运行时执行本申请实施例提供的数据处理方法。
[0018]本申请实施例还提供了一种计算机可读存储介质,其上存储有可被处理器执行的计算机程序,其中,该程序被处理器执行时实现如本申请实施例提供的数据处理方法。
[0019]本申请实施例还提供了一种翻译方法,其特征在于,所述翻译方法包括:
[0020]从翻译源获取至少一个互译句对;
[0021]使用本申请实施例提供的数据处理方法对所述互译句对进行处理;
[0022]当所述互译句对的质量评估结果为优秀时使用所述翻译源进行翻译处理。
[0023]本申请实施例提供的数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质,通过对互译句对的标注信息进行计算来获取句子之间的互译句对互译比,并通过计算互译句对互译比的标准差来计算互译比的平均值作为质量评估结果,从而基于该平均值来确定相应的标注信息作为参考标注信息,因此,本申请可以基于统计分布的平均值来合理地体现多个标注人员的平均水平,减少了由于标注人员的个体差异导致的评价不准确的问题。
[0024]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0025]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0026]图1为本申请实施例提供的数据处理方法的应用场景示意图;
[0027]图2为本申请提供的数据处理方法一个实施例的流程图;
[0028]图3为本申请提供的数据处理方法另一个实施例的流程图;
[0029]图4为本申请提供的数据处理装置一个实施例的结构示意图;
[0030]图5为本申请提供的数据处理装置另一个实施例的结构示意图;
[0031]图6为本申请提供的电子设备实施例的结构示意图。
具体实施方式
[0032]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0033]随着人工智能技术的发展,将人工智能应用于语言翻译的机器翻译技术也随之发展起来。将一种语言文字输入到机器学习模型中,模型通过计算能够输出另一种语言文字。但是在使用该机器学习模型翻译语言文字之前,首先需要将大量的双语平行语料作为训练数据输入到该机器学恶习模型中以进行模型训练。
[0034]关于原文与译文相对齐的双语平行语料的获取,现有技术的作法通常是通过互联网爬虫技术从海量的语言网站中爬取双语资料,然后采用人工的方式针对原文和译文中相对应的字或词进行标注,从而得到双语平行语料。因此,在现有技术中,平行语料的标注质量完全依赖于标注人员的翻译水平,但是标注人员的翻译水平参差不齐,很难确保实现统一的比较高的标注质量。从而也无法正确评判作为语料来源的各种网站的翻译质量。
[0035]因此,本申请提出一种针对标注信息的处理方法,图1为本申请实施例提供的数据处理方法的应用场景示意图,图1所示的场景仅仅是本申请的技术方案可以应用的场景的
示例之一。如图1所示,可以从各种数据源,例如翻译网站获取包括具有不同语言的翻译示例文本。例如,可以从翻译网站获取包括英语语言的第一文本和中文语言的第二文本的互译句对作为翻译示例互译句对,并且通过对该翻译示例互译句对进行人工标注使其成为能够用于机器学习模型训练的平行语料。例如,在本申请实施例中,可以获取英语语言的句子一为“How old are you”,并且获取具有翻译关系的句子二为“你多大了”作为第一对互译句对,并且可以获取英语语言的句子一为“How old are you”,并且获取具有翻译关系的句子二为“怎么老是你”作为第二对互译句对。因此,这两组互译句对可以由人工进行标注以便于作为机器学习模型训练的平行语料。如上所述,在为机器学习模型准备训练语料的过程中,语料的来源,即翻译网站的翻译质量的高低以及对翻译示例互译句对的标注水平的高低都会对机器学习模型的训练质量有很大影响。例如,第一对互译句对的翻译比较准确,而第二对互译句对的翻译就不太准确。因此,在本领域中,通常会先从翻译网站获取少量,一个或几个翻译示例互译句对,例如上述两对互译句对作为该翻译网站的翻译样本,并且安排多个人员对该翻译样本进行标注,并通过标注后的翻译文本来对该翻译样本的来源的翻译网站的翻译质量进行评估,以确定是否可以大量采用该翻译网站的翻译互译句对来制作平行语料。因此,在上述过程中,需要从多个翻译本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取针对互译句对的多组标注信息;分别计算每一组标注信息的句对互译比;在所述多组标注信息中选择预定数量的句对互译比计算互译比标准差;如果所述互译比标准差小于预设的标准差上限,则计算所述预订数量的句对互译比的平均值,作为所述互译句对的质量评估结果。2.根据权利要求1所述的数据处理方法,其特征在于,所述互译句对包括:互为翻译关系的句子一和句子二;则计算每一组标注信息的句对互译比,包括:计算句子一的互译比X1=N
12
/N1,其中,N
12
代表句子一相对于句子二互译的词数,N1代表句子一的总词数;计算句子二的互译比X2=N
21
/N2,其中,N
21
代表句子二相对于句子一互译的词数,N2代表句子二的总词数;在所述句子一的互译比和句子的二的互译比之中,选择数值较小的作为该组标注信息的句对互译比。3.根据权利要求1所述的数据处理方法,其特征在于,所述在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差,包括:按照句子互译比从小到大的顺序,选择连续的预定数量Y组的标注信息,计算互译比标准差。4.根据权利要求3所述的数据处理方法,其特征在于,所述预定数量Y为最小采纳人数。5.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:如果所述互译句对的质量评估结果为优秀;确定所述互译句对的数据源;在所述数据源中获得Z个互译句对,并获得所述Z个互译句对的质量评估结果;根据所述Z个互译句对的质量评估结果确定所述数据源的质量评估结果。6.一种数据处理装置,其特征在于,包括:第一获取模块,用于获取针对互译句对的多组标注信息;第一计算模块,用于分别计算每一组标注信息的句对互译比;选择模块,用于在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差;第二计算模块,用于在所述互译比标准差小于预设的标准差上限的情况下计算所述预订数量的句对互译比的平均值,作为所...

【专利技术属性】
技术研发人员:王佳骏赵宇周凤鸣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1