【技术实现步骤摘要】
一种微任务语料数据清洗方法
[0001]本专利技术属于语料数据清洗
,具体涉及一种微任务语料数据清洗方法。
技术介绍
[0002]大规模、高质量的预训练语料可以让模型学习更多的知识表达,更好地理解词的各种表征含义,从而更加智能。目前机器翻译大多基于神经网络进行翻译,而基于神经网络的翻译方法需大量的语料数据来对机器翻译引擎进行训练。如何从大量的语料数据中筛选出高质量的语料,以实现语料清洗。
[0003]现有的语料数据清洗方法主要是通过大量的人工进行筛选得到目标语料,但是该清洗方法的清洗成本过高,另外人工对语料数据进行一条一条的核对和修改,工作效率较低,也对译员的能力要求较高的。
技术实现思路
[0004]为了解决上述存在的技术问题,本专利技术提供一种微任务语料数据清洗方法,包含语料分类任务和语料编辑任务的清洗,借助不同等级的译者清洗不同的任务,针对性强,提高清洗效率,同时借助系统算法对清洗任务进行自动审核和确认,能够减轻清洗工作量,节省清洗成本。
[0005]本专利技术所采取的技术方案是: ...
【技术保护点】
【技术特征摘要】
1.一种微任务语料数据清洗方法,其特征在于,具体包括如下步骤:S1、对需要清洗的语料数据预先埋入已知结果的语料数据形成语料埋点数据后开始清洗;S2、配置语料数据的清洗参数;S3、清洗语料分类任务:系统将语料分类任务分配至一级译者,一级译者分类处理一个或多个语料分类任务,其中每个语料分类任务包括一个或多个任务项,每个任务项对应一个条语料,;S4、计算语料分类任务的分类结果:一级译者完成语料分类任务后计算自动执行分类结果,得出可直接使用的语料数据及需进行编辑的语料数据,具体包括如下步骤:1)获取分类结果可确认的语料:当一条语料被多个一级译者进行处理分类,若所有一级译者的处理分类结果相同,则该条语料可确认;当语料分类任务为语料埋点数据,则语料分类任务处理的分类结果可确认;2)计算一级译者处理语料分类任务的可信度:从一级译者参与的语料分类任务中获取所有已知结果的语料,记为A;计算出所有正确的分类结果,记为C;令RE=一级译者本次处理语料分类任务的可信度,则计算完成后,将本次处理语料分类任务的可信度计入一级译者的历史可信度;设RE1,RE2,RE3,...RE
n
为一级译者的历史可信度,排除一级译者的最高历史可信度记录以及最低历史可信度,令REA=一级译者的最终可信度=平均可信度,则3)确认语料分类任务的分类结果:一条语料由多名一级译者参与分类,从配置清洗参数中可获取是否需要修改的属性及修改属性值,令TV=修改属性值,TVP=每名一级译者获取的属性值,REA为步骤2)计算出的一级译者平均可信度,则TVP=TV*REA,然后分别计算出是否需要修改的属性定义为“是”及“否”时每名一级译者获取的属性值;令a=是否需要修改的属性定义为“是”时的一级译者获取的属性值总和,b=是否需要修改的属性定义为“否”的一级译者获取的属性值总和,y=属性差,则计算得出y,将属性差y与配置清洗参数中的分类确认差阈值进行对比:若y>分类确认差阈值,则语料的分类结果确认为需要修改;y≦分类确认差阈值则语料的...
【专利技术属性】
技术研发人员:张甫朝,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。