The invention discloses a data processing method and a device, the method comprises the following steps: after a plurality of announcers complete various types of voice annotation tasks, obtain the annotation data of each announcer, the annotation data is used to represent the annotation quality of the voice annotation task; according to the annotation data, cluster the plurality of announcers to determine each annotation The types of tasks a person is good at and the types of tasks he is not good at. The invention provides an automatic training platform for taggers through various types of voice tagging tasks, which is beneficial for taggers to be familiar with task rules and training tagging ability, analyze the accuracy dimension and energy efficiency ratio dimension of taggers by using tagging data of taggers, determine the tasks that taggers are good at, and have a prior knowledge of the capabilities of taggers, so as to allocate tagging pertinently Tasks, improve marking quality, assist quality inspectors and reduce the work of quality inspectors.
【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及计算机
,特别涉及一种数据处理方法和装置。
技术介绍
随着语音技术的发展,对语音模型的要求越来越高,而一个有效的语音模型依赖海量的语音数据进行训练,且数据准确性越高,语音模型越好。现有技术中,通常采用人工标注的方法获取标注结果,再通过质检对标注结果进行合格验收,而标注员在领取任务后需要熟悉标注规则和标注任务,标注结果的质量相对较差,质检员需要对标注结果进行严格把控,导致标注效率较低。
技术实现思路
本专利技术提供了一种数据处理方法和装置,以提高标注效率。本专利技术提供了一种数据处理方法,包括以下步骤:在多个标注员完成多种类型的语音标注任务后,获取每个所述标注员的标注数据,所述标注数据用于表示对语音标注任务的标注质量;根据所述标注数据,对所述多个标注员进行聚类,确定每个所述标注员擅长的任务类型和不擅长的任务类型。可选地,所述标注数据包括语音文本正确性;所述获取每个所述标注员的标注数据,包括:获取每个所 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括以下步骤:/n在多个标注员完成多种类型的语音标注任务后,获取每个所述标注员的标注数据,所述标注数据用于表示对语音标注任务的标注质量;/n根据所述标注数据,对所述多个标注员进行聚类,确定每个所述标注员擅长的任务类型和不擅长的任务类型。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括以下步骤:
在多个标注员完成多种类型的语音标注任务后,获取每个所述标注员的标注数据,所述标注数据用于表示对语音标注任务的标注质量;
根据所述标注数据,对所述多个标注员进行聚类,确定每个所述标注员擅长的任务类型和不擅长的任务类型。
2.如权利要求1所述的方法,其特征在于,所述标注数据包括语音文本正确性;
所述获取每个所述标注员的标注数据,包括:
获取每个所述标注员完成每个语音标注任务后得到的标注文本;
通过对所述标注文本与所述语音标注任务对应的标准文本进行对比,确定多种类型错误的出现次数,所述多种类型错误包括插入错误、删除错误和替换任务;
根据所述语音标注任务的类型,确定每种类型的错误的权重;
根据所述每种类型错误的权重,计算文本错误率;
判断所述文本错误率是否大于第一预设阈值,如果是,则确定语音文本不正确;否则,确定语音文本正确。
3.如权利要求1所述的方法,其特征在于,所述标注数据包括标注时间正确性;
所述获取每个所述标注员的标注数据,包括:
获取每个所述标注员完成每个语音标注任务后得到的标注时间点;
获取所述标注时间点与所述语音标注任务对应的标准时间点的交集和并集;
判断所述交集与所述并集的比值是否大于第二预设阈值,如果是,则确定标注时间不正确;否则,确定标注时间正确。
4.如权利要求1所述的方法,其特征在于,所述标注数据包括完成任务所需时间、文本正确分数、语音有效时长、完成任务的次数、一次通过率、文本修改率和能效比。
5.如权利要求1所述的方法,其特征在于,所述根据所述标注数据,对所述多个标注员进行聚类,确定每个所述标注员擅长的任务类型和不擅长的任务类型,包括:
针对每个标注员,判断其对每种类型的语音标注任务的标注数据是否满足预设条件,若满足,则确定该标注员擅...
【专利技术属性】
技术研发人员:张晴晴,刘天宇,杨金富,罗磊,马光谦,汪洋,
申请(专利权)人:北京爱数智慧科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。