一种数据标注方法及装置制造方法及图纸

技术编号:23151337 阅读:54 留言:0更新日期:2020-01-18 14:19
本申请公开了一种数据标注方法及装置,方法包括:对唤醒词数据进行对齐标注,得到初始标注数据;基于所述初始标注数据训练得到第一唤醒模型;基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功唤醒的唤醒词数据集合;基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。所述数据标注方法及装置,基于初始标注数据训练唤醒模型,再基于专用的唤醒模型对匹配的唤醒词进行标注,提升了唤醒词的标注准确度。

A data annotation method and device

【技术实现步骤摘要】
一种数据标注方法及装置
本专利技术涉及数据处理技术,更具体的说,是涉及一种数据标注方法及装置。
技术介绍
语音识别技术目前已广泛应用于各种功能的电子设备,为广大用户带来了便捷优质的交互体验。通常情况下,电子设备在非工作状态持续一定时间后,会自动进入休眠状态,在用户想要其进入工作状态时,需要首先对其进行唤醒。设备唤醒的过程需要基于唤醒模型来实现。唤醒模型在训练期间,需要标注好的数据,数据标注是否准确直接影响到最终唤醒模型的准确度。现有技术中,对数据的标注,是通过一个识别模型对唤醒数据(一段语音)进行对齐标注,该标注为语音帧级别的标注,即确定唤醒数据中每一个音素分别对应哪个帧段范围。然而,通用的识别模型针对的范围有限,其训练时通常采用成年男性或女性的语音为训练元素。而在实际应用中,语音数据可能包括儿童、老人的语音数据,或带有口音的语音数据,这就导致识别模型对数据对齐标注的效果较差,进而影响唤醒模型的识别精度。
技术实现思路
有鉴于此,本专利技术提供了一种数据标注方法及装置,以克服现有技术中识别模型对数据标注的效果本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n对唤醒词数据进行对齐标注,得到初始标注数据;/n基于所述初始标注数据训练得到第一唤醒模型;/n基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;/n基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词数据进行对齐标注。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
对唤醒词数据进行对齐标注,得到初始标注数据;
基于所述初始标注数据训练得到第一唤醒模型;
基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;
基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词数据进行对齐标注。


2.根据权利要求1所述的数据标注方法,其特征在于,所述对唤醒词数据进行对其标注,得到初始标注数据,包括:
采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据。


3.根据权利要求1所述的数据标注方法,其特征在于,还包括:
基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练,在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。


4.根据权利要求3所述的数据标注方法,其特征在于,所述迭代训练包括:
基于标注好的唤醒词数据训练唤醒模型;
所述唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据的集合;
采用所述唤醒模型对所述能够成功实现唤醒的唤醒词数据的集合中的唤醒词数据进行对齐标注,得到最新的标注数据,返回所述基于标注好的唤醒词数据训练唤醒模型的步骤。


5.根据权利要求1所述的数据标注方法,其特征在于,所述对唤醒词数据进行对齐标注,包括:
确定唤醒词数据中每一个音素对应的帧范围。


6.根据权利要求3所述的数据标注方法,其特征在于,还包括:
依据新的唤醒词数据更新唤醒模型。


7.一种数据标注装置,其特征在于,包括:
初始标注模块,用于对唤醒词数据进行对齐标注,得到初始标注数据;
模型训练模块,用于基于所述初始标注数据训练得到第一唤醒模型;
模型控制模块,用于基于所...

【专利技术属性】
技术研发人员:陈孝良陈天峰冯大航
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1