The invention discloses a voice data annotation method, device, computer equipment and storage medium, in which methods include: acquiring voice data accumulated by online services, each voice data includes: user's voice and corresponding recognition results; judging the accuracy of recognition results of voice data according to at least one predefined discrimination method, and annotating recognition results. Accurate positive sample speech data and inaccurate negative sample speech data are determined. By applying the scheme of the invention, the labeling efficiency and the accuracy of the labeling result can be improved.
【技术实现步骤摘要】
语音数据标注方法、装置、计算机设备及存储介质
本专利技术涉及计算机应用技术,特别涉及语音数据标注方法、装置、计算机设备及存储介质。
技术介绍
随着人们日常生活水平的提高和科技的日新月异,人们希望通过更自然的方式进行人机对话,获取信息和服务,因此对语音这种交互方式的识别准确率的要求也越来越高。相应地,就需要有识别准确的语音识别模型,而语音识别模型的训练、优化、评估等工作,均依赖大量标注准确的语音数据。目前,语音标注主要采用人工标注方式,这种方式在实际应用中至少存在以下问题:效率低下:语音标注工作,当前基本靠人耳听、手工记录等方式进行,一个人标注几个小时的高准确率语音数据,已经算是超高水平产出,而实际需要的往往是数万小时的语音数据;准确性不足:人工标注工作重复单调,长期从事该工作的人很容易产生疲劳感,从而导致标注错误。
技术实现思路
有鉴于此,本专利技术提供了语音数据标注方法、装置、计算机设备及存储介质。具体技术方案如下:一种语音数据标注方法,包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。一种语音数据标注装置,包括:获取单元以及标注单元;所述获取单元,用于获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;所述标注单元,用于按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果 ...
【技术保护点】
1.一种语音数据标注方法,其特征在于,包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。
【技术特征摘要】
1.一种语音数据标注方法,其特征在于,包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:获取负样本语音数据的修正后的识别结果,将修正后的负样本语音数据作为正样本语音数据进行使用。3.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于固定过滤规则的判别方式;所述基于固定过滤规则的判别方式包括:针对任一语音数据,若确定所述语音数据的识别结果中包含单个字或词的连续重复,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的语音长度与识别结果长度不匹配,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的识别结果中包含错误码,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的识别结果属于预定的常见错误案例,则判定所述语音数据的识别结果不准确。4.根据权利要求1所述的方法,其特征在于,该方法进一步包括:获取用户的线上日志数据;所述判别方式包括:基于用户行为分析的判别方式;所述基于用户行为分析的判别方式包括:针对任一语音数据,若根据所述线上日志数据确定出所述语音数据的识别结果被用户进行了修改,则判定所述语音数据的修改后的识别结果准确;针对任一语音数据,若根据所述线上日志数据确定出用户针对所述语音数据的识别结果执行了预定的后续动作,则判定所述语音数据的识别结果准确;针对任一语音数据,若根据所述线上日志数据确定出用户在输入所述语音数据的语音之前的预定时长内至少一次输入过发音相似的语音,则判定所述语音数据的识别结果准确。5.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于语音与文本特征分析的判别方式;所述基于语音与文本特征分析的判别方式包括:针对任一语音数据,若确定所述语音数据的语音的信噪比低于预定阈值,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的语音中包含长静音和/或长白噪声,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的识别结果的文法不符合文法要求,则判定所述语音数据的识别结果不准确。6.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于用户口音的判别方式;所述基于用户口音的判别方式包括:针对任一语音数据,若确定所述语音数据对应的用户的口音为标准普通话,则判定所述语音数据的识别结果准确。7.根据权利要求6所述的方法,其特征在于,该方法进一步包括:若用户的口音为地方方言或带有地域口音的普通话,则通过对用户周边生活人群进行分析以及积累,形成用户的口音对应的语音数据集。8.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于多模型联合的判别方式;所述基于多模型联合的判别方式包括:针对任一语音数据,分别利用至少两个语音识别模型对所述语音数据中的语音进行语音识别,并分别将每个语音识别模型的识别结果与所述语音数据的识别结果进行比较,统计识别结果与所述语音数据的识别结果一致的语音识别模型占全部语音识别模型的比例,若所述比例大于或等于预定阈值,则判定所述语音数据的识别结果准确;其中,所述至少两个语音识别模型属于两种不同的类型,所述类型包括:统计性模型以及神经网络模型。9.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于声纹的判别方式;所述基于声纹的判别方式包括:针对任一语音数据,获取所述语音数据中的语音的声纹信息;将获取到的声纹信息与数据库中记录的各声纹信息进行匹配,所述数据库中记录有各声纹信息以及各声纹信息分别对应的语音和识别结果;若与数据库中记录的任一声纹信息匹配成功,则进一步确定所述语音数据的识别结果与相匹配的声纹信息对应的识别结果的发音是否匹配,若是,则判定所述语音数据的识别结果准确。10.一种语音数据标注装置,其特征在于,包括:获取单元以及标注单元;所述获取单元,用于获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;所述标注单元,用于按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。11.根据权利要求10...
【专利技术属性】
技术研发人员:高伟,陈泽明,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。