语音数据标注方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20078043 阅读:30 留言:0更新日期:2019-01-15 01:32
本发明专利技术公开了语音数据标注方法、装置、计算机设备及存储介质,其中方法包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。应用本发明专利技术所述方案,能够提升标注效率和标注结果的准确性等。

Voice data labeling method, device, computer equipment and storage medium

The invention discloses a voice data annotation method, device, computer equipment and storage medium, in which methods include: acquiring voice data accumulated by online services, each voice data includes: user's voice and corresponding recognition results; judging the accuracy of recognition results of voice data according to at least one predefined discrimination method, and annotating recognition results. Accurate positive sample speech data and inaccurate negative sample speech data are determined. By applying the scheme of the invention, the labeling efficiency and the accuracy of the labeling result can be improved.

【技术实现步骤摘要】
语音数据标注方法、装置、计算机设备及存储介质
本专利技术涉及计算机应用技术,特别涉及语音数据标注方法、装置、计算机设备及存储介质。
技术介绍
随着人们日常生活水平的提高和科技的日新月异,人们希望通过更自然的方式进行人机对话,获取信息和服务,因此对语音这种交互方式的识别准确率的要求也越来越高。相应地,就需要有识别准确的语音识别模型,而语音识别模型的训练、优化、评估等工作,均依赖大量标注准确的语音数据。目前,语音标注主要采用人工标注方式,这种方式在实际应用中至少存在以下问题:效率低下:语音标注工作,当前基本靠人耳听、手工记录等方式进行,一个人标注几个小时的高准确率语音数据,已经算是超高水平产出,而实际需要的往往是数万小时的语音数据;准确性不足:人工标注工作重复单调,长期从事该工作的人很容易产生疲劳感,从而导致标注错误。
技术实现思路
有鉴于此,本专利技术提供了语音数据标注方法、装置、计算机设备及存储介质。具体技术方案如下:一种语音数据标注方法,包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。一种语音数据标注装置,包括:获取单元以及标注单元;所述获取单元,用于获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;所述标注单元,用于按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。基于上述介绍可以看出,本专利技术所述方案中可针对线上服务积累的语音数据,自动地将其标注为正样本和负样本,从而克服了人工标注所存在的问题,提升了标注效率和标注结果的准确性,并实现了对于线上服务积累的语音数据的有效利用等。【附图说明】图1为本专利技术所述语音数据标注方法实施例的流程图。图2为本专利技术所述语音识别效果提升闭环示意图。图3为本专利技术所述语音数据标注装置实施例的组成结构示意图。图4示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。【具体实施方式】为了使本专利技术的技术方案更加清楚、明白,以下参照附图并举实施例,对本专利技术所述方案进行进一步说明。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。图1为本专利技术所述语音数据标注方法实施例的流程图。如图1所示,包括以下具体实现方式。在101中,获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果。在102中,按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。目前,很多线上服务需要进行语音识别,相应地,可积累海量的语音数据,而这些数据一直未进行有效的开发利用。通常来说,标注语音数据的句准率要求95%以上才能用于语音识别模型的训练等,但实际场景中的语音识别结果并不能达到这样的要求,受环境、距离、反射、衰变等条件影响,句准率达到85%就已经算是比较高的水平了,85%句准率的语音数据不能满足句准率95%以上的要求,因此需要从低纯度的(85%)的语音数据中过滤出高纯度(95%以上)的语音数据。具体到本实施例中,可按照预先设定的至少一种判别方式,对线上服务积累的语音数据的识别结果的准确性进行判别,从而标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。每条语音数据中可包括:用户的语音(如语音query)及对应的识别结果。对于正样本语音数据,可直接使用,如直接作为训练集供语音识别模型训练等使用。对于负样本语音数据,可通过人工标注或其它技术手段,对其识别结果进行修正,并可将修正后的负样本语音数据作为正样本语音数据进行使用,从而使语音识别模型得到更定向精准优化等。所述至少一种判别方式可包括但不限于以下之一或任意组合:基于固定过滤规则的判别方式、基于用户行为分析的判别方式、基于语音与文本特征分析的判别方式、基于用户口音的判别方式、基于多模型联合的判别方式、基于声纹的判别方式。以下分别对上述各判别方式的具体实现进行说明。1)基于固定过滤规则的判别方式固定过滤规则主要包含一些常见的语音识别错误的情况。比如,若任一语音数据的识别结果中包含单个字或词的连续重复,则可判定该语音数据的识别结果不准确。单个字或词的连续重复可以是指“嗯嗯”、“啊啊”等,如果某一识别结果中包含这些内容,大概率识别错误,从而可判定识别结果不准确。再比如,若任一语音数据的语音长度与识别结果长度不匹配,则可判定该语音数据的识别结果不准确。正常人口述1秒时间可说1~3个字,那么如果平均1秒的语音长度对应的识别结果小于1个字或者大于3个字,则大概率识别错误,从而可判定识别结果不准确。再比如,若任一语音数据的识别结果中包含错误码,则可判定该语音数据的识别结果不准确。再比如,若任一语音数据的识别结果属于预定的常见错误案例,则可判定该语音数据的识别结果不准确。如识别结果为“百度一下,你就知道”,很可能是由于用户误操作或其它原因导致的错误识别,因为这不符合正常的用户语音query内容。2)基于用户行为分析的判别方式本实施例中,除了获取线上服务积累的语音数据之外,还可进一步获取用户的线上日志数据。根据线上日志数据,可获取到用户的一些行为信息,而这些行为信息有助于对识别结果的准确性进行判别。比如,若根据线上日志数据确定出任一语音数据的识别结果被用户进行了修改,则可判定该语音数据的修改后的识别结果准确。当用户输入语音之后,若发现识别结果与自己预期的不符,可对识别结果进行主动修改,修改后的识别结果可被视为对错误的识别结果的纠错,相应地,可判定修改后的识别结果准确。再比如,若根据线上日志数据确定出用户针对任一语音数据的识别结果执行了预定的后续动作,则可判定该语音数据的识别结果准确。若识别结果正确,用户通常会有后续的动作,如发出检索指令等。再比如,若根据所述线上日志数据确定出用户在输入任一语音数据的语音之前的预定时长内至少一次输入过发音相似的语音,则可判定该语音数据的识别结果准确。若用户输入的语音被识别错误,除了主动修改之外,用户还可能会重复输入语音,直到识别结果正确,也就是说,用户最后一次输入的语音对应的识别结果通常是准确的。3)基于语音与文本特征分析的判别方式比如,若任一语音数据的语音的信噪比低于预定阈值,则可判定该语音数据的识别结果不准确。如果信噪比很小,说明语音中夹杂着很大的噪声,这种情况下的识别结果通常都是不准确的。再比如,若任一语音数据的语音中包含长静音和/或长白噪声,则可判定该语音数据的识别结果不准确。正常情况下,用户输入的语音是连续流畅的,本文档来自技高网...

【技术保护点】
1.一种语音数据标注方法,其特征在于,包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。

【技术特征摘要】
1.一种语音数据标注方法,其特征在于,包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:获取负样本语音数据的修正后的识别结果,将修正后的负样本语音数据作为正样本语音数据进行使用。3.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于固定过滤规则的判别方式;所述基于固定过滤规则的判别方式包括:针对任一语音数据,若确定所述语音数据的识别结果中包含单个字或词的连续重复,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的语音长度与识别结果长度不匹配,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的识别结果中包含错误码,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的识别结果属于预定的常见错误案例,则判定所述语音数据的识别结果不准确。4.根据权利要求1所述的方法,其特征在于,该方法进一步包括:获取用户的线上日志数据;所述判别方式包括:基于用户行为分析的判别方式;所述基于用户行为分析的判别方式包括:针对任一语音数据,若根据所述线上日志数据确定出所述语音数据的识别结果被用户进行了修改,则判定所述语音数据的修改后的识别结果准确;针对任一语音数据,若根据所述线上日志数据确定出用户针对所述语音数据的识别结果执行了预定的后续动作,则判定所述语音数据的识别结果准确;针对任一语音数据,若根据所述线上日志数据确定出用户在输入所述语音数据的语音之前的预定时长内至少一次输入过发音相似的语音,则判定所述语音数据的识别结果准确。5.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于语音与文本特征分析的判别方式;所述基于语音与文本特征分析的判别方式包括:针对任一语音数据,若确定所述语音数据的语音的信噪比低于预定阈值,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的语音中包含长静音和/或长白噪声,则判定所述语音数据的识别结果不准确;针对任一语音数据,若确定所述语音数据的识别结果的文法不符合文法要求,则判定所述语音数据的识别结果不准确。6.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于用户口音的判别方式;所述基于用户口音的判别方式包括:针对任一语音数据,若确定所述语音数据对应的用户的口音为标准普通话,则判定所述语音数据的识别结果准确。7.根据权利要求6所述的方法,其特征在于,该方法进一步包括:若用户的口音为地方方言或带有地域口音的普通话,则通过对用户周边生活人群进行分析以及积累,形成用户的口音对应的语音数据集。8.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于多模型联合的判别方式;所述基于多模型联合的判别方式包括:针对任一语音数据,分别利用至少两个语音识别模型对所述语音数据中的语音进行语音识别,并分别将每个语音识别模型的识别结果与所述语音数据的识别结果进行比较,统计识别结果与所述语音数据的识别结果一致的语音识别模型占全部语音识别模型的比例,若所述比例大于或等于预定阈值,则判定所述语音数据的识别结果准确;其中,所述至少两个语音识别模型属于两种不同的类型,所述类型包括:统计性模型以及神经网络模型。9.根据权利要求1所述的方法,其特征在于,所述判别方式包括:基于声纹的判别方式;所述基于声纹的判别方式包括:针对任一语音数据,获取所述语音数据中的语音的声纹信息;将获取到的声纹信息与数据库中记录的各声纹信息进行匹配,所述数据库中记录有各声纹信息以及各声纹信息分别对应的语音和识别结果;若与数据库中记录的任一声纹信息匹配成功,则进一步确定所述语音数据的识别结果与相匹配的声纹信息对应的识别结果的发音是否匹配,若是,则判定所述语音数据的识别结果准确。10.一种语音数据标注装置,其特征在于,包括:获取单元以及标注单元;所述获取单元,用于获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;所述标注单元,用于按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。11.根据权利要求10...

【专利技术属性】
技术研发人员:高伟陈泽明
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1