敏感词的语音识别方法和装置制造方法及图纸

技术编号:11266480 阅读:128 留言:0更新日期:2015-04-08 12:25
本发明专利技术公开了一种敏感词的语音识别方法和装置。其中,敏感词的语音识别方法包括:获取待测音频;利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记,将待测音频中的包含有目标敏感词的音频片段标记为第一预设标识,其中,敏感词训练模型为根据标记有第一预设标识的包含有目标敏感词的音频数据进行训练得到的模型,敏感词训练模型用于检测目标敏感词的语音;以及从标记的待测音频中提取具有第一预设标识的音频段,作为目标敏感词的音频。通过本发明专利技术,解决了现有技术中语音敏感词识别的准确性低的问题,达到了提高语音敏感词识别的准确性的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种敏感词的语音识别方法和装置。其中,敏感词的语音识别方法包括:获取待测音频;利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记,将待测音频中的包含有目标敏感词的音频片段标记为第一预设标识,其中,敏感词训练模型为根据标记有第一预设标识的包含有目标敏感词的音频数据进行训练得到的模型,敏感词训练模型用于检测目标敏感词的语音;以及从标记的待测音频中提取具有第一预设标识的音频段,作为目标敏感词的音频。通过本专利技术,解决了现有技术中语音敏感词识别的准确性低的问题,达到了提高语音敏感词识别的准确性的效果。【专利说明】敏感词的语音识别方法和装置
本专利技术涉及语音检测领域,具体而言,涉及一种敏感词的语音识别方法和装置。
技术介绍
目前,敏感词的语音识别技术主要基于建立的语音敏感词语料库,用匹配分析的方式对敏感词进行识别,其缺点是需要提前建立语音敏感词语料库,对于多语种则要建立多个语料库;部分语音敏感词分析过程中,需要先翻译为文本再根据文本语料库匹配敏感词,定位敏感词语音位置,这样的语音敏感词的识别准确性较低。 针对现有技术中语音敏感词识别的准确性低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种敏感词的语音识别方法和装置,以解决现有技术中语音敏感词识别的准确性低的问题。 为了实现上述目的,根据本专利技术实施例的一个方面,提供了一种敏感词的语音识别方法。根据本专利技术的敏感词的语音识别方法包括:获取待测音频;利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的包含有目标敏感词的音频片段标记为第一预设标识,其中,所述敏感词训练模型为根据标记有所述第一预设标识的包含有所述目标敏感词的音频数据进行训练得到的模型,所述敏感词训练模型用于检测所述目标敏感词的语音;以及从待测音频中提取具有所述第一预设标识的音频段,作为所述目标敏感词的音频。 进一步地,通过以下方式建立所述敏感词训练模型:收集包含有所述目标敏感词的音频数据;从所述音频数据中剪切出预设时间长度的包含有所述目标敏感词的第一音频片段;添加所述第一音频片段的标记为所述第一预设标识;对标记有所述第一预设标识的第一音频片段进行训练,得到所述敏感词训练模型。 进一步地,在收集包含有所述目标敏感词的音频数据之后,所述语音识别方法还包括:从所述音频数据中剪切出所述预设时间长度的不包含有所述目标敏感词的第二音频片段;添加所述第二音频片段的标记为第二预设标识,其中,使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练,得到所述敏感词训练模型。 进一步地,使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练,得到所述敏感词训练模型包括:使用所述支持向量机并添加高斯核函数和松弛因子对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练,得到所述敏感词训练模型。 进一步地,利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记包括:按照所述预设时间长度对所述待测音频进行划分,得到多个待测音频段;利用所述敏感词训练模型对所述多个待测音频段进行标记,将包含有所述目标敏感词的待测音频段标记为所述第一预设标识,将不包含有所述目标敏感词的待测音频段标记为所述第二预设标识。 为了实现上述目的,根据本专利技术实施例的另一方面,提供了一种敏感词的语音识别装置。根据本专利技术的敏感词的语音识别装置包括:获取单元,用于获取待测音频;标记单元,用于利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的包含有目标敏感词的音频片段标记为第一预设标识,其中,所述敏感词训练模型为根据标记有所述第一预设标识的包含有所述目标敏感词的音频数据进行训练得到的模型,所述敏感词训练模型用于检测所述目标敏感词的语音;以及提取单元,用于从标记的待测音频中提取具有所述第一预设标识的音频段,作为所述目标敏感词的音频。 进一步地,所述语音识别装置还包括:收集单元,用于收集包含有所述目标敏感词的音频数据;第一剪切单元,用于从所述音频数据中剪切出预设时间长度的包含有所述目标敏感词的第一音频片段;第一添加单元,用于添加所述第一音频片段的标记为所述第一预设标识;训练单元,用于对标记有所述第一预设标识的第一音频片段进行训练,得到所述敏感词训练模型。 进一步地,所述语音识别装置还包括:第二剪切单元,用于在收集包含有所述目标敏感词的音频数据之后,从所述音频数据中剪切出所述预设时间长度的不包含有所述目标敏感词的第二音频片段;第二添加单元,用于添加所述第二音频片段的标记为第二预设标识,所述训练单元还用于使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练,得到所述敏感词训练模型。 进一步地,所述训练单元包括:训练模块,用于使用所述支持向量机并添加高斯核函数和松弛因子对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练,得到所述敏感词训练模型。 进一步地,所述标记单元包括:划分模块,用于按照所述预设时间长度对所述待测音频进行划分,得到多个待测音频段;标记模块,用于利用所述敏感词训练模型对所述多个待测音频段进行标记,将包含有所述目标敏感词的待测音频段标记为所述第一预设标识,将不包含有所述目标敏感词的待测音频段标记为所述第二预设标识。 根据本专利技术实施例,通过利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记,将待测音频中的包含有目标敏感词的音频片段标记为第一预设标识,无需进行文本翻译,相对于建立语料库进行匹配方式其准确性得到明显提高,解决了现有技术中语音敏感词识别的准确性低的问题,达到了提高语音敏感词识别的准确性的效果。 【专利附图】【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术实施例的敏感词的语音识别方法的流程图;以及 图2是根据本专利技术实施例的敏感词的语音识别装置的示意图。 【具体实施方式】 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。 为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。 需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、本文档来自技高网
...
敏感词的语音识别方法和装置

【技术保护点】
一种敏感词的语音识别方法,其特征在于,包括:获取待测音频;利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的包含有目标敏感词的音频片段标记为第一预设标识,其中,所述敏感词训练模型为根据标记有所述第一预设标识的包含有所述目标敏感词的音频数据进行训练得到的模型,所述敏感词训练模型用于检测所述目标敏感词的语音;以及从标记的待测音频中提取具有所述第一预设标识的音频段,作为所述目标敏感词的音频。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘粉香
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1