【技术实现步骤摘要】
一种唤醒词声纹的识别方法及系统
本专利技术属于语音处理
,尤其涉及一种唤醒词声纹的识别方法及系统。
技术介绍
目前市面上唤醒词声纹识别系统要么需要录制唤醒词训练数据,或者使用文本无关模型直接测试。录制唤醒词训练数据的方案耗时长,成本高;直接使用文本无关模型的方案识别效果难以满足产品对声纹识别的性能要求。目前市场上的智能产品的唤醒词基本都不是常用的词语,所以每来一个新唤醒词的项目,就需要录制大量说话人说该唤醒词的训练数据,这样一个项目录制数据的费用就需要数万到数十万成本,而且录制音频周期长,会耽误项目进度。如果不录制唤醒词训练数据,直接使用文本无关模型,在唤醒词声纹识别任务上性能远差于有相同唤醒词训练数据条件下定制的模型。本业内同行通常能想到的做法是:用微信小程序等线上录音工具录制唤醒词数据,这样可以在一定程度上降低时间和费用;采用更大的模型来提高文本无关声纹识别模型的性能。由此可知,现有技术中,尚没有零定制数据条件下唤醒词声纹识别系统方案。
技术实现思路
本专利技术实施例提供 ...
【技术保护点】
1.一种唤醒词声纹的识别方法,包括:/n步骤S101,训练并获取背景模型;/n步骤S102,获取注册者音频中的语音唤醒词;若所述语音唤醒词能够匹配设定语音唤醒词,则通过所述背景模型处理所述注册者音频获取注册xvector声纹特征,根据所述注册xvector声纹特征建立说话人库;若不匹配所述设定语音唤醒词,则结束或重新获取本步骤中所述当前注册者音频中的语音唤醒词;/n步骤S103,获取当前唤醒音频中的当前语音唤醒词;若所述当前语音唤醒词匹配所述设定语音唤醒词,则通过所述背景模型处理所述测试者音频获取当前xvector声纹特征;若不匹配所述设定语音唤醒词,则结束或重新获取本步骤 ...
【技术特征摘要】
1.一种唤醒词声纹的识别方法,包括:
步骤S101,训练并获取背景模型;
步骤S102,获取注册者音频中的语音唤醒词;若所述语音唤醒词能够匹配设定语音唤醒词,则通过所述背景模型处理所述注册者音频获取注册xvector声纹特征,根据所述注册xvector声纹特征建立说话人库;若不匹配所述设定语音唤醒词,则结束或重新获取本步骤中所述当前注册者音频中的语音唤醒词;
步骤S103,获取当前唤醒音频中的当前语音唤醒词;若所述当前语音唤醒词匹配所述设定语音唤醒词,则通过所述背景模型处理所述测试者音频获取当前xvector声纹特征;若不匹配所述设定语音唤醒词,则结束或重新获取本步骤中所述当前唤醒音频中的语音唤醒词;
步骤S104,根据所述说话人库中的对应注册xvector声纹特征对所述当前xvector声纹特征打分,获取打分值;
步骤S105,判断所述打分值是否超过设定阈值,若是,则生成唤醒通过信息,若否,则生成唤醒失败信息。
2.根据权利要求1所述的识别方法,其中,所述步骤S101中所述训练并获取背景模型的步骤包括:
步骤S1011,通过唤醒训练集音频获取当前唤醒词音频序列;
步骤S1012,通过深度卷积神经网络训练所述当前唤醒词音频序列获取背景模型。
3.根据权利要求2所述的识别方法,其中,所述步骤S1011中还包括:
获取唤醒训练集音频,所述唤醒训练集音频为一个人所录制的与文本无关数据的全部音频;所述全部音频为包括多个设定字段的音频;
语音识别所述唤醒训练集音频获取各所述多个设定字段的音频片段;
根据所述多个设定字段在所述唤醒训练集音频中获取各字段所对应的所有音频片段集合;所述音频片段具有播放时间信息;
从所述各字段所对应的所有音频片段集合中随机提取当前音频片段序列;根据所述音频片段的播放时间排列且获取当前唤醒词音频序列。
4.根据权利要求1所述的识别方法,其中,步骤S102中获取注册者音频中的语音唤醒词的步骤还包括:
采集注册者音频;
通过语音活动点检测从所述注册者音频中提取注册者音频中的语音唤醒词;
步骤S103中获取当前唤醒音频中的当前语音唤醒词的步骤还包括:
采集当前唤醒音频;
通过语音活动点检测从所述当前唤醒音频中提取当前语音唤醒词。
5.根据权利要求1所述的识别方法,其中,所述步骤S104中根据所述说话人库中的对应注册xvector声纹特征对所述当前xvector声纹特征打分的步骤包括:
根据所述说话人库中的对应注册x...
【专利技术属性】
技术研发人员:黄厚军,项煦,钱彦旻,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。