一种校园语音识别的方法、装置及存储介质制造方法及图纸

技术编号:37796701 阅读:16 留言:0更新日期:2023-06-09 09:26
本发明专利技术公开了一种校园语音识别的方法、装置及存储介质,方法包括:获取第一校园语音设备中的第一音频信号数据,对第一音频信号数据进行过滤处理,获得人声语音信息;将人声语音信息输入语音识别模型,以使语音识别模型判断人声语音信息是否包含预设暴力关键词;若是,则将人声语音信息输入声纹识别模型,以使声纹识别模型对人声语音信息进行能量值计算,并根据声纹比例因子确定人声语音信息中的声源信息;其中,声源信息包括:发出人声语音信息的人物的数量和人物的位置方向;将第一音频信号数据、第一校园语音设备的位置信息和声源信息发送到管理系统,实现校园中的暴力语音的识别和定位。定位。定位。

【技术实现步骤摘要】
一种校园语音识别的方法、装置及存储介质


[0001]本专利技术涉及语音识别
,尤其涉及一种校园语音识别的方法、装置及存储介质。

技术介绍

[0002]语音识别是把输入语音中的词汇内容转换成对应的文本信息。现有的语音识别模型首先对语音进行处理之后,使用声学模型进行解码,之后将音节与词表进行匹配得到词序列,最后再使用语言模型得到语句。
[0003]人们在进行自然口语对话时,不仅传递声音,更重要的是传递说话人的情感状态、态度、意图等。目前智慧校园设备的语音识别功能中,缺乏专门针对暴力词汇的语音识别的关键词检索以及情感语音识别,而且不能够对获取的语音进行声源定位,语音识别性能差,不能通过对学生的语音识别全面保护校园学生的安全。

技术实现思路

[0004]本专利技术提供了一种校园语音识别的方法、装置及存储介质,以实现校园中的暴力语音的识别和定位。
[0005]为了校园中的暴力语音的识别和定位,本专利技术实施例提供了一种校园语音识别的方法、装置及存储介质,包括:获取第一校园语音设备中的第一音频信号数据,对所述第一音频信号数据进行过滤处理,获得人声语音信息;
[0006]将所述人声语音信息输入语音识别模型,以使所述语音识别模型判断所述人声语音信息是否包含预设暴力关键词;
[0007]若是,则将所述人声语音信息输入声纹识别模型,以使所述声纹识别模型对所述人声语音信息进行能量值计算,并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息;其中,所述声源信息包括:发出所述人声语音信息的人物的数量和人物的位置距离和方向;
[0008]将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。
[0009]作为优选方案,本专利技术对校园的任意一个语音设备的第一音频信号数据,并对第一音频信号数据进行特征提取,输入语音识别模型中进行语音分析,判断该第一音频信号数据中是否存在暴力语音;若判断获取到第一音频信号数据是暴力语音后,再获取到的暴力语音进行声纹分析,获取该段暴力语音的声源信息,发出所述人声语音信息的人物的数量和人物的位置距离和方向,实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音,并判断发出暴力语音的人物数量和位置距离和方向,从而进行声源定位。
[0010]作为优选方案,获取第一语音设备中的第一音频信号数据,对所述第一音频信号数据进行过滤处理,获得人声语音信息,具体为:
[0011]将第一音频信号数据分割成语音区和静音区,去除所述语音区的噪声,将去除噪
声后的语音区作为所述人声语音信息。
[0012]作为优选方案,本专利技术在检测语音之前先对语音信息进行人声语音区的分割提取,并提取人声语音区的特征信息,减少了对环境语音的计算,提升对人声语音分析的精度,提取出人声语音的关键词和声纹,以实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音,根据声纹特征判断发出暴力语音的人物数量和位置距离和方向,从而进行声源定位。
[0013]作为优选方案,检测所述判断所述人声语音信息是否包含预设暴力关键词,具体为:
[0014]调用统一的API接口获取人声语音信息的第一关键词的信道信息;
[0015]将所述第一关键词的信道信息与训练语音信息中的第二关键词的信道信息进行匹配计算;其中,所述第二关键词为预设暴力关键词;
[0016]若所述第一关键词的信道信息与第二关键词的信道信息匹配相同,则语音识别模型判断所述人声语音信息包含预设暴力关键词。
[0017]作为优选方案,本专利技术通过对人声语音信息的关键词特征信息与训练语音信息的关键词特征信息进行匹配,判断该人声语音信息的关键词是否为暴力词汇或者负面情绪的词汇,实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音。
[0018]作为优选方案,对所述人声语音信息进行能量值计算,并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息,具体为:
[0019]将若干个人声语音信息分别输入若干个对应的矩阵单元中,分别计算出每个音频采集终端采集到的人声语音信息的能量值和频域能量分布;其中,第一校园语音设备配有若干个所述音频采集终端;若干个所述人声语音信息分别由不同的音频采集终端采集到的第一音频信号数据过滤处理而来;
[0020]根据每个矩阵单元的能量值和频域能量分布,提取声纹比例因子,对所述人声语音信息做均衡处理,输出矩阵能量分布;
[0021]根据矩阵能量分布和若干个音频采集终端的位置确定人物的数量和声音的方向。
[0022]作为优选方案,第一校园语音设备配有若干个所述音频采集终端,根据若干个音频采集终端采集到的第一音频信号数据过滤处理后的人声语音信息,分别计算出每个人声语音信息的能量值和频域能量分布,提取声纹比例因子,对所述人声语音信息做均衡处理,输出矩阵能量分布;根据矩阵能量分布和若干个音频采集终端的位置确定人物的数量和声音的方向,从而进行声源定位。
[0023]作为优选方案,将所述人声语音信息输入语音识别模型之前,还包括:
[0024]获取若干训练音频数据,提取所述训练音频数据的特征信息;其中,所述训练音频数据包括含有暴力词汇或情感关键词的人声语音和不含有暴力词汇或情感关键词的人声语音;
[0025]根据所述特征信息将所述训练音频数据分割成语音区和静音区;根据所述语音区和所述静音区的特征类型,对所述特征信息进行融合计算,获得所述训练音频数据的特征参数;
[0026]根据所述特征参数,分别对所述训练音频数据的语音区和静音区的信道进行建模,获得语音识别模型。
[0027]作为优选方案,本专利技术在将人声语音信息输入语音识别模型之前,先对语音识别模型进行训练,将含有暴力词汇或情感关键词的人声语音和不含有暴力词汇或情感关键词的人声语音作为训练音频数据,以便模型能训练区分含有暴力词汇或情感关键词和不含有暴力词汇或情感关键词的多种特征值,并根据各自特点加以融合,根据融合后的特征参数建立的模型能够检测语音信息是否为暴力语音以及该语音信息所表达的情绪值。
[0028]作为优选方案,将所述声纹参数输入声纹识别模型之前,还包括:
[0029]获取若干训练音频数据,提取所述训练音频数据的第一能量特征信息;对所述第一能量特征信息进行融合计算,获得所述训练音频数据的声纹特征参数;根据所述声纹特征参数,对所述训练音频数据进行建模,获得声纹识别模型。
[0030]作为优选方案,本专利技术在将声纹参数输入声纹识别模型之前,对声纹识别模型进行训练,提取所述训练音频数据的第一能量特征信息,获取该段训练音频数据的声纹特征参数,根据所述声纹特征参数,对声纹识别模型进行训练,以使声纹识别模型实现判断发出暴力语音的人物数量和位置距离和方向,从而进行声源定位。
[0031]作为优选方案,将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种校园语音识别的方法,其特征在于,包括:获取第一校园语音设备中的第一音频信号数据,对所述第一音频信号数据进行过滤处理,获得人声语音信息;将所述人声语音信息输入语音识别模型,以使所述语音识别模型判断所述人声语音信息是否包含预设暴力关键词;若是,则将所述人声语音信息输入声纹识别模型,以使所述声纹识别模型对所述人声语音信息进行能量值计算,并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息;其中,所述声源信息包括:发出所述人声语音信息的人物的数量和人物的位置距离和方向;将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。2.如权利要求1所述的一种校园语音识别的方法,其特征在于,所述获取第一语音设备中的第一音频信号数据,对所述第一音频信号数据进行过滤处理,获得人声语音信息,具体为:将第一音频信号数据分割成语音区和静音区,去除所述语音区的噪声,将去除噪声后的语音区作为所述人声语音信息。3.如权利要求2所述的一种校园语音识别的方法,其特征在于,所述判断所述人声语音信息是否包含预设暴力关键词,具体为:调用统一的API接口获取人声语音信息的第一关键词的信道信息;将所述第一关键词的信道信息与训练语音信息中的第二关键词的信道信息进行匹配计算;其中,所述第二关键词为预设暴力关键词;若所述第一关键词的信道信息与第二关键词的信道信息匹配相同,则语音识别模型判断所述人声语音信息包含预设暴力关键词。4.如权利要求1所述的一种校园语音识别的方法,其特征在于,所述对所述人声语音信息进行能量值计算,并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息,具体为:将若干个人声语音信息分别输入若干个对应的矩阵单元中,分别计算出每个音频采集终端采集到的人声语音信息的能量值和频域能量分布;其中,第一校园语音设备配有若干个所述音频采集终端;若干个所述人声语音信息分别由不同的音频采集终端采集到的第一音频信号数据过滤处理而来;根据每个矩阵单元的能量值和频域能量分布,提取声纹比例因子,对所述人声语音信息做均衡处理,输出矩阵能量分布;根据矩阵能量分布和若干个音频采集终端的位置确定人物的数量和声音的方向。5.如权利要求1所述的一种校园语音识别的方法,其特征在于,所述将所述人声语音信息输入语音识别模型之前,还包括:获取若干训练音频数据,提取所述训练音频数据的特征信息;其中,所述训练音频数据包括含有暴力词汇或情感关键词的人声语音和不含有暴力词汇或情感关键词的人声语音;根据所述特征信息将所述训练音频数据分割成语音区和静音区;根据所述语音区和所述静音区的特征类型,对所述特征信息进行融合计算,获得所述训练音频数据的特征参数;
根据所述特征参数,分别对所述训练音频数据的语音区和静音区的信道进行建模,获得语音识别模型。6.如权利要求1所述的一种校园语音识别的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:郑桂鹏刘芝秉李景恒林弟张常华朱正辉赵定金
申请(专利权)人:广州市保伦电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1