一种基于深度学习的会议语音检测方法及系统技术方案

技术编号：39001494 阅读：11 留言：0更新日期：2023-10-07 10:33

本发明专利技术涉及语音检测领域，特别是一种基于深度学习的会议语音检测方法及系统。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集，有利于提升会议效。通过得到声学特征语音数据，通过建立目标ResNet残差网络识别模型，利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测；若声学特征语音数据中有敏感词，则将声学特征语音数据输入至数据库中进行存储，敏感词至少包括事件敏感词和人物敏感词；基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断；若音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将会议调解指令传输至服务器或管理人员。务器或管理人员。务器或管理人员。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的会议语音检测方法及系统

[0001]本专利技术涉及语音检测领域，特别是一种基于深度学习的会议语音检测方法及系统。

技术介绍

[0002]在日常办公环境下，越来越多的人在通过开会或者会议对其所遇见的问题进行讨论和解决，在现有技术中，会议人员在会议室或者会议环境中进行开会通常会伴随着利用录音笔或者有录音功能的设备对会议讨论的问题进行录音，然后再通过语音转换设备，转换成文字，进而生成会议纪要和会议记录。但是一般情况中，会议环境讨论的通常是急于解决的事情，容易出现会议人员争执，和需要找寻热点词和热点文章。所以如何根据会议实时讨论的事件或者情况，对这些情况，自动做出一定的决策和搜索，从而更好的帮助会议人员做出解决问题，又能保障在会议过程中对会议争执事件进行辅助调解，提高会议的效率，是现阶段丞待解决的技术问题。

技术实现思路

[0003]本专利技术的目的是为了解决上述问题，设计了一种基于深度学习的会议语音检测方法及系统。
[0004]实现上述目的本专利技术的技术方案为，进一步，在上述一种基于深度学习的会议语音检测方法中，所述会议语音检测方法包括以下步骤：获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的会议语音检测方法，其特征在于，所述会议语音检测方法包括以下步骤：获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型；利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测；若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词；基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员。2.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据，包括：获取会议环境中的实时会议语音，通过高通数字滤波算法对所述实时会议语音数据进行预加重处理，得到滤波会议语音数据；将滤波会议语音数据进行分段处理，得到分帧会议语音数据，所述分帧会议语音数据的分段时间为10
‑
30ms；基于汉明窗函数，利用汉明窗函数对所有的分帧会议语音数据依次相乘，得到加窗会议语音数据；利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据，得到频域会议语音数据；基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据，得到梅尔频率会议语音数据；计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱，得到声学特征语音数据。3.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型，包括：至少通过34层卷积的残差网络建立ResNet残差网络识别模型，利用ReLU函数作为所述ResNet残差网络识别模型的激活函数；利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；所述初始ResNet残差网络识别模型至少包括输入层、输出层、卷积层、池化层、全连接
层、输出层。4.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型，包括：获取声学特征语音数据，将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练；对所述初始ResNet残差网络识别模型中的全局平均池化层利用注意力池化层进行替换；利用OHEM交叉熵损失函数对所述初始ResNet残差网络识别模型的损失函数，得到目标ResNet残差网络识别模型。5.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测，包括：获取声学特征语音数据，利用目标ResNet残差网络识别模型对所述声学特征语音数据进行检测；判断所述声学特征语音数据中是否有敏感词，若所述所述声学特征语音数据包括敏感词，则对敏感词进行判断；所述敏感词信息进行检测还包括获取互联网中的网络热词，对声学特征语音数据中的网络热词进行检测。6.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词，包括：获取声学特征语音数据中的敏感词信息，若所述声学特征语音数据中包括事件敏感词；则将所述声学特征语音数据输入至事件敏感词数据库中进行存储，并生成事件查询指令，根据所述事件查询指令利用Python对互联网数据库中包含事件敏感词的图文进行查询；若所述声学特征语音数据中包括人物敏感...

【专利技术属性】
技术研发人员：刘艳梅，
申请(专利权)人：深圳市国硕宏电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人