一种基于深度学习的敏感说话人监听和录音控制方法和系统技术方案

技术编号：24097358 阅读：57 留言：0更新日期：2020-05-09 11:04

本发明专利技术公开了一种基于深度学习的敏感说话人监听和录音控制方法及系统，获取录取的音频信息；采用基于时间池和余弦相似性的三元组损失的方法对音频信息的音频特征值进行提取；将音频特征值输入到预先训练好的敏感说话人的说话人模型，输出一个与敏感说话人语音匹配程度的匹配值；将所述匹配值和预先设定的匹配阈值相比较，若小于匹配阈值则确定说话的人不是敏感说话人，不将这段音频信息保存下来；反之，则保存下来；同时，对敏感说话人的说话人模型进行更新。优点：提高了监控敏感说话人的准确性；解决现有录音不区分说话人或不能准确判别目标说话人等问题。

A control method and system of sensitive speaker monitoring and recording based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的敏感说话人监听和录音控制方法和系统
本专利技术涉及一种基于深度学习的敏感说话人监听和录音控制方法和系统，属于语音信号处理

技术介绍
语音监听是间谍活动中窃取情报的主要手段之一。在当代各国，已经把监听作为窃取其他国家的军事、政治、经济、科学技术和工业情报的一种重要技术手段，其中针对特对特定敏感说话人的监听尤为重要。现在有各式各样的监听设备，如无线针孔摄像头监听设备、“灯光”监听设备、“台灯”监听设备、激光监听设备等。这些监听设备都能很好的隐蔽自身而不被人发现。但是，这些监听设备只能做到将监听到的所有内容毫无保留的保存下来，这些内容却不一定是我们监听方想要获取的内容。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的缺陷，提供一种基于深度学习的敏感说话人监听和录音控制方法和系统。为解决上述技术问题，本专利技术提供一种基于深度学习的敏感说话人监听和录音控制方法，获取录取的音频信息；采用基于时间池和余弦相似性的三元组损失的方法对音频信息的音频特征值进行...

【技术保护点】
1.一种基于深度学习的敏感说话人监听和录音控制方法，其特征在于，/n获取录取的音频信息；/n采用基于时间池和余弦相似性的三元组损失的方法对音频信息的音频特征值进行提取；/n将音频特征值输入到预先训练好的敏感说话人的说话人模型，输出一个与敏感说话人语音匹配程度的匹配值；/n将所述匹配值和预先设定的匹配阈值相比较，若小于匹配阈值则确定说话的人不是敏感说话人，不将这段音频信息保存下来；反之，则保存下来。/n

【技术特征摘要】
1.一种基于深度学习的敏感说话人监听和录音控制方法，其特征在于，
获取录取的音频信息；
采用基于时间池和余弦相似性的三元组损失的方法对音频信息的音频特征值进行提取；
将音频特征值输入到预先训练好的敏感说话人的说话人模型，输出一个与敏感说话人语音匹配程度的匹配值；
将所述匹配值和预先设定的匹配阈值相比较，若小于匹配阈值则确定说话的人不是敏感说话人，不将这段音频信息保存下来；反之，则保存下来。

2.根据权利要求1所述的基于深度学习的敏感说话人监听和录音控制方法，其特征在于，所述训练好的敏感说话人的说话人模型的训练过程为：
获取敏感说话人的音频信息；
采用基于时间池和余弦相似性的三元组损失的方法对音频信息进行特征提取，得到敏感说话人的特征值；
采用深度神经网络模型和反向传播算法对敏感说话人的音频信息进行训练，得到训练好的敏感说话人的说话人模型。

3.一种基于深度学习的敏感说话人监听和录音控制系统，其特征在于，包括信息获取模块、特征提取模块、匹配值获取模块和判断模块；
所述信息获取模块，用于获取录取的音频信息；
所述特征提取模块，用于采用基于时间池和余弦相似性的三元组损失的方法对音频信息的音频特征值进行提取；
所述匹配值获取模块，用于将音频特征值输入到预先训练好的敏感说话人的说话人模型，输出一个与敏感说话人语音匹配程度的匹配值；
所述判断模块，用于将所述匹配值和...

【专利技术属性】
技术研发人员：孙蒙，徐骏涛，苟立澄，赵斐，张雪涛，孔西西，陈思成，孙雅茹，张晨阳，
申请(专利权)人：中国人民解放军陆军工程大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人