一种实时语音流监控的方法技术

技术编号:24501389 阅读:36 留言:0更新日期:2020-06-13 05:17
一种实时语音流监控的方法,公开了对wav语音数字信号流监控时不识别成文字,根据被监测人的语音特征为基础,将预制设定的“关键词”创建、克隆成语音并获取基准声学特征参数;在语音流上以时间间隔较大的周期采集到的语音片段样本,判断非静音后判定为说话语音时;开启多线程分层协调监控的技术步骤,最大化的节省运算资源,实现连续不间断语音流的监控。

A real-time voice flow monitoring method

【技术实现步骤摘要】
一种实时语音流监控的方法
本专利技术涉及监控
,具体涉及一种实时语音流监控的方法。
技术介绍
在安全监控领域、视频监控已经是现今的主流、但在视频中进行特定对象的智能检索,目前即便在最前沿的研究也只是处于启蒙的范畴,并且视频监控只能对已经发生的安全事件进行取证,无法预判潜在的安全风险、进行有效的预防控制,语音则在一定程度上代表人的思想,如果在公共设施、场所做有效的语音监控就能预防安全风险,实时语音识别过滤报警全覆盖,相对于视频安全识别监管,智能语音监管的数据流相对较少,语音音频可以实现实时全覆盖,可以提升公共安全的控制能力.但是现有技术的语音识别的基本原理是采用检索语音语库进行概率比对,采用概率最大的对应来识别,先把语音流转化成文字,消耗巨大的运算能力且正确率有待进一步提高,做成实时连续不断的高效的语音监控应用可以满足于许多基础设施安全监控的需要,如:银行柜员机、大街小巷内、广场、博物馆、智能楼宇、;医院重症病人监控、远程室内老人、儿童活动监护等等应用场景。现今语音技术的研究主要集中在声学模型、语音声学特征参数获得、声纹身份识别、识别算法和语音信号编码采样去噪处理方面。语音应用技术及相关产品主要集中在通信领域,如人机对话、语音替代打字的文本输入。在其他领域如的应用技术开发相对较少,国内外还没有将语音识别技术应用于安全智能监控、语音报警等方面的主流研发意识。特别是针对时候语音流的研究更是鲜有见闻。一方面,在一些重要公共空间,如公厕、街头小巷、公园广场等场合,如果能对安全进行预警和及时报警,就能有效避免造成重大人身伤害或财产的损失。另外一方面,随着国家经济发展和人们生活水平的提高,人们对生活舒适、高效安全的人文环境的需要和要求也相应的提高,特别是安全意识也被提升到一个新高度。但是现今社会人们的工作压力的普遍增大、生活节奏较快,在工作和社会事务上花费的个人时间也越来越多,容易忽略家庭的安全,一些家庭意外发生安全事故因为没有及时信息传达,造成家庭的损失。例如:a、独居的独居的人士突然得病而丧失行动能力,无法外出就诊或电话求救,从而失去最佳救助的黄金时间;b、人们遇到犯罪行为,即便被害人大声呼救,也往往难以得到及时救助;c、发生火灾,浓烟弥漫,找不到电话,无法通过电话报警;诸如此类的事件如果具有语音安全监控就会及时报警,从而使得伤害和损失得到最大可能的挽救,解除险情;综上所述,语音监控安防技术特别是对语言流的实时监控方面的技术需要开拓性研究及进一步发展完善,以满足当下安防领域的新需求。
技术实现思路
鉴于以上
技术介绍
所述的问题,对wav语音数字信号流监控时不转文字,通过监测语音流的实时数据,在wav语音数字信号层做监控字词所映射的数字信号波段,推出实用高效的语音监控的技术解决方案,一方面,根据被监测人的语音特征为基础,获得语音克隆的基础条件参数,将预制设定的“关键词”创建、克隆成语音,获取标样语音特征;另一方面,在语音流上以时间间隔较大的周期采集到的语音片段样本,获得样本语音特征;标样、大尺度取样得到的样本语音特征进行比对获得概率值,将大于阀值的开始对语音流进行精细验证,小于阀值的放过,这样变通获得监测的效果,具体技术方案如下:一种实时语音流监控的方法,其特征在于包含以下步骤:对wav语音数字信号流监控时不转文字,通过监测语音流的实时数据,在wav语音数字信号层做监控字词所映射的数字信号波段,一方面,根据被监测人的语音特征为基础,获得语音克隆的基础条件参数,将预制设定的“关键词”创建、克隆成语音,获取标样语音特征;另一方面,在语音流上以时间间隔较大的周期采集到的语音片段样本,获得样本语音特征;标样、大尺度取样得到的样本语音特征进行比对获得概率值,将大于阀值的开始对语音流进行精细验证,小于阀值的放过。配置语音流监控系统数据库/系统环境,配置设定监控内容的关键字/词/句的用户界面、相应的程式以及匹配的存储数据库表格,并设定监控字词句。创建语音文件,根据第三方翻译平台的接口,部署语音流监控系统内部的标准提交接收返回模块,将监控设置指定的字/词/句按照平台自定的格式提交到接口,并获得相应的语音文件;作为监测基准语音;计算基准语音连续帧的短时能量谷值;并结合过零率、短时能量、基因周期声学参数,对基准语音中首个音节进行精确定位分割,并获得首个音节的语音段。获得语音特征参数值:获得监测基准语音中首个音节的语音段、监测基准语音包括但不限于语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值,其中基准语音时长为T0,进一步,选出所述参数获得3、9、18维的特征向量,其中首个音节的语音段对应的参数为X1、X2、X3数组。做好以上步骤的技术部署后,实施多线程分层协调监控的技术步骤;即由粗略到精细验证的多线程监控,强制固定一个频率对被监测音频流数据进行采样、统一转换成混和单声道WAV格式。采样线程:设定采样周期间隔参数Z1的值为初始数值Z0,并设定取样时长T1,从当前处理获得语音数字信号开始,持续T1时长的时间,其间语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,并将样本单元通过线程通讯提交给线程2。避免造成卡顿漏采样,分别将线程包含但不限于采样线程、线程2单独成可执行文件exe,使用vb语言通过配置Picture或text等控件的LinkTopic、LinkMode参数使得适合于同步通讯,采用进程程序中使用控件的LinkExecute命令将指定的信息传送给其他进行的程序;采用线程程序和其他线程程序分别首先配置好工程的名称及程序控件的相关属性,使得符合结合上述通讯的接收条件,通过Form_LinkExecute事件过程,接收通讯的信息内容。线程2,在每样本单元语音信号,按照每T2长度分成N个帧获取对应的语音信号数据中各帧的最大值X,其中T2小于T1且T1为T2的整数倍,将该最大值作为当前样本单元语音信号数据对于帧的峰值,将所述帧峰值数据组存储在语音流监控系统中,并计算相应的语音短时能量值,获得语音中汉字对于的语音部分的声学特征,采样周期小于200毫秒,优选地,语音中单个汉字对应的语音片段,获得2-3个采样点,优选地采用55ms的时长为分帧长度,即T2等于55ms。获得分割帧音频数据中的代表性点的最大值,计算样本单元音频的能量,并进行能量去除纲量归一化运算,所得每帧T2长度锋值的均方根的T1对应样本单元的短时能量级别参数,并设定一个静音判断阀值,判断当前帧是否为静音帧;如果判断当前帧属于静音帧;则终止进一步识别的进程继续等待分析采样数据样本;如果判断当前帧不属于静音帧,将所述样本数据推送给线程3,并开启线程3的技术算法模块。线程3分类识别一,判定语音的类别,回调采样线程的采样周期,并决定是否进一步将样本提交个下一个线程中的内需监测模块验证。在样本音频数据中取声学特征参数包括但不限于:短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基本文档来自技高网
...

【技术保护点】
1.一种实时语音流监控的方法,其特征在于包含以下步骤:对wav语音数字信号流监控时不识别成文字,通过监测语音流的实时数据,在wav语音数字信号层做监控字词所映射的声学特征参数,一方面,根据被监测人的语音特征为基础,获得语音克隆的基础条件参数,将预制设定的“关键词”创建、克隆成语音,获取标样语音特征;另一方面,在语音流上以时间间隔较大的周期采集到的语音片段样本,获得样本语音特征;标样、大尺度取样得到的样本语音特征进行比对获得概率值,将大于阀值的开始对语音流进行精细验证,小于阀值的放过;/nS101、配置语音流监控系统数据库/系统环境,配置设定监控内容的关键字/词/句的用户界面、相应的程式以及匹配的存储数据库表格,并设定监控字词句;/nS102、创建语音文件,根据第三方翻译平台的接口,部署语音流监控系统内部的标准提交接收返回模块,将监控设置指定的字/词/句按照平台自定的格式提交到接口,并获得相应的语音文件;作为监测基准语音;/n计算基准语音连续帧的短时能量谷值;并结合过零率、短时能量、基因周期声学参数,对基准语音中首个音节进行精确定位分割,并获得首个音节的语音段;/nS103、获得语音特征参数值:获得监测基准语音中首个音节的语音段、监测基准语音包括但不限于语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值,其中基准语音时长为T0, 进一步,选出所述参数获得3、9、18维的特征向量,其中首个音节的语音段对应的参数为 X1、X2、X3数组;/nS104、做好以上步骤的技术部署后,实施多线程分层协调监控的技术步骤;即由粗略到精细验证的多线程监控,强制固定一个频率对被监测音频流数据进行采样、统一转换成混和单声道WAV格式;/nS105、采样线程:设定采样周期间隔参数Z1的值为初始数值Z0,并设定取样时长T1,从当前处理获得语音数字信号开始,持续T1时长的时间,其间语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,并将样本单元通过线程通讯提交给线程2;/n避免造成卡顿漏采样,分别将线程包含但不限于采样线程、线程2单独成可执行文件exe,使用vb语言通过配置Picture或text等控件的LinkTopic、LinkMode 参数 使得适合于同步通讯,采用进程程序中使用控件的LinkExecute命令将指定的信息传送给其他进行的程序;采用线程程序和其他线程程序分别首先配置好工程的名称及程序控件的相关属性,使得符合结合上述通讯的接收条件,通过Form_LinkExecute事件过程,接收通讯的信息内容;/nS106、线程2,在每样本单元语音信号,按照每T2长度分成N个帧获取对应的语音信号数据中各帧的最大值X,其中T2小于T1且T1为T2的整数倍,将该最大值作为当前样本单元语音信号数据对于帧的峰值,将所述帧峰值数据组存储在语音流监控系统中,并计算相应的语音短时能量值,获得语音中汉字对于的语音部分的声学特征,采样周期小于200毫秒,优选地,语音中单个汉字对应的语音片段,获得2-3个采样点,/n优选地采用55ms的时长为分帧长度,即T2等于55ms;/n获得分割帧音频数据中的代表性点的最大值, 计算样本单元音频的能量,并进行能量去除纲量归一化运算,所得每帧T2长度锋值的均方根的T1对应样本单元的短时能量级别参数,并设定一个静音判断阀值,判断当前帧是否为静音帧;如果判断当前帧属于静音帧;则终止进一步识别的进程继续等待分析采样数据样本;如果判断当前帧不属于静音帧,将所述样本数据推送给线程3,并开启线程3的技术算法模块;/nS107、线程3分类识别一,判定语音的类别,回调采样线程的采样周期,并决定是否进一步将样本提交个下一个线程中的内需监测模块验证;/n在样本音频数据中取声学特征参数包括但不限于:短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值;/n和谐度比对判定语音样本为音乐声时,终止所述判定运算,线程3设定为接受下一个语音样本的状态;反之判定语音样本为说话语音,则将样本通过线程通讯推送给线程4;/nS108、线程4分类识别二,在语音流监控系统预制存储包括但不限于钢琴曲、交响乐、京剧、流行歌曲和人说话语音类别的3s语音片断的语音特征数据;每个类别取300个典型语音片断的类型标样数据组,将通过线程3推送过来的语音样本的语音特征参数,分别和类型标样数据计算基于隐马尔可夫统计模型的对数后验概率,进一步,计算样本语音特征参数分别和每一类类型标样语音特征参数后验概率的平均概率,并进行比对大小,当且当对应人说话语音类标样的平均概率并非最大值时,则终止所述的运算,线程4设置为等待新语音样...

【技术特征摘要】
1.一种实时语音流监控的方法,其特征在于包含以下步骤:对wav语音数字信号流监控时不识别成文字,通过监测语音流的实时数据,在wav语音数字信号层做监控字词所映射的声学特征参数,一方面,根据被监测人的语音特征为基础,获得语音克隆的基础条件参数,将预制设定的“关键词”创建、克隆成语音,获取标样语音特征;另一方面,在语音流上以时间间隔较大的周期采集到的语音片段样本,获得样本语音特征;标样、大尺度取样得到的样本语音特征进行比对获得概率值,将大于阀值的开始对语音流进行精细验证,小于阀值的放过;
S101、配置语音流监控系统数据库/系统环境,配置设定监控内容的关键字/词/句的用户界面、相应的程式以及匹配的存储数据库表格,并设定监控字词句;
S102、创建语音文件,根据第三方翻译平台的接口,部署语音流监控系统内部的标准提交接收返回模块,将监控设置指定的字/词/句按照平台自定的格式提交到接口,并获得相应的语音文件;作为监测基准语音;
计算基准语音连续帧的短时能量谷值;并结合过零率、短时能量、基因周期声学参数,对基准语音中首个音节进行精确定位分割,并获得首个音节的语音段;
S103、获得语音特征参数值:获得监测基准语音中首个音节的语音段、监测基准语音包括但不限于语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值,其中基准语音时长为T0,进一步,选出所述参数获得3、9、18维的特征向量,其中首个音节的语音段对应的参数为X1、X2、X3数组;
S104、做好以上步骤的技术部署后,实施多线程分层协调监控的技术步骤;即由粗略到精细验证的多线程监控,强制固定一个频率对被监测音频流数据进行采样、统一转换成混和单声道WAV格式;
S105、采样线程:设定采样周期间隔参数Z1的值为初始数值Z0,并设定取样时长T1,从当前处理获得语音数字信号开始,持续T1时长的时间,其间语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,并将样本单元通过线程通讯提交给线程2;
避免造成卡顿漏采样,分别将线程包含但不限于采样线程、线程2单独成可执行文件exe,使用vb语言通过配置Picture或text等控件的LinkTopic、LinkMode参数使得适合于同步通讯,采用进程程序中使用控件的LinkExecute命令将指定的信息传送给其他进行的程序;采用线程程序和其他线程程序分别首先配置好工程的名称及程序控件的相关属性,使得符合结合上述通讯的接收条件,通过Form_LinkExecute事件过程,接收通讯的信息内容;
S106、线程2,在每样本单元语音信号,按照每T2长度分成N个帧获取对应的语音信号数据中各帧的最大值X,其中T2小于T1且T1为T2的整数倍,将该最大值作为当前样本单元语音信号数据对于帧的峰值,将所述帧峰值数据组存储在语音流监控系统中,并计算相应的语音短时能量值,获得语音中汉字对于的语音部分的声学特征,采样周期小于200毫秒,优选地,语音中单个汉字对应的语音片段,获得2-3个采样点,
优选地采用55ms的时长为分帧长度,即T2等于55ms;
获得分割帧音频数据中的代表性点的最大值,计算样本单元音频的能量,并进行能量去除纲量归一化运算,所得每帧T2长度锋值的均方根的T1对应样本单元的短时能量级别参数,并设定一个静音判断阀值,判断当前帧是否为静音帧;如果判断当前帧属于静音帧;则终止进一步识别的进程继续等待分析采样数据样本;如果判断当前帧不属于静音帧,将所述样本数据推送给线程3,并开启线程3的技术算法模块;
S107、线程3分类识别一,判定语音的类别,回调采样线程的采样周期,并决定是否进一步将样本提交个下一个线程中的内需监测模块验证;
在样本音频数据中取声学特征参数包括但不限于:短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值;
和谐度比对判定语音样本为音乐声时,终止所述判定运算,线程3设定为接受下一个语音样本的状态;反之判定语音样本为说话语音,则将样本通过线程通讯推送给线程4;
S108、线程4分类识别二,在语音流监控系统预制存储包括但不限于钢琴曲、交响乐、京剧、流行歌曲和人说话语音类别的3s语音片断的语音特征数据;每个类别取300个典型语音片断的类型标样数据组,将通过线程3推送过来的语音样本的语音特征参数,分别和类型标样数据计算基于隐马尔可夫统计模型的对数后验概率,进一步,计算样本语音特征参数分别和每一类类型标样语音特征参数后验概率的平均概率,并进行比对大小,当且当对应人说话语音类标样的平均概率并非最大值时,则终止所述的运算,线程4设置为等待新语音样本的状态;否则判定为该语音样本为人说话语音,并通过分类器进行验证;
通过分离器验证为说话语音时,开启语音内容监控线程的内容监控模块,将样本在语音流上的时间戳TC提交给语音内容监控线程,否则关闭语音内容监控线程;
S109、线程5语音内容监控线程,其中包括采样2模块用于获得采样样本2的样本:设定采样周期间隔参数Z11的值为初始数值Z10,并设定取样时长T11,从当前处理或获得语音数字信号开始,持续T11时长的时间,其间语音数字信号的...

【专利技术属性】
技术研发人员:邝翠珊
申请(专利权)人:深圳市数字星河科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1