【技术实现步骤摘要】
语音数据的识别方法及其装置、电子设备及存储介质
[0001]本专利技术涉及数据处理领域,具体而言,涉及一种语音数据的识别方法及其装置、电子设备及存储介质。
技术介绍
[0002]随着多媒体技术的发展,多媒体数据在传输的数据中的占比越来越大,越来越多的用户将敏感信息通过语音、图片等方式,利用即时通信类软件向外发送。然而,对于这种即时通信传输的敏感信息很难进行识别和阻拦,往往会造成不可估量的后果。
[0003]相关技术中,针对敏感数据的识别大多是基于文本内容对用户定义的敏感信息进行建模、分析并识别,而针对音频数据,往往是将音频数据转换成文本,再使用基于文本构建的识别引擎对音频数据进行识别,存在如下问题:
[0004](1)精度问题:在语音识别引擎识别语音外发内容的过程中,由于识别本身的不稳定,会造成错漏字以及同音字的转写等问题,将严重影响基于文本构建的识别引擎的识别精度,特别在一些专有名词(或行业名词)的识别过程中,这类问题尤为突出。
[0005](2)效率问题:常规的语音识别引擎一般都经历将音频转音素、 ...
【技术保护点】
【技术特征摘要】
1.一种语音数据的识别方法,其特征在于,包括:对通信过程中的语音数据进行分窗处理,得到多个子窗口数据;对每个所述子窗口数据进行预设梅尔处理,得到梅尔向量;对所述梅尔向量进行解码,得到与每个所述子窗口数据对应的语音状态;将所述语音状态与预先建立的隐马尔科夫模型中的目标状态进行匹配,并在匹配成功的情况下,确定所述语音数据中携带有敏感信息。2.根据权利要求1所述的识别方法,其特征在于,在对通信过程中的语音数据进行分窗处理,得到多个子窗口数据之前,还包括:提取历史语音数据的梅尔向量,得到多维向量;对音素组合进行建模,得到音素模型,其中,所述音素组合为声母音素与韵母音素构建的组合;基于所述多维向量,拼接所述音素模型,得到音素矩阵模型。3.根据权利要求2所述的识别方法,其特征在于,提取历史语音数据的梅尔向量,得到多维向量的步骤,包括:对所述历史语音数据进行预加重处理,得到目标语音数据;对所述目标语音数据进行分帧处理,得到多个短时帧;对所述多个短时帧进行加窗处理,得到多个目标短时帧;将所述目标短时帧进行变换处理,得到与每个所述目标短时帧对应的频谱,并对多个所述频谱进行取模平方处理,得到所述历史语音数据的功率谱;对经过滤波后的所述功率谱进行变换处理,得到所述多维向量。4.根据权利要求2所述的识别方法,其特征在于,在基于所述多维向量,拼接所述音素模型,得到音素矩阵之后,还包括:采用预设高斯分布,对每个音素进行拟合,建立与每个所述音素对应的音素状态,其中,所述音素状态包括:开始状态、持续状态、结束状态;采用预设无监督算法,对所述音素矩阵模型进行训练,得到每个所述音素的所述音素状态的特征值以及每个所述音素状态之间的转移概率矩阵,其中,所述特征值至少包括:均值和方差值,所述开始状态的下一状态为持续状态,所述持续状态的下一状态为所述持续状态或者所述结束状态,所述结束状态的下一状态为另一音素模型的所述开始状态。5.根据权利要求4所述的识别方法,其特征在于,在基于所述多维向量,拼接所述音素模型,得到音素矩阵之...
【专利技术属性】
技术研发人员:姜珂,孙彦芬,万朝华,
申请(专利权)人:山石网科通信技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。