基于语音分析的敏感内容识别方法、装置、终端及介质制造方法及图纸

技术编号:20871150 阅读:22 留言:0更新日期:2019-04-17 10:18
本发明专利技术公开了一种基于语音分析的敏感内容识别方法、装置、终端及介质,终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量,根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本,再确定与所述当前语音场景对应的敏感信息库,不同的语音场景对应不同的敏感信息库,提高了判断敏感内容的准确性,再根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数,将语义文本与敏感信息库语义比较,进一步提高准确性,在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。

【技术实现步骤摘要】
基于语音分析的敏感内容识别方法、装置、终端及介质
本专利技术涉及人工智能
,尤其涉及一种基于语音分析的敏感内容识别方法、装置、终端及介质。
技术介绍
人工智能,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等,而语音识别技术在人工智能中尤为重要。目前,敏感词的语音识别技术主要基于建立的语音敏感词语语料库,用匹配分析的方式对敏感词进行识别,由于敏感词单一,缺乏根据不同的应用场景,搭建对应的敏感词模型,敏感内容识别不够准确。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供了一种基于语音分析的敏感内容识别方法、装置、终端及介质,旨在解决现有技术对敏感内容识别不够准确的技术问题。为实现上述目的,本专利技术提供了一种基于语音分析的敏感内容识别方法,包括:终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;确定与所述当前语音场景对应的敏感信息库;根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。优选地,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤之前,还包括:建立前馈型序列记忆网络模型,所述前馈型序列记忆网络模型的隐层连接有反馈连接块,以存储历史信息和未来信息。优选地,所述根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本的步骤,具体为:根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量采用拼接帧作为输入,获得与所述语音特征向量对应的语义文本。优选地,所述根据预先建立的双向神经网络模型以及确定的敏感信息库,确定所述语义文本的敏感指数的步骤,具体包括:将所述语义文本作为第一输入语句、所述敏感信息库中的一条敏感语句作为第二输入语句,对所述第一输入语句和第二输入语句进行预处理;将预处理后的第一输入语句和第二输入语句分别作为双向神经网络模型的输入,分别得到第一输出和第二输出;比对第一输出和第二输出的相似度,以得到所述语义文本与所述敏感语句的相似度值;确定所述敏感信息库中与所述语义文本相似度值最高的敏感语句,将最高的所述相似度值作为敏感指数。优选地,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤,具体包括:获取待测音频片段和当前语音场景;对所述待测音频片段的首尾端的静音切除处理;对静音切除处理后的所述待测音频分帧处理得到多个语音帧;对每个所述语音帧进行特征提取,得到每个所述语音帧的语音特征向量。优选地,所述获取待测音频片段和当前语音场景的步骤,具体包括:获取待测音频片段;根据所述待测音频片段,获取所述待测音频片段的背景音频;根据所述背景音频,确定当前语音场景。优选地,所述获取待测音频片段和当前语音场景的步骤,具体包括:获取所述待测音频片段和所述终端的当前位置;根据所述当前位置,判断当前所处的地理环境;根据所述待测音频片段,获取所述待测音频片段的背景音频;根据当前的所述地理环境和所述背景音频,确定当前语音场景。为实现上述目的,本专利技术还提供一种基于语音分析的敏感内容识别装置,包括:参数获取模块,用于获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;语义分析模块,用于根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;信息确定模块,用于确定与所述当前语音场景对应的敏感信息库;敏感分析模块,用于根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;敏感确定模块,用于在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。为实现上述目的,本专利技术还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音分析的敏感内容识别程序,所述基于语音分析的敏感内容识别程序配置为实现上述的基于语音分析的敏感内容识别方法的步骤。为实现上述目的,本专利技术还提供一种存储介质,所述存储介质上存储有基于语音分析的敏感内容识别程序,所述基于语音分析的敏感内容识别程序被处理器执行时实现如上述的基于语音分析的敏感内容识别方法的步骤。本专利技术终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量,根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本,再确定与所述当前语音场景对应的敏感信息库,不同的语音场景对应不同的敏感信息库,提高了判断敏感内容的准确性,再根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数,将语义文本与敏感信息库语义比较,进一步提高准确性,在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容,解决了现有技术对敏感内容识别不够准确的技术问题。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的终端的结构示意图;图2为本专利技术基于语音分析的敏感内容识别方法第一实施例的流程示意图;图3为本专利技术基于语音分析的敏感内容识别方法第二实施例的流程示意图;图4为本专利技术基于语音分析的敏感内容识别方法第三实施例的流程示意图;图5为本专利技术基于语音分析的敏感内容识别方法第四实施例的流程示意图;图6为本专利技术基于语音分析的敏感内容识别方法第五实施例的流程示意图;图7为本专利技术基于语音分析的敏感内容识别方法第六实施例的流程示意图;图8为本专利技术基于语音分析的敏感内容识别方法第七实施例的流程示意图;图9为本专利技术基于语音分析的敏感内容识别装置第一实施例的结构框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。参照图1,图1为本专利技术实施例方案涉及的硬件运行环境的终端结构示意图。如图1所示,该终端可以包括:处理器1001,例如中央处理器(CentralProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccessMemory,RAM)存储器,也可以是稳定的非易失性存储器(Non-VolatileMemory,本文档来自技高网...

【技术保护点】
1.一种基于语音分析的敏感内容识别方法,其特征在于,包括:终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;确定与所述当前语音场景对应的敏感信息库;根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。

【技术特征摘要】
1.一种基于语音分析的敏感内容识别方法,其特征在于,包括:终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;确定与所述当前语音场景对应的敏感信息库;根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。2.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤之前,还包括:建立前馈型序列记忆网络模型,所述前馈型序列记忆网络模型的隐层连接有反馈连接块,以存储历史信息和未来信息。3.如权利要求2所述的基于语音分析的敏感内容识别方法,其特征在于,所述根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本的步骤,具体为:根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量采用拼接帧作为输入,获得与所述语音特征向量对应的语义文本。4.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述根据预先建立的双向神经网络模型以及确定的敏感信息库,确定所述语义文本的敏感指数的步骤,具体包括:将所述语义文本作为第一输入语句、所述敏感信息库中的一条敏感语句作为第二输入语句,对所述第一输入语句和第二输入语句进行预处理;将预处理后的第一输入语句和第二输入语句分别作为双向神经网络模型的输入,分别得到第一输出和第二输出;比对第一输出和第二输出的相似度,以得到所述语义文本与所述敏感语句的相似度值;确定所述敏感信息库中与所述语义文本相似度值最高的敏感语句,将最高的所述相似度值作为敏感指数。5.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征...

【专利技术属性】
技术研发人员:刘轲
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1