语音识别方法及其装置和语音识别系统制造方法及图纸

技术编号:23290094 阅读:17 留言:0更新日期:2020-02-08 19:39
本发明专利技术公开了一种语音识别装置及其装置和语音识别系统,该方法包括:对获取的音频信号进行特征提取,得到多个语音特征值;将所述多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;判断组成所述预设关键词的概率是否大于概率阈值,若是,则确定所述音频信号中存在所述预设关键词。该方法可以降低语音识别的计算量,降低应用该识别方法的硬件要求。

Speech recognition method and its device and speech recognition system

【技术实现步骤摘要】
语音识别方法及其装置和语音识别系统
本专利技术涉及语音识别
,尤其涉及语音识别装置及其装置和语音识别系统。
技术介绍
语音识别技术为一种能够对语音数据进行识别的技术,语音识别技术可应用于人机交互设备、安防监控系统等领域。目前有一种语音识别方法中可以对采集的连续语音数据进行识别后转换为文本文字,然后从文本文字中提取关键词,根据提取的关键词进行对应的处理,这种语音识别方法计算量较大,对硬件的要求较高。
技术实现思路
本专利技术提供一种语音识别方法及其装置和语音识别系统,以解决相关技术中的不足。根据本专利技术实施例的第一方面,提供一种语音识别方法,包括:对获取的音频信号进行特征提取,得到多个语音特征值;将所述多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;判断组成所述预设关键词的概率是否大于概率阈值,若是,则确定所述音频信号中存在所述预设关键词。可选的,在所述对获取的音频信号进行特征提取,得到多个语音特征值之前,还包括;判断所述音频信号中是否存在语音信号;若是,则执行对获取的音频信号进行特征提取,得到多个语音特征值的步骤。可选的,在确定所述音频信号中存在所述预设关键词之后,还包括:判断确定出的所述预设关键词是否属于预警关键词;若是,通过监控设备拍摄图像和/或录制视频,根据所述图像或者所述视频进行人脸检测或行为检测。可选的,在判断确定出的所述预设关键词属于预警关键词之后,还包括:获取所述监控设备的标识信息;根据所述标识信息获取所述监控设备所在地址。根据本专利技术实施例的第二方面,提供一种语音识别装置,包括:语音特征值提取单元,用于对获取的音频信号进行特征提取,得到多个语音特征值;发音音素概率获取单元,用于将所述多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;关键词概率获取单元,用于根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;关键词确定单元,用于判断组成所述预设关键词的概率是否大于概率阈值,若是,则确定所述音频信号中存在所述预设关键词。可选的,还包括:语音信号判断单元,用于判断所述音频信号中是否存在语音信号,若是,则执行对获取的音频信号进行特征提取的步骤。可选的,还包括:预警关键词判断单元,用于判断确定出的所述预设关键词是否属于预警关键词,若是,通过监控设备拍摄图像和/或录制视频,根据所述图像或者所述视频进行人脸检测和/或行为检测。可选的,还包括:地址获取单元,用于获取所述监控设备的标识信息;以及根据所述标识信息获取所述监控设备所在地址。根据本专利技术实施例的第三方面,提供一种语音识别系统,该系统包括:麦克风、图像传感器和语音识别装置;所述麦克风,用于采集音频信号,并将所述音频信号发送给所述语音识别装置;所述语音识别装置用于对获取的音频信号进行特征提取,得到多个语音特征值;将所述多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;判断组成所述预设关键词的概率是否大于概率阈值,若是,则确定所述音频信号中存在所述预设关键词,向所述图像传感器发送指示信息;所述图像传感器,用于根据所述指示信息拍摄图像或者录制视频。可选的,所述麦克风,用于将所述麦克风的标识信息和所述音频信号发送给所述语音识别装置;所述语音识别装置,根据所述标识信息指示相应的图像传感器拍摄图像和/或录制视频。可选的,所述系统还包括报警装置;所述语音识别装置,根据所述标识信息指定相应的图像传感器拍摄图像和/或录制视频,根据所述图像或者所述视频进行人脸检测和/或行为检测,在检测结果达到预设条件时,根据所述标识信息确定所述麦克风和/或所述图像传感器所在的地址,将所述地址发送给报警装置;所述报警装置,用于根据所述检测结果和所述地址,通过图案或语音进行报警。根据上述技术方案可知,该语音识别方法,可通过声学模型得到音频信号中多个发音音素的概率,然后根据多个发音音素的概率得到其中若干个连续发音音素组成预设关键词的概率,该方法不需要对音频信号中的各个语音发音对应的词语全部识别出来,只需要确定连续发音音素是否可以组成预设关键词,因此,可以降低语音识别的计算量,可以降低应用该识别方法的硬件要求,不仅可以在服务器上应用,也可以应用在监控设备上,适用于安防监控领域中通过语音识别对某些敏感的关键词进行监控。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据本专利技术一实施例提供的语音识别方法的工作流程图;图2是根据本专利技术另一实施例提供的语音识别方法的工作流程图;图3是根据本专利技术又一实施例提供的语音识别装置的方框图;图4是根据本专利技术一实施例提供的监控设备的硬件结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。针对相关语音识别方法计算量较大,对硬件的要求较高的问题,本专利技术实施例提供一种语音识别方法,如图1所示,该方法包括:步骤S10、对获取的音频信号进行特征提取,得到多个语音特征值;步骤S20、将多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;步骤S30、根据多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;步骤S40、判断组成预设关键词的概率是否大于概率阈值,若是,则确定音频信号中存在预设关键词。上述的方法可以应用在监控设备或者服务器上,监控设备例如为应用在安防监控技术中摄像装置,摄像装置例如为,摄像机、摄像头、云台相机等,监控设备作为一种前端设备,可以布置在所需的监控场景中,在监控场景中可以布置一台或者多台监控设备。监控设备通常为摄像装置,可通过摄像装置采集监控场景的视频图像,还可以将采集的视频图像发送给后端的服务器等,以通过服务器执行上述方法,服务器还可以供监控人员存储或者观看监控场景的画面。摄像装置不仅可以采集视频图像,还可以采集音频信号,通过对音频信号进行识别可以作为一种重要的安防监控手段。对于获取的音频信号可以采用已有的语音识别技术对其采集的音频信号进行语音识别处理,得到多个语音特征值,具体而言,对于音频信号可按照一定间隔时间(本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n对获取的音频信号进行特征提取,得到多个语音特征值;/n将所述多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;/n根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;/n判断组成所述预设关键词的概率是否大于概率阈值,若是,则确定所述音频信号中存在所述预设关键词。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
对获取的音频信号进行特征提取,得到多个语音特征值;
将所述多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;
根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;
判断组成所述预设关键词的概率是否大于概率阈值,若是,则确定所述音频信号中存在所述预设关键词。


2.根据权利要求1所述的方法,其特征在于,在所述对获取的音频信号进行特征提取,得到多个语音特征值之前,还包括;
判断所述音频信号中是否存在语音信号;
若是,则执行对获取的音频信号进行特征提取,得到多个语音特征值的步骤。


3.根据权利要求1或2或所述的方法,其特征在于,在确定所述音频信号中存在所述预设关键词之后,还包括:
判断确定出的所述预设关键词是否属于预警关键词;
若是,通过监控设备拍摄图像和/或录制视频,根据所述图像或者所述视频进行人脸检测和/或行为检测。


4.根据权利要求3所述的方法,其特征在于,在判断确定出的所述预设关键词属于预警关键词之后,还包括:
获取所述监控设备的标识信息;
根据所述标识信息获取所述监控设备所在地址。


5.一种语音识别装置,其特征在于,包括:
语音特征值提取单元,用于对获取的音频信号进行特征提取,得到多个语音特征值;
发音音素概率获取单元,用于将所述多个语音特征值输入到声学模型中进行识别,得到多个发音音素的概率;
关键词概率获取单元,用于根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率;
关键词确定单元,用于判断组成所述预设关键词的概率是否大于概率阈值,若是,则确定所述音频信号中存在所述预设关键词。


6.根据权利要求5所述的装置,其特征在于,还包括:
语音信号判断单元,用于判断所述音频信号中是否存在语音信号...

【专利技术属性】
技术研发人员:陈展齐昕
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1