一种可通过语音识别的视频监控联网系统技术方案

技术编号:12875055 阅读:48 留言:0更新日期:2016-02-17 11:50
本发明专利技术公开一种可通过语音识别的视频监控联网系统,该系统包括:词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;相似度比较模块,适于将输入语音信号的特征矢量依次与词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;语音识别引擎模块,适于根据语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。本发明专利技术通过相似度比较,在模版数据库中找出与输入语音信号相似度最高的语音识别结果,并根据语音识别结果获得词解码序列,从而转换代码进行执行查找。

【技术实现步骤摘要】

本专利技术属于视频监控联网领域,具体涉及一种可通过语音识别的视频监控联网系统
技术介绍
视频监控是安全防范系统的重要组成部分,传统的监控系统包括前端摄像机、传输线缆、视频监控平台。摄像机可分为网络数字摄像机和模拟摄像机,可作为前端视频图像信号的采集,它是一种防范能力较强的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来,随着计算机、网络以及图像处理、传输技术的飞速发展,视频监控技术也有了长足的发展。近年来,随着视频监控系统大规模的不断扩大,应用的不断深入,系统的整合需求日益强烈;如各级公安机关对远程图像资源共享的需求不断提升,诸警种并发图像资源共享冲突日益突出,横向跨区域图像共享需求日益增多,视频监控〃大联网〃已悄然成为必然发展趋势且部分视频监控联网已经发展成为现实。但是,本专利技术的专利技术人经过研究发现,随着视频监控联网的实现,监控视频数量越来越多,视频数据库中的视频数量呈现剧增态式,当管理人员或其他人员需要对存储的监控视频进行查询、录像回放等具体应用时,一般通过鼠标和键盘找到组织机构或视频通道进行检索,因而传统的监控系统查询视频操作繁琐,效率低下,不能快速定位需要的监控视频,工作量巨大。
技术实现思路
针对现有技术存在的技术问题,本专利技术提供一种可通过语音识别的视频监控联网系统,该系统能快速找到视频、录像视频等进行描述、辨认、检索、快速执行如拖拉播放。为了实现上述目的,本专利技术采用如下技术方案:一种可通过语音识别的视频监控联网系统,该系统包括:词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;相似度比较模块,适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;语音识别引擎模块,适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。本专利技术提供的可通过语音识别的视频监控联网系统,通过相似度比较,在模版数据库中找出与输入语音信号相似度最高的语音识别结果即相应的文本,并根据语音识别结果即相应的文本获得词解码序列,即将相应的文本转换成机器执行代码进行执行查找,代替传统的通过鼠标和键盘找到组织机构或视频通道进行检索查找,因而能快速找到目标视频、录像视频等,工作效率高,智能化程度高,定位速度快,所以能更快满足用户对目标视频进行描述、辨认、检索、快速执行如拖拉播放的需要。进一步,所述词典场景语音模块中的模版包括监控系统术语模版和人体语音加词典模版。进一步,所述语音识别引擎模块中搜索所依据的是对公式中的声学模型打分和语言模型打分。【附图说明】图1是本专利技术提供的可通过语音识别的视频监控联网系统原理示意图。图中,1、词典场景语音模块;2、相似度比较模块;3、语音识别引擎模块。【具体实施方式】为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。请参考图1所示,本专利技术公开一种可通过语音识别的视频监控联网系统,该系统包括:词典场景语音模块1,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;相似度比较模块2,适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;语音识别引擎模块3,适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。本专利技术提供的可通过语音识别的视频监控联网系统,通过相似度比较,在模版数据库中找出与输入语音信号相似度最高的语音识别结果即相应的文本,并根据语音识别结果即相应的文本获得词解码序列,即将相应的文本转换成机器执行代码或命令进行执行查找,代替传统的通过鼠标和键盘找到组织机构或视频通道进行检索查找,因而能快速找到目标视频、录像视频等,工作效率高,智能化程度高,定位速度快,所以能更快满足用户对目标视频进行描述、辨认、检索、快速执行如拖拉播放的需要。作为具体实施例,所述词典场景语音模块1中的模版包括监控系统术语模版和人体语音加词典模版,所述监控系统术语模版中包括例如网络摄像机(IPC)、网络硬盘录像机(NVR)、出入口控制管理系统等术语;所述人体语音加词典模版中包括例如"XX支行XX网点加钞间视频"等人体语音,即将语音智能识别分成两种识别库进行综合分析并转换成系统可执行语言,由此可以提高语音识别的全面性和准确性。作为具体实施例,所述相似度比较模块2适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;即所述相似度比较模块2处于识别学习阶段,对输入的语音信号进行语言综合分析和语音库比对综合分析,得到与输入语音信号相似度最高的相应文本。作为具体实施例,所述语音识别引擎模块3中预设有词模型序列,当得到相似度最高的语音识别结果后,可根据该相似度最高的语音识别结果在所述语音识别引擎模块3中进行寻找,以找到一个能够准确描述语音输入信号的词模型序列,并将该词模型序列作为所述语音输入信号的词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。其中,通过语音识别引擎模块3搜索所依据的是对公式中的声学模型打分和语言模型打分,具体为:1、声韵调是适合汉语的音位系统;2、声学模型所运用的语音特征要首先区分发音方法进而区分发音部位;3、在音节层面上就要利用语言模型。其主要是利用市面上成熟的语音识别引擎模块进行检索,通过所述语音识别引擎模块,可以将得到的相应文本转换成机器执行代码或命令进行执行查找,代替了传统的通过使用鼠标和键盘找到组织机构及视频通道,进行拖拉播放等操作,因而能够快速查找和调用视频监控联网系统的视频、时间、显示窗口及音频等,工作效率高,智能化程度高。以上仅为本专利技术的实施方式,并非因此限制本专利技术的专利范围,凡是利用本专利技术说明书及附图内容所作的等效结构,直接或间接运用在其他相关的
,均同理在本专利技术的专利保护范围之内。【主权项】1.一种可通过语音识别的视频监控联网系统,其特征在于,该系统包括: 词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存; 相似度比较模块,适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出; 语音识别引擎模块,适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。本文档来自技高网
...

【技术保护点】
一种可通过语音识别的视频监控联网系统,其特征在于,该系统包括:词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;相似度比较模块,适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;语音识别引擎模块,适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。

【技术特征摘要】

【专利技术属性】
技术研发人员:阚涛
申请(专利权)人:讯美电子科技有限公司
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1