全媒体中多维检测特定目标的方法技术

技术编号:12266929 阅读:55 留言:0更新日期:2015-10-31 13:53
全媒体中多维检测特定目标的方法,具体步骤是:根据检索条件样本,确定搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类型;根据的搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类型,选择匹配的检测识别引擎;分析每个检测识别引擎的结果,得到检索关键词、目标特征量数据,作为检索条件发送给搜索引擎进行检索;相关的每个搜索引擎从输入的目标检索数据中检索符合条件的数据,并记录数据片段和出现位置;每个搜索引擎检索不同的数据,得到不同的检索结果,将这些检索结果再进行汇总、分类输出;多种方式不同维度的检索,提高了数据的查全率和查准率。

【技术实现步骤摘要】

本专利技术涉及一种从全媒体数据中检测特定目标出现的方法,尤其涉及一种全媒体 中多维检测特定目标的方法。
技术介绍
全媒体信息包含文字、语音、图片、视频等多种形式的数据,从这些信息中找特定 的目标(人、物),涉及声纹识别、语音识别、图像识别、视频指纹、文字分析等多项技术,是 一项复杂的系统工程。并且,由于声纹、语音、图像识别及视频指纹技术都处于发展阶段,单 一一项技术无法达到预期的查全、查准等性能指标要求。在媒体中声纹、语音、图像、视频指 纹、文字信息,具有一定的内在关联性,例如,视频信息一般包括文字、声音、视频画面,声音 数据包括可以识别成文字的说话音,也包含说话人不同于他人的生物特征等,这些信息通 过内容分析,可以建立一定的关系,这就为通过多种方式检索共同目标提供了技术基础。 基于对声纹、语音、图像、视频指纹、文字信息的长期研究,我们发现可以通过一定 的统计分析,提取这些信息中两项、三项、多项之间的共同特征或描述内容,利用一种检索 方式的结果,拓展到几种方式协同检索,提供综合检索结果。例如,从声纹检测,判断出说话 的人是谁,同时,提取这个人说话的片段信息;知道了说话人是谁后,可以从语音识别中,找 到涉及这个说话人的内容;也可以查询到说话人的图片和相关视频片段;还可以进一步找 到相关的文字信息。 由于语音识别、图像识别、视频指纹识别采用DNN、HMM等技术,它们大多数是基于 统计分析模型,这些技术均有一定的缺陷,单一技术手段不能达到预期的识别效果。为了提 高单一技术的性能,需要大幅提高统计分析的样本模型库的数据量,但是,环境噪声、说话 人的口音、语速、性别等外部因素影响语音和声纹识别的性能,拍摄图像和视频的光照、分 辨率、背景复杂度也对图像识别、视频指纹识别有很大影响,单一技术手段都不能达到满意 效果,因此,需要采取多种手段结合,提高识别的查全率。
技术实现思路
本专利技术是通过多种方式,检索全媒体信息的不同类型特征向量,如:文本关键词、 声纹、语音内容、图像色彩、图像语义等,汇总要查询目标的各项信息,能更全面获得与检索 目标相关的信息元数据片段及记录元数据的位置,多种方式不同维度的检索,提高了数据 的查全率和查准率。 为实现上述目的,本专利技术所采用的技术方案是:全媒体中多维检测特定目标的方 法,具体步骤如下: S1 :根据检索条件样本,如文本关键词、声纹特征语音、内容语音、特征图片、特征 视频,确定搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类型; S2 :根据的搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类 型,选择匹配的检测识别引擎,如关键词识别引擎,声纹识别引擎、语音语义识别引擎、形状 识别引擎;S3:分析每个检测识别引擎的结果,得到检索关键词、目标特征量数据,作为检索 条件发送给搜索引擎进行检索;S4:相关的每个搜索引擎从输入的目标检索数据中检索符合条件的数据,并记录 数据片段和出现位置; S5:每个搜索引擎检索不同的数据,得到不同的检索结果,将这些检索结果再进行 汇总、分类输出。 进一步的,再步骤S2中,如有多个不同数据类型检索条件,则选择多个检测识别 引擎。进一步的,再步骤S3中,如检索条件中含有3个以上的关键词,则进一步分解成关 键词组。 进一步的,再步骤S3中,如某项数据无需启用与之对应的识别引擎处理数据,将 条件值设置成空值。进一步的,步骤S4中的目标检索数据来自数据库、数据文件、网络流媒体,包括:文本、语音、图片、视频数据。进一步的,步骤S5中检索结果是文本、语音、图片、视频中的一种或几种,对于语 音、视频的检索结果,再提取关联内容片段或记录入点和时长。 更进一步的,在步骤S5中,检索结果是依据下面公式实现的: XVf又里汉可可抓叨: SR,检索结果;SEi,搜索引擎;i,引擎编号,如,SEi代表声纹搜索引擎,SE2代表语 音搜索引擎;N,表示全媒体中的数据类型数;RE,,检测识别引擎,检测识别引擎具有目标检 测和目标识别的功能,针对不同数据,可以同时具有检测和识别两项功能,也可以只具有单 一功能,不同检测识别引擎处理不同数据内容;j,检测识别引擎编号,例如,REi代表声纹识 别引擎,识别说话的人是谁;RE2代表语音识别引擎,识别语音中的内容及关键词;k,表示样 本库中的样本号,也表示样本识别循环次数;M,表示样本库中的样本数,有多少样本可以识 另IJ认证;P],搜索引擎和检测识别引擎要检索和识别的目标参考样本数据吨,搜索引擎检 索对象,即搜索引擎从哪些数据中检索目标信息。 作为更进一步的,所述的检测识别引擎具有检测识别和检索两层功能,不同数据 类型对象进行处理的引擎作为不同处理维度。 本专利技术专利由于采用以上技术方案,能够取得如下的技术效果:通过多种方式, 检索全媒体信息的不同类型特征向量,如文本关键词、声纹、语音内容、图像色彩、图像语义 等,汇总要查询目标的各项信息,能更全面获得与检索目标相关的信息元数据片段及记录 元数据的位置。多种方式不同维度的检索,提高了数据的查全率和查准率。采用本专利技术方 法,可以弥补单一识别引擎的查全率低的问题,提高全媒体检索的查全率和查准率,针对不 同的应用环境和检索样本,可以将查全率提高10% -30%。【附图说明】 本专利技术共有附图1幅: 图1是本专利技术的流程图。 具体实施例 下面通过具体实施例,并结合附图,对本专利技术的技术方案作进一步的解释说明。 如图1所示,本专利技术提供的是:一种,具体步骤 如下:S1 :根据检索条件样本,如文本关键词、文本句子、声纹特征语音(说话人的语音 或其他要检索的物体发出的声音数据)、内容语音(语音中说到检索目标的语音数据)、特 征图片(人脸、人形、物体形状、颜色、聚集状态特征图片)、特征视频(一小段含有人脸、人 形、物体形状、颜色、聚集状态特征的视频数据),确定搜索引擎和检测识别引擎要检索和识 别的目标参考样本数据的数据类型;检索条件样本类似普通搜索引擎的检索关键字,由于 全媒体检索的条件可能是文本、语音(片段)、图片、视频(片段)形式中的一种或几种组 合。文本可以是"关键词"单词组合;也可以是文本句子;也可以是中文与其他语言的混合 文本。语音(片段)是输入一段声音数据,在本专利技术的方法中默认支持WAV格式,其他格 式的声音数据可以转换,语音的内容可以是完整的句子,也可以是短语。图片采用基本的 BMP格式,其他格式的可以转换为BMP使用,图片中要有检索的目标人、物体,最低分辨率 32X32,颜色值不限。视频(片段)格式以AVI为基础,其他格式可以转换,包含要检索的人、 目标,要检索的目标分辨率不低于32X32像素。S2 :根据的搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类 型,选择匹配的检测识别引擎,如关键词识别引擎,声纹识别引擎、语音语义识别引擎、形状 识别引擎;图1中的REi……REN代表不同的检测识别引擎,检测识别引擎可以检测或识别 文本关键词、声纹、语音语义、视频指纹、形状、物体颜色、聚集状态等特征。S3 :分析每个检测识别引擎的结果,得到检索关键词、目标特征量数据,作为检索 条件发送给搜索引擎进行检索;检测识别引擎处理结果: 关键词检测识别引擎,提取文本句本文档来自技高网
...

【技术保护点】
全媒体中多维检测特定目标的方法,其特征在于,具体步骤如下:S1:根据检索条件样本,确定搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类型;S2:根据的搜索引擎和检测识别引擎要检索和识别的目标参考样本数据的数据类型,选择匹配的检测识别引擎;S3:分析每个检测识别引擎的结果,得到检索关键词、目标特征量数据,作为检索条件发送给搜索引擎进行检索;S4:相关的每个搜索引擎从输入的目标检索数据中检索符合条件的数据,并记录数据片段和出现位置;S5:每个搜索引擎检索不同的数据,得到不同的检索结果,将这些检索结果再进行汇总、分类输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:薛丹陈淑珊张松涛迟立明
申请(专利权)人:瑞达昇科技大连有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1