Eagle媒资深度搜索方法技术

技术编号:14690900 阅读:172 留言:0更新日期:2017-02-23 13:30
本发明专利技术涉及网络技术领域,特别是一种Eagle媒资深度搜索方法,包括以下步骤,步骤S101:媒资信息提取,自动从音视频文件中提取出各类信息;步骤S102:创建标引库,将提取出的信息按照一定标准规范对文件进行自动标引,从而创建标引库;步骤S103:媒资搜索处理,对标引库内的音视图媒资信息进行搜索处理。采用上述方法后,本发明专利技术利用各类自动化处理技术,能从音视图文全媒体内容里提取出丰富的显性信息出来,并创建强大的标引库,让标引信息更加完整、更加精准、更加丰富;基于分布式云计算,采用全新的搜索方式,不仅能准确的找到相应的媒体内容,而且能做到视频的帧级精准定位。

【技术实现步骤摘要】

本专利技术涉及网络
,特别是一种Eagle媒资深度搜索方法
技术介绍
目前,媒资搜索只能基于媒体名称、媒体类型等编目信息和文件创建者进行搜索,导致搜索方式单一,降低了搜索效率,甚至有些时候用户会找不到想要的搜索结果。中国专利技术专利CN103595597A公开了一种媒体资源搜索的方法及设备,包括DLNA网络中的控制点设备接收用户输入的媒体资源搜索信息,所述媒体资源搜索信息包括媒体类型和媒体资源目标生成地;根据所述用户输入的媒体资源搜索信息,生成媒体搜索请求;将所述媒体搜索请求发送至媒体服务器,以使得媒体服务器中搜索与所述媒体资源搜索信息对应的媒体资源;接收所述媒体服务器发送的搜索结果。
技术实现思路
本专利技术需要解决的技术问题是提供一种从媒资文件中自动化提取搜索信息的方法。为解决上述的技术问题,本专利技术的Eagle媒资深度搜索方法,包括以下步骤,步骤S101:媒资信息提取,自动从音视频文件中提取出各类信息;步骤S102:创建标引库,将提取出的信息按照一定标准规范对文件进行自动标引,从而创建标引库;步骤S103:媒资搜索处理,对标引库内的音视图媒资信息进行搜索处理;进一步的,所述步骤S101中自动从音视图文件中提取出信息采用截图服务、转场识别、图片DNA、声纹识别、语音识别和人脸识别。更进一步的,所述步骤S101中提取出的信息包括关键帧图片、人脸信息、语音文本信息、声纹信息和图片DNA信息。更进一步的,所述步骤S103中搜索处理方式包括音视频搜索、图片搜索和全文搜索。更进一步的,所述步骤S103中音视频搜索、图片搜索和全文搜索均采用分布式多节点部署架构。更进一步的,所述步骤S102中标引库采用mongoDB非关系型数据库进行存储,并采用ES创建索引文件。更进一步的,所述步骤S103中对标引库内的音视频媒资信息的搜索处理包括比对、筛选和排序。采用上述方法后,本专利技术利用各类自动化处理技术,能从音视图文全媒体内容里提取出丰富的显性信息出来,并创建强大的标引库,让标引信息更加完整、更加精准、更加丰富;基于分布式云计算,采用全新的搜索方式,不仅能准确的找到相应的媒体内容,而且能做到视频的帧级精准定位。附图说明下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术Eagle媒资深度搜索方法的流程图。图2为本专利技术Eagle媒资深度搜索方法的总体框架图。图3为本专利技术Eagle媒资深度搜索方法媒资信息提取示意图。图4为本专利技术Eagle媒资深度搜索方法分布式检索示意图。具体实施方式如图1所示,本专利技术的Eagle媒资深度搜索方法,包括以下步骤,步骤S101:媒资信息提取,自动从音视频文件中提取出各类信息。Eagle的核心价值在于通过智能处理技术手段自动从音视图文件中提取出可理解、有意义、有价值的信息,并对文件进行自动标引,从而创建丰富海量的标引库。创建标引库所用到的技术手段包括:截图服务、图片DNA、声纹识别、语音识别、人脸识别等。如图3所示,最上层有统一信息采集管理服务,该服务负责接收应用层下发的采集任务,并对文件类型、合法性、完整性等进行校验,然后根据文件类型去自动调取不同的采集服务,例如:图片文件即调取图片DNA服务、人脸识别服务;音频文件调取声纹识别、语音识别服务;视频文件调用转场识别、截图、人脸识别、语音识别、声纹识别等,这样对应用层极大的简化了对接的复杂度。上述技术手段具体如下:1)截图服务截图服务主要用于视频关键帧的截取,从而为图像信息识别及关键帧精细化定位打好基础。截图服务处理速度为:超清10倍速、高清15倍速、标清22倍速、流畅30倍速,其截取画面的偏差基本为前后一帧。根据不用的应用场景和业务需求,图片截取的规则可以灵活设定,可以为1秒一帧、2秒一帧等。2)转场识别转场识别服务通过语音断句、声色变化、人脸识别等,将一定规律连续截取的图片过滤掉重复的无效的画面,这样不但减少了图片DNA比对的数据运算量,而且提高了搜索结果的精准性提供了用户体验。3)图片DNA图片DNA是对图片的色彩、形状等信息的描述,是图片特征值的唯一标识,主要用于图片之间的比对搜索。由于通过截图服务将图片做了规格统一,因此对截取的图片做DNA提取的速度与图片清晰度无关,平均为40倍速。图片的压缩、拉伸、亮度、色彩(例如:黑白处理、加上滤镜等)的任意调整对图片DNA比对的准确性影响不大;对于含有人脸图片的角度旋转,系统会自动做校正处理因此也不会影响其比对的准确性。4)人脸识别通过创建人脸模型来识别图片中所包含的人物信息,只需2张人物正面+侧面照即可准确描述一个人脸模型,通过对人脸64个特征点的学习及提取,可做到识别的结果与人物的年龄、胖瘦均无关。人脸识别的速度公有云服务约为1秒/张,私有云服务约为0.5秒/张,人脸识别的准确性(漏识率+正确性)为90%以上。5)语音识别语音识别服务主要用于将音视频的语音自动转化成文本信息,从而能基于文本搜索,并能精准定位到音视频的某一时间点上。语音识别的效率约为20倍速,对于中文普通话的识别准确性为:新闻类95%以上,综艺80%以上,电视剧70%以上,方言由于缺乏语音库暂不支持。6)声纹识别声纹识别是生物识别技术的一种,各种声音在音色、音调、响度等特征差异均很大,因此声纹DNA是对一段声音波形特征值的唯一描述,就像人体DNA一样,主要用于音视频的比对搜索。声纹提取的速度约为60倍速,且与视频格式及清晰度无关,声纹比对能做到亿级数据量速度3秒内。步骤S102:创建标引库,将提取出的信息按照一定标准规范对文件进行自动标引,从而创建标引库;如图2所示,标引库里的各类型媒体文件的标引信息如下:视频文件:将视频文件分离成图像及音频,那么截取关键帧,则可得到时间点+截图+图片DNA+图片文本信息(eg:人物姓名、种族、性别、台标等信息);对于音频则可得到时间点+声纹DNA+语音文本信息等。音频文件:利用声纹识别和语音识别技术可得到时间点+声纹DNA以及时间点+语音文本信息。图片文件:通过人脸识别及OCR等技术可得到图片DNA+文本信息(同样包括:人物姓名、种族、性别、台标、字幕等)。步骤S103:媒资搜索处理,对标引库内的音视图媒资信息进行搜索处理;如图4所示,所述步骤S103中搜索处理方式包括音视频搜索、图片搜索和全文搜索。所述音视频搜索、图片搜索和全文搜索均采用分布式多节点部署架构。所述步骤S103中对标引库内的音视频媒资信息的处理包括比对、筛选和排序,具体如下:所有提取的标引信息均采用mongoDB非关系型数据库进行存储,并采用ES创建索引文件。所有的搜索方式(包括:图片DNA比对、声纹DNA比对、全文搜索)均采用分布式多节点部署架构,随着数据量的增加,会自动扩充服务器数量,保证搜索速度。1)音视频搜索音视频采用声纹比对服务进行搜索,通过ES搜索引擎技术进行处理,搜索速度平均3秒。其搜索的结果按相似度从高到低排序,并显示视频关键帧。为了提高比对的准确性,声纹提取时对长文件自动做分段处理,对不同格式的音频文件做统一格式转换。任意截取音视频文件的25秒以上的片段能准确搜索出来的概率为95%以上,而声音大小及噪音对比对准确性的影响较小。2)图片搜索图片搜索主要采用DNA比对技术查找相似图片,对于含本文档来自技高网...
Eagle媒资深度搜索方法

【技术保护点】
一种Eagle媒资深度搜索方法,其特征在于,包括以下步骤,步骤S101:媒资信息提取,自动从音视频文件中提取出各类信息;步骤S102:创建标引库,将提取出的信息按照一定标准规范对文件进行自动标引,从而创建标引库;步骤S103:媒资搜索处理,对标引库内的音视图媒资信息进行搜索处理。

【技术特征摘要】
1.一种Eagle媒资深度搜索方法,其特征在于,包括以下步骤,步骤S101:媒资信息提取,自动从音视频文件中提取出各类信息;步骤S102:创建标引库,将提取出的信息按照一定标准规范对文件进行自动标引,从而创建标引库;步骤S103:媒资搜索处理,对标引库内的音视图媒资信息进行搜索处理。2.按照权利要求1所述的Eagle媒资深度搜索方法,其特征在于:所述步骤S101中自动从音视图文件中提取出信息采用截图服务、转场识别、图片DNA、声纹识别、语音识别和人脸识别。3.按照权利要求2所述的Eagle媒资深度搜索方法,其特征在于:所述步骤S101中提取出的信息包括关键帧图片、人脸信息、语音文本信...

【专利技术属性】
技术研发人员:肖波凌攀李树辉王福祥尤莉
申请(专利权)人:北京新奥特云视科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1