视频数据聚合处理方法、聚合系统及视频搜索平台技术方案

技术编号:11787658 阅读:61 留言:0更新日期:2015-07-29 11:40
本申请公开了一种视频数据聚合处理方法、聚合系统及视频搜索平台,方法包括步骤:处理单元抽取接收的视频资源中的关键词;处理单元根据关键词查询索引管理器中的索引数据,获取与关键词匹配的候选聚合集,候选聚合集包括若干视频聚合;匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算,若匹配,则将视频资源写入匹配的视频聚合;若处理单元未获取到与关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的视频资源写入该新建视频聚合中。本申请中的方法,通过对视频资源抽取关键词,并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算,减少了匹配计算次数,优化了匹配算法,提高了对视频资源的聚合处理效率。

【技术实现步骤摘要】

本申请涉及视频搜索
,具体涉及一种视频数据聚合处理方法、聚合系统 及视频搜索平台。
技术介绍
目前采用聚合形式的视频类垂直搜索,需要收录多家第三方站点的播放资源,但 是由于各家视频站点的数据格式与内容都不尽相同,如何准确高效的将表示同一个视频内 容的资源聚合到一起成为此类视频搜索亟需要解决的问题。 现有技术主要采用聚类技术来聚合视频资源,并在比较视频资源和视频聚合相似 度时采用基于简单字符串比较的硬匹配方式。在现有技术的处理方式下,收到新的视频资 源时,需要逐一与数据库里所有的聚合数据比较才能判断它属于哪个视频聚合,比较次数 多,计算量巨大,效率低下,不能实时更新。同时由于各站点数据含有不同的噪声,使用硬匹 配的方式来比较,准确率和容错率都很低。
技术实现思路
为了提高对视频资源的聚合处理效率,本申请提供一种视频数据聚合处理方法、 聚合系统及视频搜索平台,能提高对视频资源的聚合处理效率。 根据本申请的第一方面,本申请提供一种视频数据聚合处理方法,包括步骤:处理 单元抽取接收的视频资源中的关键词;处理单元根据所述关键词查询索引管理器中的索引 数据,获取与所述关键词匹配的候选聚合集,所述候选聚合集包括若干视频聚合;匹配单元 对所述视频资源和所述候选聚合集中的视频聚合进行匹配计算,若匹配,则将所述视频资 源写入匹配的视频聚合;若所述处理单元未获取到与所述关键词匹配的候选聚合集,则在 数据库中新建一个视频聚合,将接收的所述视频资源写入该新建视频聚合中。 进一步地,所述匹配计算包括短文本相似度计算和长文本相似度计算,所述短文 本相似度计算通过最小编辑距离或dice距离计算,所述长文本相似度计算通过simhash算 法计算。 进一步地,若短文本相似度大于短文本相似度阈值,则视频资源与视频聚合匹配; 若长文本相似度小于长文本相似度阈值,则视频资源与视频聚合匹配。 进一步地,通过最小编辑距离计算短文本相似度的计算公式为:【主权项】1. 一种视频数据聚合处理方法,其特征在于,包括步骤: 处理单元抽取接收的视频资源中的关键词; 处理单元根据所述关键词查询索引管理器中的索引数据,获取与所述关键词匹配的候 选聚合集,所述候选聚合集包括若干视频聚合; 匹配单元对所述视频资源和所述候选聚合集中的视频聚合进行匹配计算,若匹配,则 将所述视频资源写入匹配的视频聚合; 若所述处理单元未获取到与所述关键词匹配的候选聚合集,则在数据库中新建一个视 频聚合,将接收的所述视频资源写入该新建视频聚合中。2. 如权利要求1所述的方法,其特征在于,所述匹配计算包括短文本相似度计算和长 文本相似度计算,所述短文本相似度计算通过最小编辑距离或dice距离计算,所述长文本 相似度计算通过simhash算法计算。3. 如权利要求2所述的方法,其特征在于,若短文本相似度大于短文本相似度阈值,则 视频资源与视频聚合匹配;若长文本相似度小于长文本相似度阈值,则视频资源与视频聚 合匹配。4. 如权利要求2所述的方法,其特征在于,通过最小编辑距离计算短文本相似度的计 算公式为: f_X1_X2=max(f_X!_x2), (VxjeX1?Vx2eX2 ), f_x1_x2=l- (min_editdistance(x1;x2)/maxlen(x1;x2)), 其中,Xi表示视频资源的短文本字符串,x2表示视频聚合的短文本字符串;Xi表示视频 资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合;[11_12表示两个短文本 字符串的匹配得分。5. 如权利要求2所述的方法,其特征在于,通过dice距离计算短文本相似度的计算公 式为: Oi^maxtd.X^, |X:nX21/3},d.X^X^dice(X1;X2) =2 |X:nX21 / (|X: | +1X21), 其中,Xi表示视频资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合,d_Xi_X2表示两个短文本字符串集合的dice距离。6. 如权利要求2所述的方法,其特征在于,通过simhash算法计算长文本相似度的计算 公式为: f_j1_j2=hamming_distance(simhash(jj),simhash(j2)), 其中,表示视频资源的长文本字符串,j2表示视频聚合的长文本字符串。7. 如权利要求1所述的方法,其特征在于,所述处理单元抽取接收的视频资源中的关 键词的步骤前,还包括步骤:预处理单元对接收的视频资源进行预处理并将预处理后的视 频资源发送给处理单元;所述预处理包括解析、去噪和特征抽取。8. -种聚合系统,其特征在于,包括:数据库和聚合服务器,所述数据库用于存储视频 资源和视频聚合;所述聚合服务器包括:索引管理器、处理单元和匹配单元,所述索引管理 器用于存储管理索引数据;所述聚合系统应用权利要求1-6中任一项所述的聚合处理方法 处理视频资源。9. 如权利要求8所述的聚合系统,其特征在于,所述聚合服务器还包括预处理单元,所 述预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元;所 述预处理包括解析、去噪和特征抽取。10. -种视频搜索平台,包括spider和搜索引擎,所述spider用于爬取视频站点的视 频资源,所述搜索引擎用于提供搜索服务,其特征在于,还包括如权利要求9所述的聚合系 统,所述聚合系统用于接收spider发送的视频资源并对其进行聚合处理,所述聚合系统还 用于向所述搜索引擎提供视频聚合。【专利摘要】本申请公开了一种视频数据聚合处理方法、聚合系统及视频搜索平台,方法包括步骤:处理单元抽取接收的视频资源中的关键词;处理单元根据关键词查询索引管理器中的索引数据,获取与关键词匹配的候选聚合集,候选聚合集包括若干视频聚合;匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算,若匹配,则将视频资源写入匹配的视频聚合;若处理单元未获取到与关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的视频资源写入该新建视频聚合中。本申请中的方法,通过对视频资源抽取关键词,并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算,减少了匹配计算次数,优化了匹配算法,提高了对视频资源的聚合处理效率。【IPC分类】G06F17-30【公开号】CN104809117【申请号】CN201410035957【专利技术人】许春林, 唐年鹏 【申请人】深圳市云帆世纪科技有限公司【公开日】2015年7月29日【申请日】2014年1月24日本文档来自技高网...

【技术保护点】
一种视频数据聚合处理方法,其特征在于,包括步骤:处理单元抽取接收的视频资源中的关键词;处理单元根据所述关键词查询索引管理器中的索引数据,获取与所述关键词匹配的候选聚合集,所述候选聚合集包括若干视频聚合;匹配单元对所述视频资源和所述候选聚合集中的视频聚合进行匹配计算,若匹配,则将所述视频资源写入匹配的视频聚合;若所述处理单元未获取到与所述关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的所述视频资源写入该新建视频聚合中。

【技术特征摘要】

【专利技术属性】
技术研发人员:许春林唐年鹏
申请(专利权)人:深圳市云帆世纪科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1