数据处理方法、装置、介质和计算设备制造方法及图纸

技术编号:20622613 阅读:29 留言:0更新日期:2019-03-20 14:26
本发明专利技术实施方式提供了一种数据处理方法,包括:获取视频数据;对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据;获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。本发明专利技术的方法可以通过倒排索引在其他视频中确定与当前视频具有相同视频帧的相似视频,从而显著地降低了相似视频查找的计算量,实现了快速查找相似视频的效果。此外,本发明专利技术实施方式还提供了一种数据处理装置、计算设备和介质。

Data Processing Methods, Devices, Media and Computing Equipment

The embodiment of the present invention provides a data processing method, which includes: acquiring video data; processing the frame data in the video data to obtain the corresponding eigenvalues of the frame data, in which the eigenvalues can represent the corresponding frame data; acquiring the inverted index, which includes multiple index eigenvalues, and each index eigenvalue corresponds to at least one. Other video data having the index eigenvalue; based on the inverted index, similar video data corresponding to the first index eigenvalue is determined, where the first index eigenvalue is the same index eigenvalue as the specific eigenvalue in the eigenvalue. The method of the present invention can determine similar video with the same video frame as the current video in other videos by inverted index, thereby significantly reducing the computational complexity of similar video search and achieving the effect of fast similar video search. In addition, the embodiment of the present invention also provides a data processing device, a computing device and a medium.

【技术实现步骤摘要】
数据处理方法、装置、介质和计算设备
本专利技术的实施方式涉及计算机
,更具体地,本专利技术的实施方式涉及一种数据处理方法、装置、介质和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着科学技术的快速发展,越来越多地视频软件应用于生活和工作等诸多场景。例如,随着视频分享、视频直播、视频点播、视频推荐等网络视频服务的兴起和发展,越来越多的用户将自己拍摄或者编辑的视频上传到视频网站上用以分享。然而,由于网络上的视频内容很容易被复制或编辑,导致视频网站上会出现大量的由不同用户上传的相同或相似的视频。因此,如何有效地对网站上的视频进行管理,对上传的视频进行有效筛选以剔除相同或相似的视频成为亟待解决的问题。目前,已经出现一些全局特征检索或者局部特征检索的视频筛选方法,例如,先通过颜色直方图、累计直方图或者sift特征等方法获取视频帧特征,然后基于全部帧特征或者关键帧对应的帧特征构建正排索引,上传的视频可以依次与正排索引中的各个视频对应的帧特征进行相似度比较,从而实现视频筛选。
技术实现思路
但是,在现有技术中,获取帧特征的方法计算量普遍非常大,同时正排索引的构建异常麻烦,在正排索引中查找相似视频的计算量也十分大,无法实现快速查找。同时,在构建索引时,如果基于全部帧特征构建索引则需要极大的存储空间,如果基于关键帧特征构建索引则对关键帧选取的要求又很高,经常出现漏选关键帧或者关键帧错位等问题。为此,非常需要一种改进的数据处理方法,以实现快速准确地视频查找。在本上下文中,本专利技术的实施方式期望提供一种数据处理方法、装置、介质和计算设备。在本专利技术实施方式的第一方面中,提供了一种数据处理方法,包括:获取视频数据,对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据,获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据,以及基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。在本专利技术的一个实施例中,上述对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,包括:对所述视频数据中的帧数据进行感知哈希计算,得到的哈希值作为所述帧数据对应的特征值。在本专利技术的一个实施例中,上述方法还包括:根据预设规则对所述特征值进行采样处理,得到采样后的采样特征值,以及以所述采样特征值作为所述特征值中的特定特征值。在本专利技术的一个实施例中,上述根据预设规则对所述特征值进行采样处理,包括:确定所述特征值对应的MD5值,对所述MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为所述采样特征值。在本专利技术的一个实施例中,上述方法还包括:确定所述相似视频数据中满足预设条件的视频作为备选视频,其中,所述满足预设条件包括所述相似视频数据对应的特征值与所述视频数据对应的特征值相同的数量大于预设阈值。在本专利技术的一个实施例中,上述方法还包括:基于所述视频数据对应的特征值与所述相似视频数据对应的特征值,确定所述视频数据与所述相似视频数据的最长公共子序列,以及基于所述最长公共子序列确定所述视频数据与所述相似视频数据的相似度。在本专利技术的一个实施例中,上述方法还包括:在所述视频数据与所述相似视频数据的相似度满足相似度阈值的情况下,将所述视频数据对应的特征值加入正排索引中,所述正排索引包括多个其他视频数据的标识数据以及所述标识数据对应的多个特征值。在本专利技术的一个实施例中,上述倒排索引中的多个索引特征值为多个其他视频数据对应的采样特征值,所述多个其他视频数据对应的采样特征值包括每个其他视频数据根据所述预设规则对其多个特征值进行采样处理后的得到的采样特征值。在本专利技术的一个实施例中,上述方法还包括:基于所述视频数据以及所述视频数据对应的采样特征值更新所述倒排索引。在本专利技术实施方式的第二方面中,提供了一种数据处理装置,包括第一获取模块、处理模块、第二获取模块和第一确定模块。其中,第一获取模块获取视频数据。处理模块对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据。第二获取模块获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据。第一确定模块基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。在本专利技术的一个实施例中,上述对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,包括:对所述视频数据中的帧数据进行感知哈希计算,得到的哈希值作为所述帧数据对应的特征值。在本专利技术的一个实施例中,上述装置还包括:采样模块,根据预设规则对所述特征值进行采样处理,得到采样后的采样特征值。上述第一确定模块以所述采样特征值作为所述特征值中的特定特征值。在本专利技术的一个实施例中,上述根据预设规则对所述特征值进行采样处理,包括:确定所述特征值对应的MD5值,对所述MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为所述采样特征值。在本专利技术的一个实施例中,上述装置还包括:第二确定模块,确定所述相似视频数据中满足预设条件的视频作为备选视频,其中,所述满足预设条件包括所述相似视频数据对应的特征值与所述视频数据对应的特征值相同的数量大于预设阈值。在本专利技术的一个实施例中,上述装置还包括第三确定模块和第四确定模块。其中,第三确定模块基于所述视频数据对应的特征值与所述相似视频数据对应的特征值,确定所述视频数据与所述相似视频数据的最长公共子序列。第四确定模块基于所述最长公共子序列确定所述视频数据与所述相似视频数据的相似度。在本专利技术的一个实施例中,上述装置还包括:加入模块,在所述视频数据与所述相似视频数据的相似度满足相似度阈值的情况下,将所述视频数据对应的特征值加入正排索引中,所述正排索引包括多个其他视频数据的标识数据以及所述标识数据对应的多个特征值。在本专利技术的一个实施例中,上述倒排索引中的多个索引特征值为多个其他视频数据对应的采样特征值,所述多个其他视频数据对应的采样特征值包括每个其他视频数据根据所述预设规则对其多个特征值进行采样处理后的得到的采样特征值。在本专利技术的一个实施例中,上述装置还包括:更新模块,基于所述视频数据以及所述视频数据对应的采样特征值更新所述倒排索引。在本专利技术实施方式的第三方面中,提供了一种计算设备,包括:一个或多个存储器,存储有可执行指令,以及一个或多个处理器,执行所述可执行指令,以实现如上所述的方法。在本专利技术实施方式的第四方面中,提供了一种介质,其上存储有可执行指令,所述指令被处理单元执行时使所述处理单元执行如上所述的任一方法。根据本专利技术实施方式的数据处理方法和数据处理装置,可以通过倒排索引在其他视频中确定与当前视频具有相同视频帧的相似视频,从而显著地降低了相似视频查找的计算量,实现了快速查找相似视频的效果。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:获取视频数据;对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据;获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。

【技术特征摘要】
1.一种数据处理方法,包括:获取视频数据;对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据;获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。2.根据权利要求1所述的方法,其中,所述对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,包括:对所述视频数据中的帧数据进行感知哈希计算,得到的哈希值作为所述帧数据对应的特征值。3.根据权利要求1所述的方法,还包括:根据预设规则对所述特征值进行采样处理,得到采样后的采样特征值;以所述采样特征值作为所述特征值中的特定特征值。4.根据权利要求3所述的方法,其中,所述根据预设规则对所述特征值进行采样处理,包括:确定所述特征值对应的MD5值;对所述MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为所述采样特征值。5.根据权利要求1所述的方法,还包括:确定所述相似视频数据中满足预设条件的视频作为备选视频,其中,所述满足预设条件包括所述相似视频数据对应的特征值与所述视频数据对应的特征值相同的数量大于预设阈值。6.根...

【专利技术属性】
技术研发人员:向博仁许盛辉刘彦东
申请(专利权)人:网易传媒科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1