媒体文件查找方法和装置、存储介质及电子装置制造方法及图纸

技术编号：21658723 阅读：21 留言：0更新日期：2019-07-20 05:39

本发明专利技术公开了一种媒体文件查找方法和装置、存储介质及电子装置。其中，该方法包括：获取使用第一账号登录的客户端发送的发布请求，发布请求用于请求通过第一账号发布第一媒体文件；获取与第一媒体文件相匹配的第一图像描述词集合；从检索词库中确定出与第一图像描述词集合相匹配的索引子词库，每个索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；在与第一图像描述词集合相匹配的索引子词库中，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件，在查找到第二媒体文件的情况下，确定第一媒体文件存在重复媒体文件。本发明专利技术解决了相关技术提供的媒体文件查找方法存在查找效率较低的技术问题。

Method and Device for Searching Media Documents, Storage Media and Electronic Devices

全部详细技术资料下载

【技术实现步骤摘要】
媒体文件查找方法和装置、存储介质及电子装置
本专利技术涉及计算机领域，具体而言，涉及一种媒体文件查找方法和装置、存储介质及电子装置。
技术介绍
如今，媒体文件共享平台受到越来越多的用户关注。用户在使用目标账号登录上述媒体文件共享平台之后，可以直接通过该目标账号上传原创媒体文件，也可以转发其他用户账号发布的媒体文件，从而实现对媒体文件进行共享的目的。其中，为了对大量的媒体文件实现有效管理，上述媒体文件共享平台往往会利用卷积神经网络(ConvolutionalNeuralNetworks，简称CNN)模型来查找其中存在相似内容的重复媒体文件。目前，常用的方式是利用孪生CNN模型来学习媒体文件中帧画面之间内容的相似性，以便于应用于重复媒体文件的查找识别过程。然而，孪生CNN模型的训练过程较复杂，数据计算量大，耗时较长，从而导致媒体文件的查找效率较低的问题。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种媒体文件查找方法和装置、存储介质及电子装置，以至少解决相关技术提供的媒体文件查找方法存在查找效率较低的技术问题。根据本专利技术实施例的一个方面，提供了一种媒体文件查找方法，包括：获取使用第一账号登录的客户端发送的发布请求，其中，上述发布请求用于请求通过上述第一账号发布第一媒体文件；获取与上述第一媒体文件相匹配的第一图像描述词集合，其中，上述第一图像描述词集合中包括用于描述上述第一媒体文件的画面内容的多个第一图像描述词；从检索词库中确定出与上述第一图像描述词集合相匹配的索引子词库，其中，上述检索词库包括多个索引子词库，每个上述索引子...

【技术保护点】
1.一种媒体文件查找方法，其特征在于，包括：获取使用第一账号登录的客户端发送的发布请求，其中，所述发布请求用于请求通过所述第一账号发布第一媒体文件；获取与所述第一媒体文件相匹配的第一图像描述词集合，其中，所述第一图像描述词集合中包括用于描述所述第一媒体文件的画面内容的多个第一图像描述词；从检索词库中确定出与所述第一图像描述词集合相匹配的索引子词库，其中，所述检索词库包括多个索引子词库，每个所述索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；在与所述第一图像描述词集合相匹配的索引子词库中，查找与所述第一媒体文件的相似度大于目标阈值的第二媒体文件，在查找到所述第二媒体文件的情况下，确定所述第一媒体文件存在重复媒体文件。

【技术特征摘要】
1.一种媒体文件查找方法，其特征在于，包括：获取使用第一账号登录的客户端发送的发布请求，其中，所述发布请求用于请求通过所述第一账号发布第一媒体文件；获取与所述第一媒体文件相匹配的第一图像描述词集合，其中，所述第一图像描述词集合中包括用于描述所述第一媒体文件的画面内容的多个第一图像描述词；从检索词库中确定出与所述第一图像描述词集合相匹配的索引子词库，其中，所述检索词库包括多个索引子词库，每个所述索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；在与所述第一图像描述词集合相匹配的索引子词库中，查找与所述第一媒体文件的相似度大于目标阈值的第二媒体文件，在查找到所述第二媒体文件的情况下，确定所述第一媒体文件存在重复媒体文件。2.根据权利要求1所述的方法，其特征在于，所述获取与所述第一媒体文件相匹配的第一图像描述词集合包括：从所述第一媒体文件中提取第一关键画面帧，其中，所述第一关键画面帧用于指示所述第一媒体文件中发生场景变换的画面帧；从所述第一关键画面帧中提取第一图像特征；对所述第一图像特征进行特征聚合，以得到与所述第一媒体文件相匹配的原始图像描述词集合；根据所述原始图像描述词集合中每个原始图像描述词的逆文档词频，获取所述第一图像描述词集合，其中，所述逆文档词频根据所述原始图像描述词的词频及逆文档频率指数确定。3.根据权利要求2所述的方法，其特征在于，所述根据所述原始图像描述词集合中每个原始图像描述词的逆文档词频，获取所述第一图像描述词集合包括：将所述逆文档词频大于第一阈值的所述原始图像描述词作为所述第一图像描述词，存储至所述第一图像描述词集合中；或对所述原始图像描述词集合中的所述原始图像描述词的所述逆文档词频进行排序，得到原始图像描述词序列；从所述原始图像描述词序列中所述原始图像描述词作为所述第一图像描述词，存储至所述第一图像描述词集合中。4.根据权利要求2所述的方法，其特征在于，所述从所述第一关键画面帧中提取第一图像特征包括：通过图像特征提取模型从所述第一关键画面帧中提取所述第一图像特征，其中，所述图像特征提取模型为利用多个样本媒体文件进行机器训练后，得到的用于提取媒体文件的关键画面帧中的图像特征的神经网络模型。5.根据权利要求1所述的方法，其特征在于，所述在与所述第一图像描述词集合相匹配的索引子词库中，查找与所述第一媒体文件的相似度大于目标阈值的第二媒体文件包括：根据预设的时长阈值及所述第一媒体文件的播放时长确定时长比对区间；从所述索引子词库中获取播放时长属于所述时长比对区间的媒体文件，得到第一媒体文件集合；获取所述第一媒体文件集合中每个媒体文件的文件标识的出现频率；从所述第一媒体文件集合中，获取所述出现频率大于第二阈值的媒体文件，得到第二媒体文件集合；在所述第二媒体文件集合中查找所述第二媒体文件。6.根据权利要求5所述的方法，其特征在于，所述在所述第二媒体文件集合中查找所述第二媒体文件包括：依次计算所述第二媒体文件集合中的每个媒体文件与所述第一媒体文件的余弦距离，并将所述余弦距离作为所述第二媒体文件集合中对应的媒体文件与所述第一媒体文件之间的所述相似度；在所述第二媒体文件集合中查找所述相似度大于所述目标阈值的所述第二媒体文件。7.根据权利要求6所述的方法，其特征在于，所述依次计算所述第二媒体文件集合中的每个媒体文件与所述第一媒体文件的余弦距离，并将所述余弦距离作为所述第二媒体文件集合中对应的媒体文件与所述第一媒体文件之间的所述相似度包括：重复执行以下步骤，遍历所述第二媒体文件集合中的每个媒体文件：从所述第二媒体文件集合中获取当前媒体文件；获取与所述当前媒体文件相匹配的当前图像描述词集合，其中，所述当前图像描述词集合中包括用于描述所述当前媒体文件的画面内容的多个当前图像描述词；根据所述当前图像描述词集合中所述当前图像描述词的词频，确定与所述当前媒体文件相匹配的当前媒体文件向量；将所述当前媒体文件向量及与所述第一媒体文件相匹配的第一媒体文件向量二者之间的余弦距离，作为所述当前媒体文件与所述第一媒体文件二者之间的所述相似度，其中，所述第一媒体文件向量为根据所述第一图像描述词集合中所述第一图像描述词的词频确定出的向量。8.根据权利要求1至7中任一项所述的方法，其特征在于，在所述获取使用第一账号登录的客户端发送的发布请求之前，还包括：从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件，并执行以下操作：从所述对象媒体文...

【专利技术属性】
技术研发人员：杨喻茸，徐敘遠，龚国平，吴韬，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人