用于自动地生成用于媒体文档的元数据的系统和方法技术方案

技术编号:21176422 阅读:37 留言:0更新日期:2019-05-22 12:06
根据本发明专利技术的一个实施例,用于自动地生成用于媒体文档的元数据的方法包含:使用卷积神经网络来计算所述媒体文档的特征向量;搜索媒体文档集合以用于具有与所述媒体文档的所述特征向量类似的相应特征向量的一或多个匹配媒体文档,所述媒体文档集合的每一媒体文档与元数据相关联;基于与所述一或多个匹配媒体文档相关联的所述元数据来生成用于所述媒体文档的元数据;以及显示与所述所生成元数据相关联的所述媒体文档。

Systems and methods for automatically generating metadata for media documents

According to an embodiment of the present invention, a method for automatically generating metadata for media documents includes: calculating the feature vectors of the media documents using a convolutional neural network; searching for a set of media documents for one or more matching media documents with corresponding feature vectors similar to the feature vectors of the media documents, and each of the media document sets. A media document is associated with metadata; metadata for the media document is generated based on the metadata associated with the one or more matching media documents; and the media document associated with the generated metadata is displayed.

【技术实现步骤摘要】
【国外来华专利技术】用于自动地生成用于媒体文档的元数据的系统和方法相关申请的交叉参考本申请主张2016年8月12日在美国专利商标局提交的美国临时专利申请第62/374,598号的益处,所述申请的全部公开以引用的方式并入本文中。
本专利技术的实施例的方面涉及包含图像和3D模型标记和分类的数字媒体标记和分类领域,以及相关用户界面系统。
技术介绍
例如图像、音频、录音和视频的各种类型的数字媒体文档通常包含元数据,所述元数据包含数字媒体文档的文本描述。这种元数据可包含例如时戳的信息,以及相关数字媒体文档的内容的标记和/或叙述描述。这些元数据可在基于搜索来执行文本时使用,以便识别与搜索查询相关的媒体文档。元数据还可用以对数字媒体文档进行归类或分类。作为一个实例,与数字相片相关联的元数据可包含例如图像尺寸(在像素方面)和图像色深的技术信息以及描述相片内容的元数据。与森林中的徒步旅行者的照片相关联的元数据可包含照片内容的文本描述,例如“林地”、“森林”、“树木”、“植物”、“绿色”、“阴影”、“花”、“徒步旅行(hike)”、“徒步旅行者”、“徒步旅行(hiking)”等。三维(3D)模型是数字媒体文档的另一种形式,本文档来自技高网...

【技术保护点】
1.一种用于自动地生成用于媒体文档的元数据的方法,所述方法包括:使用卷积神经网络来计算所述媒体文档的特征向量;搜索媒体文档集合以用于具有与所述媒体文档的所述特征向量类似的相应特征向量的一或多个匹配媒体文档,所述媒体文档集合的每一媒体文档与元数据相关联;基于与所述一或多个匹配媒体文档相关联的所述元数据来生成用于所述媒体文档的元数据;以及显示与所述所生成元数据相关联的所述媒体文档。

【技术特征摘要】
【国外来华专利技术】2016.08.12 US 62/374,5981.一种用于自动地生成用于媒体文档的元数据的方法,所述方法包括:使用卷积神经网络来计算所述媒体文档的特征向量;搜索媒体文档集合以用于具有与所述媒体文档的所述特征向量类似的相应特征向量的一或多个匹配媒体文档,所述媒体文档集合的每一媒体文档与元数据相关联;基于与所述一或多个匹配媒体文档相关联的所述元数据来生成用于所述媒体文档的元数据;以及显示与所述所生成元数据相关联的所述媒体文档。2.根据权利要求1所述的方法,其中所述媒体文档是三维(3D)模型。3.根据权利要求2所述的方法,其中所述计算所述特征向量包括:界定所述3D模型周围的限界框以生成有界3D模型;使所述有界3D模型体素化以计算多个体素;以及根据所述体素生成所述特征向量。4.根据权利要求2所述的方法,其中所述媒体文档集合包括三维(3D)模型集合,且其中所述搜索所述媒体文档集合包括根据迭代最近点技术来计算所述3D模型与所述3D模型集合的所述3D模型中的一个之间的距离。5.根据权利要求2所述的方法,其中所述计算所述特征向量包括:从多个角度再现所述3D模型以再现所述3D模型的多个二维(2D)视图;使用一或多个卷积神经网络来生成多个单视图特征向量,所述单视图特征向量中的每一个对应于所述3D模型的所述2D视图中的一个;使所述多个单视图特征向量池化以计算池化特征向量;以及使用末级卷积神经网络来根据所述池化特征向量计算所述特征向量。6.根据权利要求2所述的方法,其中所述媒体文档集合包括二维(2D)图像集合,其中所述计算所述特征向量包括计算所述3D模型的一或多个特征向量,其中所述一或多个匹配媒体文档包括所述2D图像集合的一或多个匹配2D图像,且其中所述匹配2D图像的相应特征向量中的每一个类似于所述3D模型的所述一或多个特征向量中的至少一个。7.根据权利要求2所述的方法,其进一步包括:使用三维扫描器来捕获所述3D模型,所述三维扫描器包括:两个或更多个红外(IR)相机;以及一或多个IR准直照明器。8.根据权利要求1所述的方法,其中所述媒体文档包括一或多个二维(2D)图像,其中所述媒体文档集合包括三维(3D)模型集合,其中所述计算所述特征向量包括计算所述一或多个2D图像的一或多个特征向量,其中所述一或多个匹配媒体文档包括所述3D模型集合的一或多个匹配3D模型,以及其中所述匹配3D模型的相应特征向量中的每一个类似于所述3D模型的所述一或多个特征向量中的至少一个。9.根据权利要求8所述的方法,其中所述计算所述特征向量包括:根据所述一或多个2D图像来计算物体的3D模型;以及从所述3D模型提取所述特征向量。10.根据权利要求9所述的方法,其中所述从所述3D模型提取所述特征向量包括:界定所述3D模型周围的限界框以生成有界3D模型;使所述有界3D模型体素化以计算多个体素;以及根据所述体素生成所述特征向量。11.根据权利要求9所述的方法,其中所述从所述3D模型提取所述特征向量包括:从多个角度再现所述3D模型以再现所述3D模型的多个二维(2D)视图;使用一或多个卷积神经网络来生成多个单视图特征向量,所述单视图特征向量中的每一个对应于所述3D模型的所述2D视图中的一个;使所述多个单视图特征向量池化以计算池化特征向量;以及使用末级卷积神经网络来根据所述池化特征向量计算所述特征向量。12.根据权利要求1所述的方法,其进一步包括接收用户输入,所述用户输入包括对所述所生成元数据的多个字段中的一或多个的验证。13.根据权利要求1所述的方法,其中所述所生成元数据和与所述媒体文档中的每一个相关联的所述元数据各自包括多个字段,且其中所述生成所述元数据包括:针对所述多个字段的每一字段来识别在所述一或多个匹配媒体文档的大于阈值数的所述元数据中出现的数据,以及将所述所识别数据添加到所述所生成元数据。14.根据权利要求1所述的方法,其中所述所生成元数据包括所述媒体文档的类别,且其中所述方法进一步包括:将所述媒体文档的所述特征向量供应到分类器以计算所述媒体文档的分类;以及基于所述分类来计算所述类别。15.根据权利要求1所述的方法,其进一步包括将所述媒体文档和所述所生成元数据添加到所述媒体文档集合。16.根据权利要求1所述的方法,其中所述一或多个匹配媒体文档的所述一或多个相应特征向量中的每一个具有与所述媒体文档的所述特征向量在多维空间中的相应距离,且其中每一相应距离小于阈值距离。17.根据权利要求1所述的方法,其进一步包括接收与所述媒体文档相关联的元数据,其中所述搜索所述媒体文档集合包括识别所述媒体文档集合中的具有与相关联于所述媒体文档的所述元数据的多个字段中的至少一个相匹配的元数据的一或多个媒体文档,且其中所述匹配媒体文档包括所述所识别一或多个媒体文档中的至少一个。18.根据权利要求1所述的方法,其中所述媒体文档集合包括第一媒体文档集合和第二媒体文档集合,其中与用户相关联的访问策略容许对所述第一媒体文档集合的访问且拒绝对所述第二媒体文档集合的访问,且其中所述搜索所述媒体文档集合限于所述第一媒体文档集合。19.一种用于自动地生成用于媒体文档的元数据的系统,所述系统包括:处理器;以及存储器,其具有存储于其上的指令,所述指令在由所述处理器执行时使得所述处理器进行以下操作:使用卷积神经网络来计算所述媒体文档的特征向量;搜索媒体文档集合以用于具有与所述媒体文档的所述特征向量类似的相应特征向量的一或多个匹配媒体文档,所述媒体文档集合的每一媒体文档与元数据相关联;基于与所述一或多个匹配媒体文档相关联的所述元数据来生成用于所述媒体文档的元数据;以及显示与所述所生...

【专利技术属性】
技术研发人员:卡洛·戴穆托艾尔维斯·梅莫德·阮阿巴斯·拉斐傑森·崔裘斯基
申请(专利权)人:艾奎菲股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1