用于使用元数据和使用数据分析的过滤技术的系统和方法技术方案

技术编号:14739454 阅读:107 留言:0更新日期:2017-03-01 13:12
用于维护表示媒体资产之间的相似性的模型的系统和方法。控制电路接收关于第一媒体资产的第一值矢量以及关于第二媒体资产的第二值矢量。控制电路确定用户是否已经观看了第一媒体资产和第二媒体资产两者。响应于确定用户已经观看了两个资产,控制电路确定建模的相似性值,该值表示第一媒体资产和第二媒体资产之间的建模的相似性。控制电路检索观测的相似性值,该值基于资产的使用数据和元数据表示第一媒体资产和第二媒体资产之间的观测的相似性。控制电路基于建模的相似性值和观测的相似性值来确定建模误差值。控制电路基于建模误差值来更新第一值矢量和第二值矢量。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请要求2014年12月22日提交的美国实用专利申请No.14/578,911的优先权和权益,该申请特此通过引用并入。

技术介绍
传统的系统可以基于元数据属性来计算两个媒体资产之间的相似性。例如,系统可以使用这样的模型,通过该模型,单个的媒体资产基于共享的元数据属性而被认为是相似的。尽管这些系统生成的相似性度量可以是有效的,但是这些模型没有考虑到可以改进相似性度量的其他因素。
技术实现思路
因此,描述了用于对模型进行训练来产生与媒体资产相关的资产矢量的系统和方法。如本文中所称的,术语“资产矢量”是指与媒体资产的属性相关联的值的集合,该集合可以被存储为这些值的数组,该数组中的每个值对应于该矢量的不同维度。如本文中所称的,术语“属性”包括描述媒体资产的或者与媒体资产相关联的任何内容。属性可以包括体裁、类别、内容来源、标题、系列信息或标识符、特性、演员、导演、演员阵容信息、剧组、情节、地点、描述、描述符、关键字、艺术家、基调、音调、歌词、评论、评级、长度或持续时间、传输时间、可用时间、赞助商和/或它们的任何组合。在一些实施方案中,模型采取媒体资产的语料库、每个媒体资产的元数据信息以及一个或多个用户的使用数据作为输入。元数据可以包括比如以下的信息:体裁、关键字、描述以及其他合适的信息(比如上面列出的属性中的任何一个)。在媒体资产中,通常遇到与媒体资产相关联的丰富的元数据,比如体裁、关键字、描述等。然而,每一条单独的元数据的相关性或权重(用于找到相似的电影或推荐)通常由于多个来源、算法或所涉及的人工录入而导致缺少、缺失或错误。例如,演出是喜剧,但是它究竟有多有趣以及它对于击败其他有趣的演出的影响程度是更大的观看情绪。使用数据另一方面对于传达什么节目同时出现在用户之间的观看行为中以及对于这些节目有什么共同的态度提供不同种类的信息。关于每个媒体资产的基于元数据的信息可以以资产矢量的形式表示,资产矢量包括一组属性以及关于该媒体资产的元数据信息的相关联的权重或相关性。在一些实施例中,系统首先通过产生与媒体资产相关的资产矢量、然后基于与媒体资产相关联的使用数据修改资产矢量的权重来产生模型。可以基于使用数据来更新资产矢量以通过与使用数据一致来更新资产矢量中的权重而更加准确。例如,对于一些用户,具有标题“pacificrim”和“godzilla”的电影可能看似是非常相似的,因为它们的体裁是“科幻”。对于一些用户,电影可能由于例如它们的标题或它们的导演、或者由于可能不能使用元数据信息适当地捕捉的其他无法解释的原因而不能看似如此相似。无法解释的因素可以作为自由浮动的分量包括在电影的媒体资产矢量中,并且可以被更新以捕捉除了可经由基于元数据的信息获得(通过例如考虑与电影相关的使用数据)的信息之外的信息。例如,用户可能相似地或者可能不相似地评定两部电影,或者可能在它们发行之后在相似的时间或者不在相似的时间观看它们。媒体指导应用可以基于单个的元数据信息以及对应的权重来对两个资产矢量之间的元数据相似性进行建模。此外,已知的单个的矢量可以独立地通过其他已知的基于大型语料库(比如WORD2VEC)中的词语的共同出现的算法来确定。在一些实施例中,媒体指导应用可以利用单词矢量表示工具,比如采取文本语料库作为输入并且生成单词矢量作为输出的WORD2VEC。关于WORD2VEC工具的更多信息可以在code.google.com/p/word2vec找到。对于媒体资产的元数据得到的单词矢量可以用于形成媒体资产的资产矢量。资产矢量包括每个媒体资产的作为单个元数据(比如体裁、类别、关键字或任何合适的属性层面细节)的加权组合的元数据信息。例如,对于电影“pacificrim”,系统可以获取单词“pacific(太平洋)”,在给定的word2vec二进制文件中查找该单词,并且获得该单词的相关联的维度矢量,然后相似地获得“rim(边缘)”的矢量,并且将这两个矢量加在一起以得到与该元数据相关的资产矢量的分量。可能的是,“pacificrim”作为标题对于关于侵略地球的巨型怪物的电影不是非常有指示性的,但是在该电影中给予怪物来自于哪里的一些信息。在这样的情况下,元数据分量的权重可以缩到远小于1。另一方面,关于“pacificrim”的详细描述可以包含与“giant(巨人)”、“monster(怪物)”和“invasion(入侵)”相似的单词,这些单词将是电影通过描述属性的更好表示。因此,在这种情况下,相关联的权重可以比用于标题的权重高得多。在一些实施例中,资产矢量可以包括用于捕捉媒体资产相似性的隐藏的或无法解释的原因的自由浮动分量。自由浮动矢量最初可以被设置为零、随机值或任何其他合适的矢量值。在进行训练以最小化误差函数之后,自由浮动项包含最佳的一组数值元素。自由浮动分量和它们的权重可以捕捉通过例如WORD2VEC分析没有显露的潜在因素。例如,潜在因素可以与通过WORD2VEC分析或者一般来说任何已知的元数据属性没有捕捉到的元数据或使用信息相关。在一些实施例中,媒体指导应用基于使用信息、连同观看了媒体资产的用户的隐含/明确评级来计算使用相似性。然后通过拟合最接近使用相似性的元数据相似性来确定各条元数据的权重或相关性。例如,媒体资产矢量可以具有与用户评级、观看时间量、电影观看时间安排、经由社交媒体表达的情绪或其他合适的信息相关的相关联的使用数据。例如,电影“pacificrim”的资产矢量500可以具有6.9/10的用户评级、80%的观看时间量、电影发行之后五天的电影观看时间安排、以及经由社交媒体有三篇推文的情绪捕捉。电影“Godzilla”的资产矢量600可以具有7.5/10的用户评级、95%的观看时间量、电影发行之后三天的电影观看时间安排、以及经由社交媒体有五篇推文的情绪捕捉。可以单独地对使用信息进行建模来生成项目-项目相似性,其中,被一起观看的并且在多个用户之间被相似地评价/评级(其可以被称为共同的情绪)的项目具有更好的使用-相似性。如上所述,用户的情绪进一步涉及比如以下的属性:明确的评级(如果可用的话)、观看时间、相关联的观看时间安排、片段的观看次数以及情绪捕捉(例如,写博客、发推文、回顾或者经由任何其他合适的处理)。在一些实施例中,媒体指导应用试图将多对媒体资产矢量尽可能接近相同对上的基于使用的相似性地相互对齐。媒体指导应用构造误差函数,该误差函数将建模的元数据相似性与观测的基于使用的相似性(例如,基于共同出现加上情绪因素)进行比较。使用改变单个的元数据分量的权重以使得基于元数据的相似性和基于使用的相似性之间的净误差最小的函数(例如,随机梯度下降函数或另一个合适的梯度下降函数)来使该误差最小化。在所有的使用数据上迭代之后,单个的元数据权重在媒体资产矢量中被更新为对于媒体资产的对应元数据相关性的最佳预测器。在一些实施例中,媒体指导应用将观测的基于使用的相似性和建模的元数据相似性进行比较以确定模型误差。如果误差低于阈值,则不需要进一步的改动,因为模型的训练已经足够。如果误差大于阈值,则系统通过例如将误差反向传播通过模型来针对媒体资产改动模型。系统可以更新媒体资产矢量中的权重,并且更新相似性计算所需的其他相关项。在一本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580035888.html" title="用于使用元数据和使用数据分析的过滤技术的系统和方法原文来自X技术">用于使用元数据和使用数据分析的过滤技术的系统和方法</a>

【技术保护点】
一种用于维护表示多个媒体资产之间的相似性的模型的方法,所述方法包括:使用控制电路接收与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量;使用所述控制电路确定用户是否已经观看了第一媒体资产和第二媒体资产二者;响应于确定用户已经观看了第一媒体资产和第二媒体资产二者:使用所述控制电路确定建模的相似性值,所述建模的相似性值表示第一媒体资产和第二媒体资产之间的建模的相似性,其中,所述建模的相似性值是基于第一值矢量和第二值矢量来确定的;使用所述控制电路检索观测的相似性值,所述观测的相似性值表示第一媒体资产和第二媒体资产之间的观测的相似性,其中,所述观测的相似性是基于针对第一媒体资产和第二媒体资产的使用数据以及元数据的;使用所述控制电路基于建模的相似性值和观测的相似性值来确定建模误差值;以及使用所述控制电路基于所述建模误差值来更新与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量。

【技术特征摘要】
【国外来华专利技术】2014.12.22 US 14/578,9111.一种用于维护表示多个媒体资产之间的相似性的模型的方法,所述方法包括:使用控制电路接收与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量;使用所述控制电路确定用户是否已经观看了第一媒体资产和第二媒体资产二者;响应于确定用户已经观看了第一媒体资产和第二媒体资产二者:使用所述控制电路确定建模的相似性值,所述建模的相似性值表示第一媒体资产和第二媒体资产之间的建模的相似性,其中,所述建模的相似性值是基于第一值矢量和第二值矢量来确定的;使用所述控制电路检索观测的相似性值,所述观测的相似性值表示第一媒体资产和第二媒体资产之间的观测的相似性,其中,所述观测的相似性是基于针对第一媒体资产和第二媒体资产的使用数据以及元数据的;使用所述控制电路基于建模的相似性值和观测的相似性值来确定建模误差值;以及使用所述控制电路基于所述建模误差值来更新与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量。2.根据权利要求1所述的方法,其中,与第一媒体资产相关联的第一值矢量包括与针对第一媒体资产的元数据相关的一个或多个基于元数据的值、以及与针对第一媒体资产的元数据无关的一个或多个自由浮动值。3.根据权利要求2所述的方法,其中,更新与第一媒体资产相关联的第一值矢量包括更新所述一个或多个基于元数据的值以及所述一个或多个自由浮动值中的至少一个。4.根据权利要求1所述的方法,其中,确定建模误差值包括基于置信度项来确定所述建模误差值,其中,较高的置信度项指示对使用数据的信任较高。5.根据权利要求1所述的方法,其中:针对第一媒体资产的元数据包括以下中的至少一个:体裁、类别、内容来源、标题、系列标识符、特性、演员、导演、演员阵容信息、剧组、情节、地点、描述、描述符、关键字、艺术家、基调、音调、歌词、评论、评级、长度或持续时间、传输时间、可用时间以及赞助商;并且针对第一媒体资产的使用数据包括以下中的至少一个:来自用户的评级、用户观看的时间量、用户观看的时间、用户观看的片段的数量、用户与相关社交媒体交互的次数、收听计数、资产的价格、显露给用户的次数、观看多个片段的速度、第一次观看的速度对第一次可用的、观看的次序、以及投射到“享受”或“喜欢”的单词矢量上的评论/博客。6.根据权利要求1所述的方法,进一步包括:使用所述控制电路检索与所述模型相关联的阈值误差值;使用所述控制电路确定所述建模误差值是否低于所述阈值误差值;响应于确定所述建模误差值不低于所述阈值误差值,使用所述控制电路基于所述建模误差值更新与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量。7.根据权利要求1所述的方法,其中,确定建模的相似性值包括:使用所述控制电路基于第一值矢量和第二值矢量之间的点积来确定第一值矢量和第二值矢量之间的距离;以及使用所述控制电路基于确定的距离来确定建模的相似性值。8.根据权利要求7所述的方法,其中,基于所述建模误差值更新第一值矢量和第二值矢量包括:使用所述控制电路调整存储在第一矢量和第二矢量中的值以使得第一矢量和第二矢量之间的距离缩小。9.根据权利要求1所述的方法,其中,使用第一媒体资产和第二媒体资产之间的皮尔逊相关系数来确定观测的相似性。10.根据权利要求1所述的方法,进一步包括:响应于确定没有用户观看过第一媒体资产和第二媒体资产二者,使用所述控制电路对所述建模误差值存储零值。11.一种用于维护表示多个媒体资产之间的相似性的模型的系统,所述系统包括:控制电路,所述控制电路被配置为:接收与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量;确定用户是否已经观看了第一媒体资产和第二媒体资产二者;响应于确定用户已经观看了第一媒体资产和第二媒体资产二者:确定建模的相似性值,所述建模的相似性值表示第一媒体资产和第二媒体资产之间的建模的相似性,其中,所述建模的相似性值是基于第一值矢量和第二值矢量来确定的;检索观测的相似性值,所述观测的相似性值表示第一媒体资产和第二媒体资产之间的观测的相似性,其中,所述观测的相似性是基于针对第一媒体资产和第二媒体资产的使用数据以及元数据的;基于建模的相似性值和观测的相似性值来确定建模误差值;以及基于所述建模误差值来更新与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量。12.根据权利要求11所述的系统,其中,与第一媒体资产相关联的第一值矢量包括与针对第一媒体资产的元数据相关的一个或多个基于元数据的值、以及与针对第一媒体资产的元数据无关的一个或多个自由浮动值。13.根据权利要求12所述的系统,其中,被配置为更新与第一媒体资产相关联的第一值矢量的控制电路包括被配置为更新所述一个或多个基于元数据的值以及所述一个或多个自由浮动值中的至少一个的控制电路。14.根据权利要求11所述的系统,其中,被配置为确定建模误差值的控制电路包括被配置为基于置信度项来确定所述建模误差值的控制电路,其中,较高的置信度项指示对使用数据的信任较高。15.根据权利要求11所述的系统,其中:针对第一媒体资产的元数据包括以下中的至少一个:体裁、类别、内容来源、标题、系列标识符、特性、演员、导演、演员阵容信息、剧组、情节、地点、描述、描述符、关键字、艺术家、基调、音调、歌词、评论、评级、长度或持续时间、传输时间、可用时间以及赞助商;并且针对第一媒体资产的使用数据包括以下中的至少一个:来自用户的评级、用户观看的时间量、用户观看的时间、用户观看的片段的数量、用户与相关社交媒体交互的次数、收听计数、资产的价格、显露给用户的次数、观看多个片段的速度、第一次观看的速度对第一次可用的、观看的次序、以及投射到“享受”或“喜欢”的单词矢量上的评论/博客。16.根据权利要求11所述的系统,进一步包括被配置为执行以下操作的控制电路:检索与所述模型相关联的阈值误差值;确定所述建模误差值是否低于所述阈值误差值;响应于确定所述建模误差值不低于所述阈值误差值,基于所述建模误差值更新与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量。17.根据权利要求11所述的系统,其中,被配置为确定建模的相似性值的控制电路包括被配置为执行以下操作的控制电路:基于第一值矢量和第二值矢量之间的点积来确定第一值矢量和第二值矢量之间的距离;以及基于确定的距离来确定建模的相似性值。18.根据权利要求17所述的系统,其中,被配置为基于所述建模误差值更新第一值矢量和第二值矢量的控制电路包括被配置为执行以下操作的控制电路:调整存储在第一矢量和第二矢量中的值以使得第一矢量和第二矢量之间的距离缩小。19.根据权利要求11所述的系统,其中,使用第一媒体资产和第二媒体资产之间的皮尔逊相关系数来确定观测的相似性。20.根据权利要求11所述的系统,进一步包括被配置为执行以下操作的控制电路:响应于确定没有用户观看过第一媒体资产和第二媒体资产二者,对所述建模误差值存储零值。21.一种用于维护表示多个媒体资产之间的相似性的模型的设备,所述设备包括:用于接收与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量的部件;用于确定用户是否已经观看了第一媒体资产和第二媒体资产二者的部件;响应于确定用户已经观看了第一媒体资产和第二媒体资产二者:用于确定建模的相似性值的部件,所述建模的相似性值表示第一媒体资产和第二媒体资产之间的建模的相似性,其中,所述建模的相似性值是基于第一值矢量和第二值矢量来确定的;用于检索观测的相似性值的部件,所述观测的相似性值表示第一媒体资产和第二媒体资产之间的观测的相似性,其中,所述观测的相似性是基于针对第一媒体资产和第二媒体资产的使用数据以及元数据的;用于基于建模的相似性值和观测的相似性值来确定建模误差值的部件;以及用于基于所述建模误差值来更新与第一媒体资产相关联的第一值矢量以及与第二媒体资产相关联的第二值矢量的部件。22.根据权利要求21所述的设备,其中,与第一媒体资产相关联的第一值矢量包括与针对第一媒体资产的元数据相关的一个或多个基于元数据的值、以及与针对第一媒体资产的元数据无关的一个或多个自由浮动值。23.根据权利要求22所述的设备,其中,用于更新与第一媒体资产相关联的第一值矢量的部件包括用于更新所述一个或多个基于元数据的值以及所述一个或多个自由浮动值中的至少一个的部件。24.根据权利要求21所述的设备,其中,用于确定建模误差值的部件包括用于基于置信度项来确定所述建模误差值的部件,其中,较高的置信度项指示对使用数据的信任较高。25.根据权利要求21所述的设备,其中:针对第一媒体资产的元数据包括以下中的至少一个:体裁、类别、内容来源、标题、系列标识符、特性、演员、导演、演员阵容信息、剧组、情节、地点、描述、描述符、关键字、艺术家、基调...

【专利技术属性】
技术研发人员:C·卡尔米彻尔S·万卡塔拉曼
申请(专利权)人:乐威指南公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1