当前位置: 首页 > 专利查询>奥多比公司专利>正文

基于媒体内容的推荐的属性加权制造技术

技术编号:15650050 阅读:97 留言:0更新日期:2017-06-17 02:58
本发明专利技术的各实施例总体上涉及基于媒体内容的推荐的属性加权。具体地,公开了用于部分基于有多少用户实际查看或倾听媒体内容以及有多少用户“喜欢”内容或表明对内容的偏好来向内容的属性自动分配权重的技术。内容项可以是任何类型的音频或视频媒体内容(诸如,歌曲、视频或电影)以及书写内容(诸如,书籍、文章、日记、广告或杂志)。基于内容项的用户偏好之间的相似性确定第一相似性得分。基于内容项的一个或多个公共属性之间的相似性确定第二相似性得分。这些属性被分配表示消费了对应内容的用户数的评级。接着,使用例如线性方程回归技术基于第一相似性得分和第二相似性得分向每个属性分配权重。

【技术实现步骤摘要】
基于媒体内容的推荐的属性加权
本公开总体上涉及数据处理领域,并且更加具体地涉及用于向媒体内容项的属性自动分配权重以生成基于内容的推荐的技术。
技术介绍
对于媒体内容的给定主体,诸如在线视频、数字音乐、电子书、新闻网站和其他数字媒体,可以使用推荐系统来提供针对用户的个人偏好和兴趣定制的建议。一种类型的推荐是基于内容的推荐,其基于内容项的各种属性之间的相似性。这些属性可以包括例如“种类”、“流派”、“演员”、“艺术家”、“描述”等。可以通过使用例如Jaccard索引测量属性之间的距离来计算内容项的相似性。取决于如人对相关联的内容的指明的偏好测量的这些属性对人的重要性,不同的属性可以被分配相对权重,这些权重用于计算两个或更多个内容项之间的相似性。然而,确定属性权重的当前方法遭受可能不利地影响基于内容的推荐的质量和准确性的大量缺陷。附图说明附图并非意图按比例绘制。在附图中,在各种附图中图示的每个相同或者几乎相同的部件用相似的数字来表示。图1示出了根据本公开的实施例的示例性基于内容的推荐系统;图2是根据本公开的实施例的与若干媒体内容项相关联的公共属性的图形表示;图3是根据本公开的实施例的示例内容属性加权方法的流程图;以及图4是表示可以用于执行本公开中不同地描述的技术中的任何技术的示例计算设备的框图。具体实施方式如先前指出的,现有的内容推荐属性加权技术遭受可能不利地影响基于内容的推荐的质量和准确性的大量缺陷,特别是在数字媒体领域。比如,现有的属性加权技术可能遭受所谓的流行偏见,其中被很多人查看或者访问的内容具有被相似地判断的倾向,而不太流行的内容被处罚,即使不太流行的内容类似于更加流行的内容。这样的流行偏见可以具有将不太流行的内容从推荐中排除的这一影响,而不管不太流行的内容与更加流行的内容的属性之间的相似性。因此,基于这样的现有的属性加权技术的推荐可能将用户主要指向更加流行的内容,这进而可能恶化流行偏见问题。在基于内容的推荐领域,属性加权是通过向形成预测模型的至少部分的不同的内容属性分配权重来训练机器学习预测模块的过程。机器学习算法是用于生成通常发展并且成熟的预测模型而没有明确的编程的计算机化的模式识别技术,并且在基于内容的推荐领域有用。每个内容项可以用特征化内容项的各个方面(诸如标题、艺术家、流派、描述、电视或运动图片评级、发行年份等)的一个或多个属性来表示。属性加权是用于改善这样的机器学习算法的性能的技术。加权属性用作确定内容项之间的相似性的统计测量的基础,使得某些属性比其他属性对预测模型的结果具有更大影响。预测模型中的相似性测量然后可以形成推荐项目的评级列表的基础。然而,先前提及的与属性加权相关联的流行偏见可以在机器学习算法被很差地训练时发生。被很差地训练的机器学习算法的示例是其中判决做出很大程度上基于包含不充足或令人误解的信息的输入样本的一种机器学习算法。比如,用户可以通过所谓的“喜欢”或指示对某些内容项的偏好经由社交网络贡献各种内容属性的加权。与偏好的内容项相关联的属性然后被分配通常与指示其对对应内容项的偏好的用户数成比例的权重。例如,电影A和电影B二者高度流行,并且大量用户偏好这两个电影。另外,电影C和电影D不是非常流行,并且被少量用户偏好,但是偏好电影C的多数用户也偏好电影D。在本示例中,使用现有的内容属性加权技术,电影A和电影B接收高的相似性得分,而电影C和电影D接收低的相似性得分。然而,关于电影A和电影B的较高的相似性得分是由于电影的流行,而不管它们如何彼此相似(实际上,电影A和电影B彼此可以非常不同,但是因为每个电影被大量用户喜欢,所以电影具有高的相似性得分,即使相对少部分的用户喜欢这两个电影)。另一方面,如果电影C和电影D实际上共享类似的属性,则现有的基于内容的推荐属性加权技术低估它们之间的相似性,因为电影不流行。换言之,相似性得分遭受流行偏见,因为相关联的机器学习算法使用通常仅表示对内容的全部数目的用户偏好的输入样本(历史流行度)被很差地训练,而没有关于这些偏好的更加具体的信息的益处。因此,这些现有的技术产生被由电影A/B与电影C/D之间的流行度的明显差异引起的偏见误导性地歪斜的结果。为此,并且根据本公开的实施例,公开了用于通过基于两种类型的相似性得分向预测模型中的媒体内容项的属性分配权重来训练基于内容的推荐预测模型的技术,以提供平衡给定媒体内容项(例如歌曲、视频、书籍和其他形式的媒体)的两个属性相似性以及历史流行性的混合方法。这样的混合方法通过使属性加权基于历史流行度的组合缓解了现有内容推荐属性加权技术中的流行偏见的影响,其维持有用的考虑以及内容属性之间的目标相似性,诸如“种类”、“流派”、“演员”、“艺术家”、“描述”等。具体地,包括向各种内容属性分配的权重的预测模型可以通过计算至少两个内容项的至少两个相似性得分来训练,每个内容项与一个或多个内容属性相关联。相似性得分基于对于每个内容项的用户偏好之间的相似性的测量(历史相似性得分)以及与每个内容项相关联的内容属性之间的相似性的测量(属性相似性得分)。在预测模型中,可以至少部分基于两个相似性得分来向每个内容属性自动分配权重。因此,在训练预测模型时,向内容属性分配的权重是属性相似性和历史流行度二者的函数,而非如在现有技术中仅是历史流行度的函数。预测模型使用加权属性生成具有这些属性的内容项的评级列表,评级列表形成可以向用户呈现的基于内容的推荐。可以基于对于任何数目的内容项的用户偏好来计算历史相似性得分。比如,内容项可以是任何类型的音频或视频媒体内容(诸如歌曲、视频、或电影)以及可打印内容(诸如书籍、文章、日记、杂志、广告等)。在一些示例情况下,可以从表示指示对每个内容项的偏好的大量用户的历史评级数据来获得用户偏好。在这样的情况下,可以例如通过将指示对所有内容项的偏好的用户数除以指示对任何而不必所有内容项的偏好的用户数来获得历史相似性得分。属性相似性得分基于内容项的一个或多个公共属性之间的相似性来单独计算。公共属性可以包括例如标题、流派、演员或执行者、或者可以用于以某种方式对内容项分类的任何其他信息。可以使用例如基于距离的相似性度量(诸如余弦相似性或人员相关性)来比较这些属性。接着,使用诸如下面进一步详细描述的例如线性方程回归技术基于第一相似性得分和第二相似性得分向每个属性分配权重。然后可以使用所得到的加权属性生成基于内容的推荐。本公开的各种实施例不同于现有的内容推荐属性加权技术在于计算内容的相似性的混合方法,内容相似性然后用于确定向每个属性分配的权重。加权属性然后可以用于通过考虑与内容接合的用户的整个集合(与仅“喜欢”或指示对内容的偏好的用户的集合相对)来生成基于内容的推荐。另外,尚未被大量用户评级或观看的内容没有被惩罚,这降低了现有技术中存在的流行偏见。另外,相同的权重在具有相同属性的所有内容上用于特定属性,诸如演员属性。本公开的实施例可以提供比遭受流行偏见的现有的内容推荐属性加权技术明显更好的结果。另外,使用本公开的实施例获得的内容推荐属性加权更加准确地反映与内容接合(例如,查看或倾听内容)的用户数,这与使用仅指示对内容的偏好(例如,“喜欢”内容)的用户数的现有技术相反。比如,通过获得基于用户接合的内容的各个属性的权重,本文档来自技高网...
基于媒体内容的推荐的属性加权

【技术保护点】
一种用于生成基于内容的推荐的计算机实现的方法,所述方法包括:由计算机处理器基于第一内容项和第二内容项中的每个内容项的用户偏好之间的相似性的统计测量来确定第一相似性得分;由所述计算机处理器基于第一内容属性与第二内容属性之间的相似性的统计测量来确定第二相似性得分;通过由所述计算机处理器基于所述第一相似性得分和第二相似性得分向所述第一内容属性分配权重并且基于所述第一相似性得分和第二相似性得分向所述第二内容属性分配权重来训练预测模型;以及由所述计算机处理器使用所述预测模型基于所述权重来生成具有所述第一内容属性和所述第二内容属性二者的内容项的基于内容的推荐。

【技术特征摘要】
2015.12.08 US 14/962,2971.一种用于生成基于内容的推荐的计算机实现的方法,所述方法包括:由计算机处理器基于第一内容项和第二内容项中的每个内容项的用户偏好之间的相似性的统计测量来确定第一相似性得分;由所述计算机处理器基于第一内容属性与第二内容属性之间的相似性的统计测量来确定第二相似性得分;通过由所述计算机处理器基于所述第一相似性得分和第二相似性得分向所述第一内容属性分配权重并且基于所述第一相似性得分和第二相似性得分向所述第二内容属性分配权重来训练预测模型;以及由所述计算机处理器使用所述预测模型基于所述权重来生成具有所述第一内容属性和所述第二内容属性二者的内容项的基于内容的推荐。2.根据权利要求1所述的方法,其中用户偏好之间的相似性的所述统计测量基于表示指示对所述第一内容项的偏好的用户数以及指示对所述第二内容项的偏好的用户数的历史评级数据。3.根据权利要求2所述的方法,还包括:由所述计算机处理器基于所述历史评级数据来计算指示对所述第一内容项和第二内容项二者的偏好的用户数;以及由所述计算机处理器基于所述历史评级数据来计算指示对所述第一内容项或所述第二内容项的偏好的用户数,其中通过将指示对所述第一内容项和第二内容项二者的偏好的用户数除以指示对所述第一内容项或所述第二内容项的偏好的用户数来确定所述第一相似性得分。4.根据权利要求1所述的方法,其中分配所述权重包括基于所述第一相似性得分和第二相似性得分来生成线性方程组并且向所述线性方程组应用回归函数以求解所述权重,其中所述权重是所述线性方程组中的因子。5.根据权利要求1所述的方法,还包括由所述计算机处理器根据所述权重和所述第二相似性得分来确定表示所述第一内容项和第二之间的相似性的统计测量的第三相似性得分。6.根据权利要求1所述的方法,还包括由所述计算机处理器还基于以下各项中的每项之间的相似性的统计测量来确定所述第一相似性得分:所述第一内容项和第三内容项,以及所述第二内容项和所述第三媒体内容项。7.根据权利要求1所述的方法,其中所述第一内容项和所述第二内容项中的每个内容项是数字音频内容、数字视频内容和可打印内容中的至少一项。8.一种信息处理环境中的系统,包括:存储装置;以及计算机处理器,在操作上耦合至所述存储装置,所述计算机处理器被配置成执行存储在所述存储装置中的指令,所述指令在被执行时引起所述计算机处理器执行处理,所述处理包括:基于第一内容项和第二内容项中的每个内容项的用户偏好之间的相似性的统计测量来确定第一相似性得分;基于第一内容属性与第二内容属性之间的相似性的统计测量来确定第二相似性得分;以及通过基于所述第一相似性得分和第二相似性得分向所述第一内容属性分配权重并且基于所述第一相似性得分和第二相似性得分向所述第二内容属性分配权重来训练预测模型。9.根据权利要求8所述的系统,其中用户偏好之间的相似性的所述统计测量基于表示指示对所述第一内容项的偏好的用户数以及指示对所述第二内容项的偏好的用户数的历史评级数据。10.根据权利要求9所述的系统,其中所述处理还包括:...

【专利技术属性】
技术研发人员:V·斯瓦米纳森徐腾S·米特拉
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1