使用从统计信息中导出的特征来预测行为制造技术

技术编号:12811811 阅读:40 留言:0更新日期:2016-02-05 11:08
本文中描述了用于生成依赖于具有缩减的维度的特征空间的预测模型的训练系统。训练系统通过产生分区来执行这个任务,分区中的每一个对应于方面值的子集(其中每个方面值进而可对应于一个或多个属性值)。训练系统接着产生与分区相关联的统计信息的实例。统计信息的每个实例因此对应于应用到多个方面值的特征信息,而非单个方面值的特征信息。训练系统接着基于特征信息来训练预测模型。本文中还描述了使用预测模型来在各种在线上下文中做出预测的预测模块。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】使用从统计信息中导出的特征来预测行为 Μ? 在线系统可针对各种用途来采用预测模型,诸如用于确定用户将点击某一广告或 选择搜索结果内的某一项之类的可能性。在线系统可由此基于其预测来采取各种动作,诸 如通过提供具有高点击概率的一个或多个广告或通过在搜索结果内的显著位置中显示具 有高点击概率的项。 在一种情况下,预测模型可通过标识描述一事件的特征集合来产生预测(其中 "事件"一般对应于其中预测被做出的环境)。这些特征整体上形成特征向量。预测模块接 着将特征向量映射到预测。一些特征对应于单个属性值(诸如不同的用户ID、不同的广告 ID等),而其他特征对应于属性值的组合(诸如用户ID和广告ID的不同组合)。在这种情 况下,特征向量包括每个个别属性值的特征以及属性值的每个组合;然而,特征向量将针对 任意给定的事件被稀疏地填充,意味着它在被用于描述任意特定事件时将仅包括少量的非 零特征。如可理解的,与以上描述的那种类型的预测模型相关联的特征空间可具有非常高 的维度。除了其他问题,以高效地方式来训练这种种类的预测模型是困难的,尤其在其中预 测模型本质上是复杂(例如,非线性)的那些情况下。 本文中描述了用于生成依赖于维度缩减的特征空间的预测模型的训练系统。在一 些实现中,训练系统通过基于分区策略产生复数个分区来操作。分区与方面值的各个子集 相关联。训练系统接着标识主数据集中关于相应复数个分区的复数个数据子集,并生成针 对相应数据子集的统计信息的复数个实例。统计信息的复数个实例对应于反映数据子集中 标记的分布的特征信息。该功能接着基于特征信息来生成预测模型。 换言之,训练系统将统计信息的实例视为在训练模型时使用的特征。统计信息的 每个实例对应于复数个方面值(诸如复数个用户ID)的子集,而非单个方面值(诸如单个 用户ID)。相比于其中分开的特征被分派到各个方面值,该策略可极大地缩减特征空间的维 度。 根据另一说明性方面,训练系统可按导致预测准确性的最小丢失的方式来分组方 面值。 根据另一说明性方面,预测模块可使用通过使用训练系统产生的预测模型来做出 预测。 根据一潜在的益处,训练系统可以高效的方式来产生预测模型,主要是由于其高 维度特征空间到较低维度特征空间的映射。训练系统可通过产生复杂的预测模型来充分利 用这个高效性,其本来在使用高维度频率空间的预测模型的情况中不可行。 上面的方法可以显现在各种类型的系统、组件,方法、计算机可读存储介质、数据 结构、图形用户界面呈现、制品等等中。 提供本概述以便以简化形式介绍一些概念;这些概念将在以下的详细描述中进一 步描述。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制 所要求保护主题的范围。 附图简沐 图1显示了用于产生并应用预测模型的方式的说明性概览,其中该预测模型依赖 于大小缩减的频率空间。 图2显示了用在图1的方式内的训练过程中的训练示例的主数据集的说明性构 成。 图3显示了通过图1的训练过程产生的说明性表格。 图4是根据图1中阐述的原理的可被用于产生分区的一个分区策略的高级概念性 描绘。 图5显示了用于实践图1的方法的一个环境。该环境包括训练系统和预测模块。 相比于图5的示例而言,图6显示了用于实践图1的方法的更具体的环境。 图7和8示出由图5的训练系统提供的训练过程的说明性方面。 图9示出了图5的预测模块的一种实现。 图10是提供图5的环境的一种操作方式的概览的流程图。 图11是提供关于图5的训练系统的一种操作方式的附加细节的流程图。 图12是提供关于图5的预测模块的一种操作方式的附加细节的流程图。 图13示出了可以被用来实现前面的附图中所示出的特征的任何方面的说明性计 算功能。 贯穿本公开和各附图,相同的编号参考相同的组件和特征。100系列标号指的是最 初在图1中所找到的特征,200系列的标号指的是最初在图2中找到的特征,300系列的标 号指的是最初在图3中找到的特征,依此类推。 详细描沐 本专利技术是按如下方式来组织的。章节A提供了用于产生和使用预测模型的方法的 概念概览。章节B描述了用于实现章节A的方法的说明性功能。章节C阐述了解释章节B 的功能的操作的说明性方法。章节D描述了可被用于实现在前述章节中描述的特征的任意 方面的说明性计算功能。 作为预备,一些附图在被不同地称为功能、模块、特征、元素等的一个或多个结构 组件的上下文中描述概念。附图中示出的各组件可以由任何物理和有形的机制(例如,由 计算机装备上运行的软件、硬件(例如芯片实现的逻辑功能)等和/或以上的任意组合) 以各种方式来实现。在一种情况下,附图中所示出的将各种组件分离为不同的单元可以反 映在实际实现中使用对应的不同的物理和有形的组件。另选地或者另外地,附图中所示出 的任何单个组件都可以通过多个实际物理组件来实现。另选地或另外地,附图中的任何两 个或更多分开组件的描绘可以反映单个实际物理组件所执行的不同功能。图13 (将依次讨 论)提供关于附图中所示的功能的一个说明性物理实现的附加细节。 其他附图以流程图形式描述了概念。以此形式,某些操作被描述为构成以某一顺 序执行的不同的框。这些实现是说明性而非限制性的。此处描述的某些框可被分组在一起 并在单个操作中执行,某些框可被分成多个组件框,并且某些框可以按与此处所示出的不 同的次序来执行(包括以并行方式执行这些框)。流程图中示出的框可以任何方式由任何 物理和有形机制来实现,例如由正在计算机装备上运行的软件、硬件(如芯片实现的逻辑 功能)等和/或它们的任何组合来实现。 至于术语,短语"被配置成"包含任何类型的物理和有形的功能可以被构建来执行 已标识的操作的任何方式。功能可以被配置成使用例如正在计算机装备上运行的软件、硬 件(例如,芯片实现的逻辑功能)等和/或其任何组合来执行操作。 术语"逻辑"包含用于执行任务的任何物理和有形的功能。例如,流程图中示出的 每一个操作都对应于用于执行该操作的逻辑组件。操作可以使用例如正在计算机装备上运 行的软件、硬件(例如,芯片实现的逻辑功能)等和/或其任何组合来执行操作。在由计算 装备实现时,逻辑组件表示作为计算系统的物理部分的、无论如何实现的电子组件。 权利要求中的短语"用于...的装置"(如果被使用)旨在援引35U. S. C. § 112第 六段的规定。除了本特定短语之外,没有其他语言旨在援引该法条的该部分的规定。 下列的阐述可以将一个或多个特征标识为"可任选的"。这种类型的陈述不应该被 解读为可以被视为可选的特征的穷尽的指示;也就是说,其他特征也可以被视为可选,虽然 在文本中没有明确地标识。最后,术语"示例性"或"说明性"指的是可能的许多实现中的 一个实现。 A.用于训练和伸用预测樽铟的说明件方法 图1显示了包括训练阶段102和模型应用阶段104的说明性方法。在训练阶段 102,训练系统(图1中未显示)生成预测模型106。在模型应用阶段104,预测模型(图 1中未显示)使用预测模型106来生成预测。本章节提供了训练阶段102和模型应用阶段 104的概念概览。之后的章节提供了关于这两个组件的附加细节。 针对训练阶段102,数据收集过程108产生主数据集110。训练系统基于主数据集 本文档来自技高网...
使用从统计信息中导出的特征来预测行为

【技术保护点】
一种由一个或多个计算机设备执行的用于生成预测模型的方法,包括:接收提供复数个训练示例的主数据集,每个训练示例与以下相关联:事件的一个或多个方面,以及对应的一个或多个方面值;以及与所述事件相关联的标记;对于特定方面,基于分区策略来产生复数个分区,所述复数个分区与方面值的复数个相应子集相关联;标识所述主数据集内关于所述相应复数个分区的复数个数据子集,并基于所述相应的数据子集来生成统计信息的复数个实例,所述统计信息的复数个实例对应于反映所述数据子集中标记的分布的特征信息;基于所述特征信息和训练示例集来生成预测模型;以及将所述预测模型存储在数据存储中。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M·比连科R·吉拉德巴克拉克C·A·米克M·罗伊茨纳
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1