评估依赖于聚合历史数据的模型制造技术

技术编号:22947660 阅读:24 留言:0更新日期:2019-12-27 17:46
描述了用于模型验证的系统和方法。用于模型验证的系统和方法包括:针对表示模拟群体的数据集生成细分状态的第一和第二时间序列,该数据集例如是与模拟群体的各个区段对应的成员计数的集合。细分状态的第一和第二时间序列是通过分别经过第一和第二模拟对数据集进行处理而生成,第一和第二模拟中的每一个包括多个事件函数的迭代应用。第一和第二模拟在至少一个容量上不同,例如,一个包括配置有第一参数的第一事件函数,而第二个则没有。可以将第一时间序列和第二时间序列之间的差的分析与使用主题模型对时间序列之一的分析进行比较。然后,将比较用于验证模型或证明准确性、不准确性和/或模型关于性能度量的偏差。

【技术实现步骤摘要】
【国外来华专利技术】评估依赖于聚合历史数据的模型相关专利申请的交叉引用本申请要求2017年9月18日提交的美国专利申请No.15/707,594的权益和优先权,其全部公开内容通过引用合并于此。
技术介绍
涉及大量变量的复杂系统可能受到多种不同因素的影响。已经开发出模型来尝试衡量或量化各个因素的影响。但是,这些模型无法控制其他因素的影响。结果,这些模型的有效性或准确性以及由这些模型生成的评估或预测的有效性或准确性会发生变化。这些模型是可以校准和调整的衡量工具。为了校准衡量工具,应将工具应用于已知准确性的标准。但是,对于许多复杂的系统,没有已知的可重复标准。例如,在用于评估营销策略并识别营销策略的变化如何影响关键绩效指标的模型中可以看到此问题。营销模型(例如媒体混合模型(“MMM”))通常会分析表示无法重建的真实世界的事件的聚合的历史数据(例如,由于外部变量超出了建模者的视野或控制)。需要一种能够建立用于评估依赖于聚合历史数据的营销模型的基础事实(groundtruth)的可靠市场模拟。
技术实现思路
描述了用于模型验证的系统和方法。用于模型验证的系统和方法包括:针对表示模拟群体的数据集生成细分(segmentation)状态的第一和第二时间序列,该数据集例如是与模拟群体的各个区段(segment)对应的成员计数的集合。细分状态的第一和第二时间序列是通过分别经过第一和第二模拟对数据集进行处理而生成,第一和第二模拟中的每一个包括多个事件函数的迭代应用。第一和第二模拟在至少一个容量上不同,例如,一个包括配置有第一参数的第一事件函数,而第二个则没有。可以将第一时间序列和第二时间序列之间的差的分析与使用主题模型对时间序列之一的分析进行比较。然后,将比较用于验证模型或证明准确性、不准确性和/或模型关于性能度量的偏差。在至少一个方面,描述了一种模型验证的方法,该方法包括:通过包括处理器的数据模拟器生成数据集,该数据集表示模拟群体,该数据集包括根据细分方案与模拟群体的各个区段对应的成员计数的集合。该方法包括通过经过第一模拟对数据集进行处理来生成细分状态的第一时间序列,第一模拟包括第一多个事件函数的迭代应用,该第一多个事件函数包括配置有第一参数的第一事件函数,并且通过经过第二模拟对数据集进行处理来生成细分状态的第二时间序列,第二模拟包括第二多个事件函数的迭代应用,其中,第二多个事件函数不包括配置有第一参数的第一事件函数。该方法包括识别性能度量的第一值,该第一值表示第一时间序列和第二时间序列之间的差。该方法包括对于主题模型识别性能度量的第二值,该第二值由将所述主题模型应用于所述第一时间序列或所述第二第一时间序列中的一个的输出。然后,该方法通过将第一值与第二值进行比较来确定主题模型关于性能度量的有效性得分。以下是与这些和类似方法、装置和系统有关的各种概念以及其实施方式的各种详细说明。由于所描述的概念不限于任何特定的实施方式,所以可以以多种方式中的任何一种来实现上面介绍的以及下面更详细讨论的各种概念。附图说明当结合附图时,通过参考以下详细描述,将更充分地理解本公开的上述和相关目的、特征和优点,其中:图1A是示出适合在本文所述的各种实施方式中使用的示例计算环境的框图;图1B是示出适合在本文所述的各种实施方式中使用的示例计算设备的框图;图2A是在其上模拟器迭代地在区段之间迁移群体的时间线的图示;图2B示出了在一组活动状态中的每一个中可以执行的动作以及可能发生的活动的示例;图3A是示例转变函数(transitionfunction)的框图;图3B是用于对媒体渠道(channel)的影响进行建模的示例转变函数的框图;图3C是用于对在线营销的影响进行建模的示例转变函数的框图;图4A是无竞争环境中多个区段的需求曲线的曲线图;图4B、图4C和图4D是在竞争环境中相对于价格变化绘制的购买概率的曲线图;图5是用于将转变函数迭代地应用于群体细分数据的方法流程图;图6是用于模型验证的示例方法的流程图;和图7A和图7B是来自示例模拟的对于媒体渠道的估计或ROAS和mROAS分布的直方图。为了清楚起见,并非每个部件都会在每个图中标记。这些图并非意图按比例绘制。在各个附图中,相同的附图标记和标号指示相同的要素。具体实施方式涉及大量变量的复杂系统包括,例如,天气预测系统、市场分析系统、交通预测系统、电梯需求预测系统等。通常,这些(和其他)复杂系统可能会受到多种不同因素的影响。例如,天气预测使用基于例如降水水平、湿度、气压、温度、风速和转变锋(transitionfront)的移动的变量的模型。虽然容易知道预测是否准确(例如,在预测下雨时下雨了,或者没有下雨),但可能难以知道任何一个变量施加了多少影响(例如,因为温度下降而下雨或反之?)。类似地,在广告时,难以知道广告支出驱动多少销售,并且更特别地说,难以知道一种格式(例如,广播媒体)的广告支出与另一种格式(例如,在线广告)的广告支出相比驱动多少销售。广告业使用模型(例如,媒体混合模型,“MMM”)来评估广告策略的功效(例如,关键绩效指标,“KPI”,例如投资回报率,“ROI”)。媒体混合模型有时也称为混合媒体模型或营销混合模型。与天气或交通预测一样,所使用的模型通常是回顾性的,分析聚合历史数据以估计广告策略对实现特定目标(例如转化)的贡献程度。广告主可以使用这些模型为将来的广告费用进行预测。在线广告网络通常是许多这些策略的一部分,并且网络的广告客户正在使用行业模型对网络的广告产品进行分级。但是,这些模型来自外部供应商,并且以各种不同的方式起作用,通常是“黑盒子”,其中一些偏向于供应商偏爱的哲学或方法论。这些偏向可能会在在线广告网络上反映好或坏,因此这在市场上造成了关于实际价值的混乱。本文描述了用于验证第三方模型的系统和验证第三方模型的方法。这可以类比于核实特定标尺或温度计的准确性,而不是直接测量距离或温度。简而言之,根据一些实施例,模拟器以根据一个或多个分类(例如,市场兴趣、饱和度、兴趣活动、品牌偏好/忠诚度和准入(access))而被分割的初始群体数据集(其可以基于实际的群体状态或随机地生成)启动。模拟器将转变函数迭代地应用于该数据,每个转变函数基于对应的事件或期望来模拟区段上群体分布的增量变化。例如,模拟器可以包括与在特定预算下一周的电视广告对应的转变函数。该模拟建立“基础事实”。可以在函数或用于函数的参数变化的情况下在相同初始群体数据集上重新运行该模拟,并且不同模拟运行之间的比较阐明了变化的累积影响。例如,与将电视广告预算设置为大于零的值的模拟运行相比,将电视广告预算设置为零的模拟运行可以证明电视广告预算的ROI。如果参数和函数足够准确,则着眼于最终数据的回顾模型应为给定KPI赋予相同(或相似)的值。因此,通过将模型应用于通过模拟生成的测试历史,可以使用模拟来验证模型。本文描述的一个示例模拟被称为聚合营销系统模拟器(“AMSS”)。AMSS是一种模拟工具,其能够生成与营销衡本文档来自技高网...

【技术保护点】
1.一种用于模型验证的方法,所述方法包括:/n生成表示模拟群体的数据集,所述数据集包括根据细分方案与所述模拟群体的各个区段对应的成员计数的集合;/n通过经过第一模拟对所述数据集进行处理来生成细分状态的第一时间序列,所述第一模拟包括第一多个事件函数的迭代应用,所述第一多个事件函数包括配置有第一参数的第一事件函数;/n通过经过第二模拟对所述数据集进行处理来生成细分状态的第二时间序列,所述第二模拟包括第二多个事件函数的迭代应用,其中,所述第二多个事件函数不包括配置有所述第一参数的所述第一事件函数;/n识别性能度量的第一值,所述第一值表示所述第一时间序列和所述第二时间序列之间的差;/n对于主题模型,识别所述性能度量的第二值,所述第二值表示将所述主题模型应用于所述第一时间序列或所述第二第一时间序列中的一个的输出;以及/n通过将所述第一值与所述第二值进行比较,确定所述主题模型关于所述性能度量的有效性得分。/n

【技术特征摘要】
【国外来华专利技术】20170918 US 15/707,5941.一种用于模型验证的方法,所述方法包括:
生成表示模拟群体的数据集,所述数据集包括根据细分方案与所述模拟群体的各个区段对应的成员计数的集合;
通过经过第一模拟对所述数据集进行处理来生成细分状态的第一时间序列,所述第一模拟包括第一多个事件函数的迭代应用,所述第一多个事件函数包括配置有第一参数的第一事件函数;
通过经过第二模拟对所述数据集进行处理来生成细分状态的第二时间序列,所述第二模拟包括第二多个事件函数的迭代应用,其中,所述第二多个事件函数不包括配置有所述第一参数的所述第一事件函数;
识别性能度量的第一值,所述第一值表示所述第一时间序列和所述第二时间序列之间的差;
对于主题模型,识别所述性能度量的第二值,所述第二值表示将所述主题模型应用于所述第一时间序列或所述第二第一时间序列中的一个的输出;以及
通过将所述第一值与所述第二值进行比较,确定所述主题模型关于所述性能度量的有效性得分。


2.根据权利要求1所述的方法,其中,所述第二多个事件函数包括配置有不同于所述第一参数的第二参数的所述第一事件函数。


3.根据权利要求1所述的方法,其中,所述第二多个事件函数不包括所述第一事件函数。


4.根据权利要求1所述的方法,其中,所述第一多个事件函数包括自然迁移事件。


5.根据权利要求1所述的方法,其中,所述主题模型是媒体混合模型。


6.根据权利要求5所述的方法,其中,所述媒体混合模型包括时间序列多变量普通最小二乘法(“OLS”)回归。


7.根据权利要求1所述的方法,包括随机地生成表示所述模拟群体的所述数据集。


8.一种用于模型验证的系统,所述系统包括:
存储指令的计算机可读存储器;和
处理器,被配置为执行来自所述存储器的指令以:
生成表示模拟群体的数据集,所述数据集包括根据细分方案与所述模拟群体的各个区段对应的成员计数的集合;
通过经过第一模拟对所述数据集进行处理来生成细分状态的第一时间序列,所述第一模拟包括第一多个事件函数的迭代应用,所述第一多个事件函数包括配置有第一参数的第一事件函数;
通过经过第二模拟对所述数据集进行处理来生成细分状态的第二时间序列,所述第二模拟包括第二多个事件函数的迭代应用,其中,所述第二多个事件函数不包括配置有所述第一参数的所述第一事件函数;
识别性能度量的第一值,所述第一值表示所述第一时间序列和所述第二时间序列之间的差;
对于主题模型,识别所述性能度量的第二值,所述第二值表示将所述主题模型应用于所述第一时间序列或所述第...

【专利技术属性】
技术研发人员:S张J瓦弗
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1