用于确定自动化模型生成中模型部署的模型适合度和稳定性的系统和方法技术方案

技术编号:38091948 阅读:8 留言:0更新日期:2023-07-06 09:04
根据实施例,本文描述的是用于与计算环境一起使用的系统和方法,用于提供用于模型部署和自动化模型生成的模型适合度和稳定性的确定。模型适合度和稳定性组件可以提供支持模型选择、模型可部署性分数和可部署性标志的使用以及模型漂移风险的减轻的一个或多个特征,以确定特定应用程序的模型适合度和稳定性。例如,实施例可以与分析应用程序、数据分析或其他类型的计算环境一起使用,以在金融应用程序或其他类型的应用程序中提供例如可直接操作的风险预测。的风险预测。的风险预测。

【技术实现步骤摘要】
【国外来华专利技术】用于确定自动化模型生成中模型部署的模型适合度和稳定性的系统和方法
[0001]优先权要求
[0002]本申请要求2021年1月28日提交的题为“SYSTEM AND METHOD FOR DETERMINATION OF MODEL FITNESS AND STABILITY FOR MODEL DEPLOYMENT IN AUTOMATED MODEL GENERATION”的申请号为63/142,826的美国临时专利申请;以及2022年1月27日提交的题为“SYSTEM AND METHOD FOR DETERMINATION OF MODEL FITNESS AND STABILITY FOR MODEL DEPLOYMENT IN AUTOMATED MODEL GENERATION”的申请号为17/586,639的美国专利申请的优先权权益;上述申请的每一个的内容通过引用并入本文。


[0003]本文描述的实施例一般涉及数据模型和数据分析环境,并且涉及用于提供对模型适合度和稳定性的确定以用于模型部署和自动化模型生成的系统和方法。

技术介绍

[0004]针对用于支持数据分析的系统,以及解决特定客户的需求的过程,例如预测客户财务应用程序中的应收账款,可以观察到不同的客户可能需要生成不同的模型,这些模型近似其底层数据生成业务流程的特性。
[0005]对于客户企业不同部门中的类似流程,这样的模型可能不同。此外,可以看出,随着时间的推移,数据生成业务流程可能改变,并且这些流程的输入的特性分布也可能改变。

技术实现思路

[0006]根据实施例,本文描述的是用于与计算环境一起使用的系统和方法,用于提供用于模型部署和自动化模型生成的模型适合度和稳定性的确定。模型适合度和稳定性组件可以提供支持模型选择、模型可部署性分数和可部署性标志的使用以及模型漂移风险的减轻的一个或多个特征,以确定特定应用程序的模型适合度和稳定性。例如,实施例可以与分析应用程序、数据分析或其他类型的计算环境一起使用,以在金融应用程序或其他类型的应用程序中提供例如可直接操作的风险预测。
附图说明
[0007]图1图示了根据实施例的示例数据分析环境。
[0008]图2进一步图示了根据实施例的示例数据分析环境。
[0009]图3进一步图示了根据实施例的示例数据分析环境。
[0010]图4进一步图示了根据实施例的示例数据分析环境。
[0011]图5进一步图示了根据实施例的示例数据分析环境。
[0012]图6图示了根据实施例的用于与数据分析环境相关联地使用的模型适合度和稳定性的确定。
[0013]图7图示了根据实施例的各种模型的概率分数的示例比较。
[0014]图8图示了根据实施例的用于模型适合度和稳定性的确定的流程或方法。
[0015]图9进一步图示了根据实施例的用于模型适合度和稳定性的确定的流程或方法。
[0016]图10是根据实施例的排序的发票列表的图示。
[0017]图11是根据实施例的用来分析数据的模型的输出的图示。
[0018]图12是根据实施例的用于自动化模型生成中模型部署的模型适合度和稳定性的确定的方法的流程图。
具体实施方式
[0019]如上所述,针对支持数据分析的系统,以及解决特定客户需求的流程,例如预测客户财务应用程序中的应收账款,可以观察到不同的客户可能需要生成不同的模型,这些模型近似其底层数据生成业务流程的特性。
[0020]对于客户企业不同部门中的类似流程,这样的模型可能不同。此外,可以看出,随着时间的推移,数据生成业务流程可能改变,并且这些流程的输入的特性分布也可能改变。
[0021]根据实施例,本文描述的是用于与计算环境一起使用的系统和方法,用于提供用于模型部署和自动化模型生成的模型适合度和稳定性的确定。模型适合度和稳定性组件可以提供支持模型选择、模型可部署性分数和可部署性标志的使用以及模型漂移风险的减轻的一个或多个特征,以确定特定应用程序的模型适合度和稳定性。
[0022]根据各种实施例,所描述的方法可用于解决各种考虑因素,例如:
[0023]模型适合度受益于自动化,因为手动方法在时间和金钱上极其昂贵。当系统和方法使用数据样本为企业创建模型的类时,系统没有机会对于每种情况使用客户数据与专家数据科学家一起手动调优模型,因为有数千个客户,而且手动检查每个数据集的变化并基于数据调优模型极其昂贵。所描述的方法可以系统地找到模型拟合,这些模型拟合表示在使用一组广泛的具体模型类时可以从客户数据集中提取的最大区分信息内容。
[0024]此外,分数的使用需要新模型的自动生成以考虑跨部门随时间的改变,使用合适的指标自动过滤数千个潜在模型候选者而无需人工干预,然后基于预测找到最重要的可操作见解。所描述的方法解决了二进制分类模型空间的此具体问题,并且可以扩展到多类别分类。
[0025]应当减轻模型漂移风险。虽然模型准确度指标可能根据训练和测试分布漂移而变化很大,但是系统和方法不能仅使用模型准确度指标作为模型选择的标准。随着输入分布或在具体的天或周采集的群体(population)样本分布改变,预计在较新的模型中看到决策边界的显著漂移,甚至在多个情况下达到反转分类的程度,诸如当昨天发票被分类为可能被支付时,今天将发票分类为可能不被支付。所描述的方法可用于检查评分分布已从训练分布漂移了多远,以及训练分布之间随时间的漂移有多远。
[0026]模型应该是稳定的。如果检测到模型足够不稳定,以致于基本上每天都具有决策边界漂移,则这指示模型拟合中的多个问题。在这样的情况下,关于分类的决策将保持每天改变为翻转前一天的预测的程度而没有针对单独实例的数据改变。所描述的方法可以用于检测这样的不稳定性。
[0027]数据分析环境
[0028]一般来说,数据分析实现对大量数据的基于计算机的检查或分析,以便从该数据中得出结论或其他信息;而商业智能工具(BI)向组织的业务用户提供以使那些业务用户能够做出战略性业务决策的格式描述其企业数据的信息。
[0029]数据分析环境和商业智能工具/服务器的示例包括Oracle Business Intelligence Server(OBIS)、Oracle Analytics Cloud(OAC)和Oracle Fusion Analytics Warehouse(FAW),它们支持诸如数据挖掘或分析之类的特征以及分析应用程序。
[0030]图1图示了根据实施例的示例数据分析环境。
[0031]出于图示数据分析环境的示例的目的提供图1所示的示例实施例,本文所述的各种实施例可以与数据分析环境关联地被使用。根据其他实施例和示例,本文描述的方法可以与其他类型的数据分析、数据库或数据仓库环境一起使用。图1中所示的以及如本文关于各种其他实施例进一步描述的组件和流程可以被提供为可由例如云计算系统或其他适当编程的计算机系统执行的软件或程序代码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在自动化模型生成中确定模型部署的模型适合度和稳定性的系统,包括:计算机,包括一个或多个微处理器以及在其上操作的数据分析云或其他计算环境;其中所述一个或多个微处理器进行操作以:在所述数据分析云处提供多个模型;基于所述数据分析云处的一组数据,对所述多个模型的集合评分;基于所述评分选择所述多个模型的所述集合中的模型;以及监测所述模型以获得不稳定性或漂移的指示。2.如权利要求1所述的系统,其中对所述多个模型的所述集合评分包括,对于所述多个模型的所述集合中的每个模型:将所述模型的预测自动指派给一组概率箱中的概率箱;确定连续概率箱之间的正确分类的逐次差分;以及对连续概率箱之间的正确分类的每个逐次差分应用权重;其中应用于正确分类的每个逐次差分的所述权重取决于所述权重所应用于的概率箱。3.如权利要求2所述的系统,其中对于具有较高概率的箱,所述权重较大。4.如权利要求3所述的系统,其中对所述多个模型的所述集合评分还包括,对于所述多个模型的所述集合中的每个模型:对每个概率箱的每个遗漏分类应用惩罚;将惩罚权重应用于针对每个遗漏分类的每个所应用的惩罚。5.如权利要求4所述的系统,其中对于具有较高概率的箱,所述惩罚权重较大。6.如权利要求5所述的系统,其中对所述多个模型的所述集合评分还包括,对于所述多个模型的所述集合中的每个模型:通过分类样本的数量对生成的分数归一化。7.如权利要求1所述的系统,其中监测所述模型以获得不稳定性或漂移的指示包括:检测模型退化的一个或多个信号;确定所述模型生成的每个实例与具有相同先验分类的实例簇的距离;确定最近的邻居中的至少一个或多个在新版本的所述模型中具有翻转的分类;确定这样翻转的分类在所述模型生成的实例总数中的百分比;在所确定的百分比超过第一阈值时,将所述模型标记为临界不稳定;以及在所确定的百分比超过第二阈值时,将所述模型标记为不稳定。8.一种用于在自动化模型生成中确定模型部署的模型适合度和稳定性的方法,包括:提供计算机,所述计算机包括一个或多个微处理器以及在其上操作的数据分析云或其他计算环境;在所述数据分析云处提供多个模型;基于所述数据分析云处的一组数据,由所述计算机对所述多个模型的集合评分;基于所述评分由所述计算机选择所述多个模型的所述集合中的模型;以及由所述计算机监测所述模型以获得不稳定性或漂移的指示。9.如权利要求8所述的方法,其中对所述多个模型的所述集合评分包括,对于所述多个模型的所述集合中的每个模型:将所述模型的预测自动指派给一组概率箱中的概率箱;
确定连续概率箱之间的正确分类的逐次差分;以及对连续概率箱之间的正确分类的每个逐次差分应用权重;其中应用于正确分类的每个逐次差分的所述权重取决于所述权重所应用于的概率箱。10.如权利要求9所述的方法,其中对于具有较高概率的箱,所述权重较大。11.如权利要求10所述的方法,其中对所述多个模型的所述集合评分还包括,对于所述多个模型的所述集合中的每个模型:对...

【专利技术属性】
技术研发人员:V
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1