被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象技术方案

技术编号：38473776 阅读：12 留言：0更新日期：2023-08-11 14:50

系统和方法包括处理器，用于接收用户活动的训练数据；接收偏倚标准；确定机器学习模型的模型参数集合，包括：(1)将机器学习模型应用于训练数据；(2)生成模型预测误差；(3)基于模型预测误差生成数据选择向量以识别非离群值目标变量；(4)利用数据选择向量生成非离群值数据集；(5)基于非离群值数据集确定更新的模型参数；以及(6)重复步骤(1)

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象
[0001]相关申请的交叉引用
[0002]本申请要求于2020年9月18日提交的美国专利申请号17/025,889的优先权，该申请要求于2019年9月18日提交的标题为“COMPUTER
‑
BASED SYSTEMS，COMPUTING COMPONENTS AND COMPUTING OBJECTS CONFIGURED TO IMPLEMENT DYNAMIC OUTLIER BIAS REDUCTION IN MACHINE LEARNING MODELS”的美国临时申请号62/902,074的优先权，其全部内容通过引用整体并入本文。
[0003]版权声明
[0004]本专利文件的部分公开内容包含受版权保护的材料。版权所有者不反对任何人对专利文件或专利公开内容进行传真复制，就像它出现在专利和商标局专利文件或记录中那样，但除此之外保留所有版权权利。以下通知适用于如下所述的软件和数据以及构成本文档的一部分的附图：Copyright，Hartford Steam Boiler Inspection and Insurance Company，All Rights Reserved。

[0005]本公开一般而言涉及被配置为在机器学习模型中实现偏倚减少的改进的基于计算机的系统、计算组件和计算对象。

技术介绍

[0006]机器学习模型可以包括一个或多个计算机或处理设备，以基于从样本/训练...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：由至少一个处理器从与至少一个生产环境相关联的至少一个计算设备接收包括数据记录的训练数据集的生产就绪模型请求；其中每个数据记录包括自变量和目标变量；由所述至少一个处理器确定至少一个机器学习模型的模型参数集合，包括：(1)由所述至少一个处理器将具有初始模型参数集合的所述至少一个机器学习模型应用于训练数据集，以确定模型预测值集合；(2)由所述至少一个处理器通过将模型预测值集合与训练数据集的对应实际值进行比较来生成数据元素误差的误差集合；(3)由所述至少一个处理器至少部分地基于数据元素误差的误差集合和至少一个偏倚标准生成数据选择向量以识别非离群值目标变量；(4)由所述至少一个处理器将数据选择向量应用于训练数据集以生成非离群值数据集；(5)由所述至少一个处理器基于非离群值数据集确定所述至少一个机器学习模型的更新的模型参数集合；以及(6)由所述至少一个处理器重复步骤(1)
‑
(5)的至少一次迭代，直到满足至少一个审查性能终止标准，从而获得所述至少一个机器学习模型的模型参数集合作为更新的模型参数，由此每次迭代使用更新的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集；以及由所述至少一个处理器至少部分地基于所述至少一次迭代传输所述至少一个机器学习模型的生产就绪机器学习模型以供在所述至少一个生产环境中使用。2.如权利要求1所述的方法，还包括：由所述至少一个处理器至少部分地基于生产就绪模型请求来选择至少一个离群值分析机器学习模型；由所述至少一个处理器确定用于所述至少一个离群值分析机器学习模型的离群值分析模型参数集合，包括：(7)由所述至少一个处理器将具有初始模型参数集合的至少一个离群值分析机器学习模型应用于训练数据集以确定离群值分析模型预测值集合；以及(8)由所述至少一个处理器通过将离群值分析模型预测值集合与训练数据集的对应实际值进行比较，生成离群值分析数据元素误差的离群值分析误差集合；(9)由所述至少一个处理器重复步骤(7)
‑
(8)作为所述至少一次迭代的一部分，直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准；以及由所述至少一个处理器将所述离群值分析机器学习模型传送到所述至少一个计算设备以在所述至少一个生产环境中使用以预测离群值事件的可能性。3.如权利要求1所述的方法，其中每个数据记录的自变量包括电网状态；其中电网状态包括：一天中的时间，日期，天气，
地点，人口密度，或其任意组合；其中目标变量包括电网能量需求；以及其中所述至少一个机器学习模型包括至少一个能量需求预测机器学习模型，该模型被训练以至少部分地基于随后的电网状态来预测电网能量需求。4.如权利要求3所述的方法，还包括：由所述至少一个处理器至少部分地基于生产就绪模型请求来选择至少一个极端需求机器学习模型；由所述至少一个处理器确定用于所述至少一个极端需求机器学习模型的极端需求模型参数集合，包括：(7)由所述至少一个处理器将具有初始模型参数集合的所述至少一个极端需求机器学习模型应用于训练数据集，以确定极端需求模型预测值集合；以及(8)由所述至少一个处理器通过将极端需求模型预测值集合与训练数据集的对应实际值进行比较，生成极端需求数据元素误差的极端需求误差集合；(9)由所述至少一个处理器重复步骤(7)
‑
(8)作为所述至少一次迭代的一部分，直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准。由所述至少一个处理器将极端需求机器学习模型传送到所述至少一个计算设备以在所述至少一个生产环境中使用以预测极端电网需求的可能性。5.如权利要求1所述的方法，其中每个数据记录的自变量包括用户特性；其中用户特性包括：浏览器，地点，年龄，或其任意组合；其中目标变量包括；内容来源，网页上的内容位置，内容屏幕区域，内容类型，分类，或其任意组合；以及其中所述至少一个机器学习模型包括至少一个内容预测机器学习模型，该模型被训练以至少部分地基于后续用户特性来预测内容推荐。6.一种方法，包括：由与至少一个生产环境相关联的至少一个计算设备的至少一个处理器将包括数据记录的训练数据集的生产就绪模型请求传输到至少一个自动模型生成处理器；其中每个数据记录包括自变量和目标变量；由所述至少一个处理器从所述至少一个自动模型生成处理器接收至少部分地基于由
所述至少一个自动模型生成处理器执行的至少一次迭代的生产就绪机器学习模型，所述至少一次迭代包括：确定所述至少一个机器学习模型的模型参数集合，包括：(1)将具有初始模型参数集合的所述至少一个机器学习模型应用于训练数据集，以确定模型预测值集合；(2)通过将模型预测值集合与训练数据集的对应实际值进行比较，生成数据元素误差的误差集合；(3)至少部分地基于数据元素误差的误差集合和至少一个偏倚标准来生成数据选择向量以识别非离群值目标变量；(4)将数据选择向量应用于训练数据集，以生成非离群值数据集；(5)基于非离群值数据集确定所述至少一个机器学习模型的更新的模型参数集合；以及(6)重复步骤(1)
‑
(5)的至少一次迭代，直到满足至少一个审查性能终止标准，以获得所述至少一个机器学习模型的模型参数集合作为更新的模型参数，由此每次迭代使用更新的模型参数集合作为初始模型参数集合来重新生成预测值集合、误差集合、数据选择向量和非离群值数据集。7.如权利要求6所述的方法，还包括由所述至少一个处理器接收用于在所述至少一个生产环境中使用以预测离群值事件的可能性的离群值分析机器学习模型；其中所述至少一次迭代还包括：至少部分地基于生产就绪模型请求来选择至少一个离群值分析机器学习模型；确定所述至少一个离群值分析机器学习模型的离群值分析模型参数集合，包括：(7)将具有初始模型参数集合的所述至少一个离群值分析机器学习模型应用于训练数据集以确定离群值分析模型预测值集合；以及(8)通过将离群值分析模型预测值集合与训练数据集的对应实际值进行比较，生成离群值分析数据元素误差的离群值分析误差集合；以及(9)重复步骤(7)
‑
(8)作为所述至少一次迭代的一部分，直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准。8.如权利要求6所述的方法，其中每个数据记录的自变量包括电网状态；其中电网状态包括：一天中的时间，日期，天气，地点，人口密度，或其任意组合；其中目标变量包括电网能量需求；以及其中所述至少一个机器学习模型包括至少一个能量需求预测机器学习模型，该模型被训练以至少部分地基于随后的电网状态来预测电网能量需求。9.如权利要求8所述的方法，还包括由所述至少一个处理器接收用于在所述至少一个
生产环境中使用以预测极端电网需求的可能性的极端需求机器学习模型；其中所述至少一次迭代还包括：至少部分地基于生产就绪模型请求来选择至少一个极端需求机器学习模型；确定所述至少一个极端需求机器学习模型的极端需求模型参数集合，包括：(7)将具有初始模型参数集合的所述至少一个极端需求机器学习模型应用于训练数据集，以确定极端需求模型预测值集合；以及(8)通过将极端需求模型预测值集合与训练数据集的对应实际值进行比较，生成极端需求数据元素误差的极端需求误差集合；以及(9)重复步骤(7)
‑
(8)作为所述至少一次迭代的一部分，直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准。10.如权利要求6所述的方法，其中每个数据记录的自变量包括用户特性；其中用户特性包括：浏览器，地点，年龄，或其任意组合；其中目标变量包括；内容来源，网页上的内容位置，内容屏幕区域，内容类型，分类，或其任意组合；以及其中所述至少一个机器学习模型包括至少一个内容预测机器学习模型，该模型被训练以至少部分地基于后续用户特性来预测内容推荐。11.一种系统，包括：至少一个处理器，被配置...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：哈佛蒸汽锅炉检验和保险公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人