被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象技术方案

技术编号:38473776 阅读:12 留言:0更新日期:2023-08-11 14:50
系统和方法包括处理器,用于接收用户活动的训练数据;接收偏倚标准;确定机器学习模型的模型参数集合,包括:(1)将机器学习模型应用于训练数据;(2)生成模型预测误差;(3)基于模型预测误差生成数据选择向量以识别非离群值目标变量;(4)利用数据选择向量生成非离群值数据集;(5)基于非离群值数据集确定更新的模型参数;以及(6)重复步骤(1)

【技术实现步骤摘要】
【国外来华专利技术】被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象
[0001]相关申请的交叉引用
[0002]本申请要求于2020年9月18日提交的美国专利申请号17/025,889的优先权,该申请要求于2019年9月18日提交的标题为“COMPUTER

BASED SYSTEMS,COMPUTING COMPONENTS AND COMPUTING OBJECTS CONFIGURED TO IMPLEMENT DYNAMIC OUTLIER BIAS REDUCTION IN MACHINE LEARNING MODELS”的美国临时申请号62/902,074的优先权,其全部内容通过引用整体并入本文。
[0003]版权声明
[0004]本专利文件的部分公开内容包含受版权保护的材料。版权所有者不反对任何人对专利文件或专利公开内容进行传真复制,就像它出现在专利和商标局专利文件或记录中那样,但除此之外保留所有版权权利。以下通知适用于如下所述的软件和数据以及构成本文档的一部分的附图:Copyright,Hartford Steam Boiler Inspection and Insurance Company,All Rights Reserved。


[0005]本公开一般而言涉及被配置为在机器学习模型中实现偏倚减少的改进的基于计算机的系统、计算组件和计算对象。

技术介绍

[0006]机器学习模型可以包括一个或多个计算机或处理设备,以基于从样本/训练数据中学习到的模式和推断来形成预测或确定。样本/训练数据选择中的偏倚可以传播到机器学习模型的预测和确定中。

技术实现思路

[0007]本公开的实施例包括用于动态离群值偏倚减少的机器学习模型的方法。该方法包括由至少一个处理器接收表示至少一个用户活动的至少一个活动相关属性的目标变量的训练数据集;由至少一个处理器接收用于确定一个或多个离群值的至少一个偏倚标准;由至少一个处理器确定机器学习模型的模型参数集合,包括:(1)由至少一个处理器将具有初始模型参数集合的机器学习模型应用于训练数据集以确定模型预测值集合;(2)由至少一个处理器通过将模型预测值集合与训练数据集的对应实际值进行比较来生成数据元素误差的误差集合;
[0008](3)由至少一个处理器至少部分地基于数据元素误差的误差集合和至少一个偏倚标准生成数据选择向量以识别非离群值目标变量;(4)由至少一个处理器在训练数据集上利用数据选择向量生成非离群值数据集;(5)由至少一个处理器基于非离群值数据集确定机器学习模型的更新的模型参数集合;以及(6)由至少一个处理器重复步骤(1)

(5)作为迭代,直到满足至少一个审查性能终止标准,从而获得机器学习模型的模型参数集合作为更
新的模型参数,由此每次迭代使用更新的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集;由至少一个处理器至少部分地基于训练数据集和数据选择向量训练离群值分类器机器学习模型的分类器模型参数集合以获得被配置为识别至少一个离群值数据元素的经训练的离群值分类器机器学习模型;由至少一个处理器将经训练的离群值分类器机器学习模型应用于至少一个用户活动的活动相关数据的数据集,以确定:i)活动相关数据的数据集中的离群值活动相关数据集合,以及ii)活动相关数据的数据集中的非离群值活动相关数据集合;以及由至少一个处理器将机器学习模型应用于非离群值活动相关数据元素集合,以预测与至少一个用户活动相关的未来活动相关属性。
[0009]本公开的实施例包括用于动态离群值偏倚减少的机器学习模型的系统。该系统包括与具有存储在其上的软件指令的非暂态计算机可读存储介质通信的至少一个处理器,其中软件指令在被执行时使至少一个处理器执行以下步骤:接收表示至少一个用户活动的至少一个活动相关属性的目标变量的训练数据集;接收用于确定一个或多个离群值的至少一个偏倚标准;确定机器学习模型的模型参数集合,包括:(1)将具有初始模型参数集合的机器学习模型应用于训练数据集以确定模型预测值集合;(2)通过将模型预测值集合与训练数据集的对应实际值进行比较,生成数据元素误差的误差集合;(3)至少部分地基于数据元素误差的误差集合和至少一个偏倚标准生成数据选择向量以识别非离群值目标变量;(4)在训练数据集上利用数据选择向量生成非离群值数据集;(5)基于非离群值数据集确定机器学习模型的更新的模型参数集合;以及(6)重复步骤(1)

(5)作为迭代,直到满足至少一个审查性能终止标准,从而获得机器学习模型的模型参数集合作为更新的模型参数,由此每次迭代使用更新的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集;至少部分地基于训练数据集和数据选择向量来训练离群值分类器机器学习模型的分类器模型参数集合以获得被配置为识别至少一个离群值数据元素的经训练的离群值分类器机器学习模型;将经训练的离群值分类器机器学习模型应用于至少一个用户活动的活动相关数据的数据集,以确定:i)活动相关数据的数据集中的离群值活动相关数据集合,以及ii)活动相关数据的数据集中的非离群值活动相关数据集合;以及将机器学习模型应用于非离群值活动相关数据元素集合,以预测与至少一个用户活动相关的未来活动相关属性。
[0010]本公开的实施例的系统和方法还包括:由至少一个处理器将数据选择向量应用于训练数据集以确定离群值训练数据集;由至少一个处理器使用离群值训练数据集训练至少一个特定于离群值的机器学习模型的至少一个特定于离群值的模型参数以预测离群值数据值;以及由至少一个处理器利用特定于离群值的机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值。
[0011]本公开的实施例的系统和方法还包括:由至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;由至少一个处理器利用广义机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值;以及由至少一个处理器利用广义机器学习模型来预测活动相关数据值。
[0012]本公开的实施例的系统和方法还包括:由至少一个处理器将数据选择向量应用于训练数据集以确定离群值训练数据集;由至少一个处理器使用离群值训练数据集训练特定
于离群值的机器学习模型的特定于离群值的模型参数以预测离群值数据值;由至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;由至少一个处理器利用特定于离群值的机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值;以及由至少一个处理器利用特定于离群值的机器学习模型来预测活动相关数据值。
[0013]本公开的实施例的系统和方法还包括:由至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;由至少一个处理器利用广义机器学习模型来预测活动相关数据集合的活动相关数据值;由至少一个处理器利用离群值分类器机器学习模型来识别活动相关数据值的离群值活动相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:由至少一个处理器从与至少一个生产环境相关联的至少一个计算设备接收包括数据记录的训练数据集的生产就绪模型请求;其中每个数据记录包括自变量和目标变量;由所述至少一个处理器确定至少一个机器学习模型的模型参数集合,包括:(1)由所述至少一个处理器将具有初始模型参数集合的所述至少一个机器学习模型应用于训练数据集,以确定模型预测值集合;(2)由所述至少一个处理器通过将模型预测值集合与训练数据集的对应实际值进行比较来生成数据元素误差的误差集合;(3)由所述至少一个处理器至少部分地基于数据元素误差的误差集合和至少一个偏倚标准生成数据选择向量以识别非离群值目标变量;(4)由所述至少一个处理器将数据选择向量应用于训练数据集以生成非离群值数据集;(5)由所述至少一个处理器基于非离群值数据集确定所述至少一个机器学习模型的更新的模型参数集合;以及(6)由所述至少一个处理器重复步骤(1)

(5)的至少一次迭代,直到满足至少一个审查性能终止标准,从而获得所述至少一个机器学习模型的模型参数集合作为更新的模型参数,由此每次迭代使用更新的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集;以及由所述至少一个处理器至少部分地基于所述至少一次迭代传输所述至少一个机器学习模型的生产就绪机器学习模型以供在所述至少一个生产环境中使用。2.如权利要求1所述的方法,还包括:由所述至少一个处理器至少部分地基于生产就绪模型请求来选择至少一个离群值分析机器学习模型;由所述至少一个处理器确定用于所述至少一个离群值分析机器学习模型的离群值分析模型参数集合,包括:(7)由所述至少一个处理器将具有初始模型参数集合的至少一个离群值分析机器学习模型应用于训练数据集以确定离群值分析模型预测值集合;以及(8)由所述至少一个处理器通过将离群值分析模型预测值集合与训练数据集的对应实际值进行比较,生成离群值分析数据元素误差的离群值分析误差集合;(9)由所述至少一个处理器重复步骤(7)

(8)作为所述至少一次迭代的一部分,直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准;以及由所述至少一个处理器将所述离群值分析机器学习模型传送到所述至少一个计算设备以在所述至少一个生产环境中使用以预测离群值事件的可能性。3.如权利要求1所述的方法,其中每个数据记录的自变量包括电网状态;其中电网状态包括:一天中的时间,日期,天气,
地点,人口密度,或其任意组合;其中目标变量包括电网能量需求;以及其中所述至少一个机器学习模型包括至少一个能量需求预测机器学习模型,该模型被训练以至少部分地基于随后的电网状态来预测电网能量需求。4.如权利要求3所述的方法,还包括:由所述至少一个处理器至少部分地基于生产就绪模型请求来选择至少一个极端需求机器学习模型;由所述至少一个处理器确定用于所述至少一个极端需求机器学习模型的极端需求模型参数集合,包括:(7)由所述至少一个处理器将具有初始模型参数集合的所述至少一个极端需求机器学习模型应用于训练数据集,以确定极端需求模型预测值集合;以及(8)由所述至少一个处理器通过将极端需求模型预测值集合与训练数据集的对应实际值进行比较,生成极端需求数据元素误差的极端需求误差集合;(9)由所述至少一个处理器重复步骤(7)

(8)作为所述至少一次迭代的一部分,直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准。由所述至少一个处理器将极端需求机器学习模型传送到所述至少一个计算设备以在所述至少一个生产环境中使用以预测极端电网需求的可能性。5.如权利要求1所述的方法,其中每个数据记录的自变量包括用户特性;其中用户特性包括:浏览器,地点,年龄,或其任意组合;其中目标变量包括;内容来源,网页上的内容位置,内容屏幕区域,内容类型,分类,或其任意组合;以及其中所述至少一个机器学习模型包括至少一个内容预测机器学习模型,该模型被训练以至少部分地基于后续用户特性来预测内容推荐。6.一种方法,包括:由与至少一个生产环境相关联的至少一个计算设备的至少一个处理器将包括数据记录的训练数据集的生产就绪模型请求传输到至少一个自动模型生成处理器;其中每个数据记录包括自变量和目标变量;由所述至少一个处理器从所述至少一个自动模型生成处理器接收至少部分地基于由
所述至少一个自动模型生成处理器执行的至少一次迭代的生产就绪机器学习模型,所述至少一次迭代包括:确定所述至少一个机器学习模型的模型参数集合,包括:(1)将具有初始模型参数集合的所述至少一个机器学习模型应用于训练数据集,以确定模型预测值集合;(2)通过将模型预测值集合与训练数据集的对应实际值进行比较,生成数据元素误差的误差集合;(3)至少部分地基于数据元素误差的误差集合和至少一个偏倚标准来生成数据选择向量以识别非离群值目标变量;(4)将数据选择向量应用于训练数据集,以生成非离群值数据集;(5)基于非离群值数据集确定所述至少一个机器学习模型的更新的模型参数集合;以及(6)重复步骤(1)

(5)的至少一次迭代,直到满足至少一个审查性能终止标准,以获得所述至少一个机器学习模型的模型参数集合作为更新的模型参数,由此每次迭代使用更新的模型参数集合作为初始模型参数集合来重新生成预测值集合、误差集合、数据选择向量和非离群值数据集。7.如权利要求6所述的方法,还包括由所述至少一个处理器接收用于在所述至少一个生产环境中使用以预测离群值事件的可能性的离群值分析机器学习模型;其中所述至少一次迭代还包括:至少部分地基于生产就绪模型请求来选择至少一个离群值分析机器学习模型;确定所述至少一个离群值分析机器学习模型的离群值分析模型参数集合,包括:(7)将具有初始模型参数集合的所述至少一个离群值分析机器学习模型应用于训练数据集以确定离群值分析模型预测值集合;以及(8)通过将离群值分析模型预测值集合与训练数据集的对应实际值进行比较,生成离群值分析数据元素误差的离群值分析误差集合;以及(9)重复步骤(7)

(8)作为所述至少一次迭代的一部分,直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准。8.如权利要求6所述的方法,其中每个数据记录的自变量包括电网状态;其中电网状态包括:一天中的时间,日期,天气,地点,人口密度,或其任意组合;其中目标变量包括电网能量需求;以及其中所述至少一个机器学习模型包括至少一个能量需求预测机器学习模型,该模型被训练以至少部分地基于随后的电网状态来预测电网能量需求。9.如权利要求8所述的方法,还包括由所述至少一个处理器接收用于在所述至少一个
生产环境中使用以预测极端电网需求的可能性的极端需求机器学习模型;其中所述至少一次迭代还包括:至少部分地基于生产就绪模型请求来选择至少一个极端需求机器学习模型;确定所述至少一个极端需求机器学习模型的极端需求模型参数集合,包括:(7)将具有初始模型参数集合的所述至少一个极端需求机器学习模型应用于训练数据集,以确定极端需求模型预测值集合;以及(8)通过将极端需求模型预测值集合与训练数据集的对应实际值进行比较,生成极端需求数据元素误差的极端需求误差集合;以及(9)重复步骤(7)

(8)作为所述至少一次迭代的一部分,直到对于所述至少一个机器学习模型满足所述至少一个审查性能终止标准。10.如权利要求6所述的方法,其中每个数据记录的自变量包括用户特性;其中用户特性包括:浏览器,地点,年龄,或其任意组合;其中目标变量包括;内容来源,网页上的内容位置,内容屏幕区域,内容类型,分类,或其任意组合;以及其中所述至少一个机器学习模型包括至少一个内容预测机器学习模型,该模型被训练以至少部分地基于后续用户特性来预测内容推荐。11.一种系统,包括:至少一个处理器,被配置...

【专利技术属性】
技术研发人员:R
申请(专利权)人:哈佛蒸汽锅炉检验和保险公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1