组合用于对数据进行分类的数据驱动模型制造技术

技术编号:32725492 阅读:26 留言:0更新日期:2022-03-20 08:30
本发明专利技术涉及对数据(24)进行分类。基于经标记的历史数据(44)训练第一数据驱动模型(50)。第二数据驱动模型(60)包括一组规则(42)。在第一数据驱动模型(50)和第二数据驱动模型(60)处获得要分类的数据(24)。由第一数据驱动模型(50)针对数据(24)确定第一分类(52),并且由第二数据驱动模型(60)针对数据(24)确定第二分类(62)。基于分类(52、62)提供结果信号(80)。62)提供结果信号(80)。62)提供结果信号(80)。

【技术实现步骤摘要】
组合用于对数据进行分类的数据驱动模型


[0001]本专利技术涉及一种用于对数据进行分类的系统、一种用于对数据进行分类的计算机实现的方法以及一种用于对数据进行分类的计算机程序产品。

技术介绍

[0002]有监督的二进制文本分类的最新突破是通过应用深度神经网络(DNN)实现的,使其非常适用于工业问题。诸如自动特征学习、经由预训练的泛化性和权重共享的功能是这种神经网络模型的优势。对于工业应用中的实际用例,分类器还必须指示它们提供的分类决策何时可能不正确。这通常通过查看给定文档的分类决策的置信度分数(即与预测的标签相关联的概率)来识别。例如,在二元分类的情况下,置信度分数指示标签为正的概率。
[0003]正如C.Guo等人在2017年在澳大利亚悉尼举办的第34届机器学习国际会议的会议纪要(Proceedings of the 34th International Conference on Machine Learning,Sydney,Australia)PMLR 70上发表的“On Calibration of Modern Neural 本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于对数据(24)进行分类的系统(10),其包括通信接口(14)和处理器(18),所述系统(10)被配置为:

提供第一数据驱动模型(50),其中,基于经标记的历史数据(44)训练所述第一数据驱动模型(50),

提供第二数据驱动模型(60),其中,所述第二数据驱动模型包括一组规则(42),

经由所述通信接口(14)在所述第一数据驱动模型(50)和所述第二数据驱动模型(60)处获得数据(24),

由所述第一数据驱动模型(50)确定所述数据(24)的第一分类(52),

由所述第二数据驱动模型(60)确定所述数据(24)的第二分类(62),以及

基于所述分类(52、62)提供结果信号(80)。2.根据权利要求1的系统(10),其中,以布尔查询语言(46)提供所述规则(42)。3.根据权利要求1或2所述的系统(10),其中,所述第二数据驱动模型(60)包括基于该组规则(42)和所述经标记的历史数据(44)学习的集成模型(68),特别是生成模型(68)。4.根据权利要求3所述的系统(10),其中,所述集成模型(68)被配置为基于所述规则(42a、42b、42c)中的每一个规则对所述经标记的历史数据(44)的拟合将重要性分数(69)分配给所述规则(42a、42b、42c)中的每一个规则,以及其中,所述系统(10)被配置为基于分配给所述规则(42a、42b、42c)的所述重要性分数(69)来优化所述经标记的历史数据(44)。5.根据权利要求1至4中至少一项所述的系统(10),其中,所述第一数据驱动模型(50)包括神经网络(56)。6.根据权利要求1至5中至少一项所述的系统(10),其中,所述第一数据驱动模型(50)被配置为从所述经标记的历史数据(44)中自动提取特征,并且基于所述经标记的历史数据(44)来学习分类模型(56)以用于提供所述第一分类(52)。7.根据权利要求1至6中至少一项所述的系统(10),其中,所述第一数据驱动模型(50)独立于该组规则(42)。8.根据权利要求1至7中至少一项所述的系统(10),其中,所述系统(10)被配置为基于通过计算所述第一分类(52)的分数和所述第二分类(62)的分数之间的差而将所述第一分类(52)与所述第二分类(62)进行比较,来确定所述结果信号(80)。9.根据权利要求8所述的系统(10),其中,所述系统(10)被配置为如果所述第一分类(52)的分数与所述第二分类(62)的分数之间的所述差高于某个阈值差分数,则提供所述结果信号(80)以将所述数据(24)分类为有风险(30)。10.根据权利要求9所述的系统(10),其中,所述阈值差分数是允许在风险和成本节省之间进行平衡的可调节参数。11.根据权利要求8至10中至少一项所述的系统(10),其中,所述第一分类(52)是基于正(26)和反(28)之间的二元分类确定的,以及其中,所述系统(10)被配置为仅针对已被所述第一分类(52)分类为反(28)的数据(24)计算所述第一分类(52)的分数与所述第二分类(62)的分数之间的所述差。12.根据权利要求1至11中至少一项所述的系统(10),其中,所述通信接口(14)被配置为接收所述数据(24)、所述经标记的历史数据(44)、该组规则(42),或其任何组合,并且被配置为传输所述结果信号(80),显示所述结果信号(80),或传输并显示所述结果信号(80)。
13.一种用...

【专利技术属性】
技术研发人员:A
申请(专利权)人:巴斯夫欧洲公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1