使用域索引的约束储存库的异常和漂移检测制造技术

技术编号:33301791 阅读:59 留言:0更新日期:2022-05-06 12:09
一种计算机实现的方法,包括:获得数据集和指示数据集的域的信息(600);至少部分地基于数据集和信息从域索引的约束储存库获得约束(602),其中,域索引的约束储存库包括具有多个节点的知识图,其中,每个节点包括与多个域中的至少一个域相关联的属性和与属性相对应的约束;基于数据集的部分是否违反所检索的约束来检测数据集中的异常(604);生成与异常中的每一个异常相对应的解释,该解释描述与所违反的约束相对应的属性(606);以及输出异常的指示和相对应解释(608)。指示和相对应解释(608)。指示和相对应解释(608)。

【技术实现步骤摘要】
【国外来华专利技术】使用域索引的约束储存库的异常和漂移检测


[0001]本申请一般涉及信息技术,并且更具体地涉及异常和漂移检测。

技术介绍

[0002]异常检测涉及识别数据中的不规则性,并且通常依赖于应用于数值或经编码数据的基于统计或机器学习的方法。通常,这些方法不能应用于原始数据。
[0003]异常检测用于多种应用,例如入侵检测、欺诈检测、故障检测、系统健康监测、传感器网络中的事件检测以及检测生态系统干扰。

技术实现思路

[0004]在本专利技术的一个实施例中,提供了使用约束储存库来进行针对多变量原始数据的域感知可解释异常和漂移检测的技术。一种示例性计算机实现的方法包括以下步骤:获得(i)数据集以及(ii)指示数据集的域的信息;至少部分地基于域索引(domain

indexed)的约束储存库来检测数据集中的一个或多个异常,该域索引的约束储存库包括具有多个节点的知识图,其中,每一个节点包括(i)与多个域中的至少一个域相关联的属性以及(ii)对应于属性的一个或多个约束;生成与一个或多个异常中的每一个异常相对应的解释;以及输出(i)一个或多个异常的指示和(ii)相对应的自然语言解释。
[0005]另一种示例性计算机实现的方法包括以下步骤:获得包括训练数据的数据文件集,其中,该集中的每一个数据文件对应于多个域中的一个域;对于该集中的每一个给定数据文件:(i)根据该给定数据文件的训练数据的至少一部分推断至少一个约束,以及(ii)将所推断的至少一个约束存储在域索引的约束储存库中的节点处,其中,该节点表示对应于给定数据文件的域,并且其中该域索引约束储存库包括定义多个域的层次关系的节点集;基于多个域的层次关系来聚合存储在该域索引约束储存库中的所推断的约束;基于新数据文件的域从该域索引的约束储存库中检索一个或多个约束;以及基于新数据文件的一个或多个部分是否违反所检索的一个或多个约束来检测新数据文件中的一个或多个异常;输出(i)一个或多个异常的指示和(ii)描述新数据文件的部分如何违反所检索的一个或多个约束的自然语言解释。
[0006]本专利技术的另一实施例或其元素可以以有形地体现计算机可读指令的计算机程序产品的形式来实现,当实现该计算机可读指令时,其使得计算机执行如本文所描述的多个方法步骤。此外,本专利技术的另一实施例或其元件可以以包括存储器和至少一个处理器的系统的形式实现,该至少一个处理器耦合到存储器并且被配置为执行所述的方法步骤。此外,本专利技术的另一实施例或其元件可以以用于执行本文所描述的方法步骤的装置或其元件的形式来实现;该装置可以包括硬件模块或硬件和软件模块的组合,其中软件模块存储在有形计算机可读存储介质(或多个这样的介质)中。
[0007]本专利技术的这些和其它目的、特征和优点将从以下结合附图阅读的对其说明性实施例的详细描述中变得显而易见。
附图说明
[0008]图1是示出根据本专利技术示例性实施例的系统架构的图;
[0009]图2是示出根据本专利技术示例性实施例的另一系统架构的示图;
[0010]图3是根据示例性实施例的用于生成约束储存库的过程流程图;
[0011]图4是示出根据示例性实施例的约束储存库的子树的示例的图;
[0012]图5是根据示例性实施例的用于推断约束的过程的流程图;
[0013]图6是示出根据本专利技术实施例的技术的流程图;
[0014]图7是可以在其上实现本专利技术的至少一个实施例的示例性计算机系统的系统图;
[0015]图8描绘了根据本专利技术实施例的云计算环境;以及
[0016]图9描绘了根据本专利技术实施例的抽象模型层。
具体实施方式
[0017]当异常被检测为远离例如期望值区域及其与实际值的距离时,现有的异常和漂移检测技术不提供解释。没有关于如何计算期望值的直观解释。现有技术还倾向于要求对输入数据进行变换或编码和/或未能考虑用户的域。
[0018]异常和漂移检测的许多使用情况可以受益于与检测到的异常一起提供直观的自然语言解释。另外,现有的异常和漂移检测技术集中在用于异常检测的时间序列数据集上,并且因此不考虑非时间性的数据集中的异常的离群值和/或漂移的数据点。
[0019]如本文所述,本专利技术的实施例包括提供数据集的可解释的异常检测。例如,可以提供智能数据工程平台,其自动检测与用户的上下文(或域)相关的异常,并且还提供关于这些检测到的异常的解释。此外,根据至少一个实施例,计算关于基础数据集的新的或现有的数据的质量。然后,计算的质量可以用于例如验证从各种数据源导入的数据。在一个或多个示例实施例中,自动漂移检测被应用于机器学习模型的实况有效载荷数据。
[0020]现在参考图1,该图示出了根据本专利技术示例性实施例的系统架构的示例。图1中所示的示例可应用于例如机器学习模型的有效载荷数据中的自动漂移检测。图1中描绘的系统架构包括约束储存库104和漂移分析模块108。在一些示例中,约束储存库104包括对应于多个域的知识图(KG),其中KG中的每一个节点可以被分配一个或多个约束。例如,可以基于训练数据102来学习一个或多个约束。
[0021]漂移分析模块108包括异常检测模块110和聚类模块112。有效载荷数据114(例如,要被馈送到已部署的机器学习模型中的实况或实时有效载荷数据)以及与有效载荷数据114有关的(一个或多个)约束106被提供给异常检测模块110。异常检测模块110将约束106应用于有效载荷数据114以检测一个或多个异常,然后由聚类模块112对这些异常进行聚类。基于聚类,聚类模块112确定漂移的数据段。另外,漂移分析模块108生成漂移的段如何被计算的解释。漂移分析模块108然后向例如用户输出具有对应解释116的漂移的段。例如,漂移分析模块108可以将检测到的异常聚类成多个聚类,并且如果给定聚类的大小大于阈值,则将其称为漂移。例如,可以基于异常的类型和它们的参数,诸如与期望值的距离,来执行聚类。
[0022]现在参考图2,该图示出了根据本专利技术示例性实施例的系统架构的另一示例。图2所示的示例可应用于例如基于数据质量来检测异常。图2中描绘的系统架构包括约束储存
库204和质量分析模块210。约束储存库204可以包括例如对应于多个域的KG,其中KG中的每一个节点基于例如基础数据集202被分配一个或多个约束。
[0023]质量分析模块210使用来自约束储存库204的约束206计算新数据214(例如,被导入数据库的数据)相对于基础数据集202的质量。质量分析模块210自动检测异常216,并且基于所计算的新数据214的质量来生成解释218(例如,自然语言解释),该解释218然后可以被输出给例如用户。在至少一个实施例中,异常216和解释218可以用于自动验证或核实新数据214。
[0024]现在参考图3,该图是根据示例性实施例的用于填充约束储存库310的KG的过程流程图。约束储存库310包括具有域结构的KG。更具体地,域结构包括域层次,其根据域层次的语义来对齐底层数据或对底层数据进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,所述方法包括:获得数据集和指示所述数据集的域的信息;至少部分地基于所述数据集和所述信息从域索引的约束储存库获得一个或多个约束,其中,所述域索引的约束储存库包括具有多个节点的知识图,其中,每个节点包括与多个域中的至少一个域相关联的属性以及与所述属性相对应的一个或多个约束;至少部分地基于所述数据集的一个或多个部分是否违反所获得的一个或多个约束来检测所述数据集中的一个或多个异常;生成与所述一个或多个异常中的每一个异常相对应的解释,所述解释描述与所违反的一个或多个约束相对应的属性;以及输出所述一个或多个异常的指示和相对应的解释。2.根据权利要求1所述的计算机实现的方法,其中,所述知识图的一个或多个子树中的每一个子树对应于所述多个域中的给定一个域,并且其中,所述子树中的给定一个子树的每个级相对于所述给定子树中的先前级增加所述给定域的抽象级。3.根据权利要求1所述的计算机实现的方法,其中,所述检测包括:基于指示所述数据集的域的所述信息将所述数据集映射到所述多个节点中的一个或多个节点;以及将所映射的节点的约束应用于所述数据集以检测所述一个或多个异常。4.根据权利要求1所述的计算机实现的方法,其中,所述一个或多个约束包括以下各项中的至少一个:单属性约束;以及多属性约束。5.根据权利要求4所述的计算机实现的方法,其中,所述单属性约束对应于以下各项中的一个:文本属性、数值属性以及分类属性,并且其中,所述多属性约束对应于以下各项中的两个或更多个:文本属性、数值属性以及分类属性。6.根据权利要求5所述的计算机实现的方法,其中,每个约束包括基于所述单属性约束的类型和所述多属性约束的类型中的一个或多个的模型,并且其中,所述检测包括将所述模型应用于所述数据集的至少一部分。7.根据权利要求1所述的计算机实现的方法,其中,所述数据集包括至少一个机器学习模型的实时数据,并且其中,所述方法包括:使用机器学习聚类技术来检测所述实时数据的一个或多个段中的漂移;以及输出所述实时数据的与所述漂移相对应的段。8.根据权利要求7所述的计算机实现的方法,其中,所述生成包括生成和输出所述实时数据的与所述漂移相对应的所述段中的每个段的解释。9.根据权利要求1所述的计算机实现的方法,其中,对应于所述一个或多个异常中的每一个异常的所述解释包括描述所述部分如何违反所检索的一个或多个约束的自然语言解释。10.根据权利要求1所述的计算机实现的方法,其中,所述检测包括:基于所述数据集与基础数据集的比较来确定指示所述数据集的质量的值。11.根据权利要求10所述的计算机实现的方法,包括:
响应于指示所述数据集的质量的值满足阈值而验证所述数据集。12.根据权利要求1所述的计算机实现的方法,其中,所述数据集包括既未被编码也未被变换的原始数据。13.一种计算机程序产品,包括计算机可读存储介质,所述计算机可读存储介质包括程序指令,所述程序指令可由计算设备执行以使所述计算设备:获得数据集和指示所述数据集的域的信息;至少部分地基于所述数据集和所述信息从域索引的约束储存库获得一个或多个约束,其中,所述域索引的约束储存库包括具有多个节点的知识图,其中,每个节点包括与多...

【专利技术属性】
技术研发人员:S汉斯SZH夏克R阿南塔纳拉亚南D萨哈A阿加瓦尔G辛格PK洛希亚MA比德S梅塔
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1