一种数据量的异常检测方法、装置、存储介质和设备制造方法及图纸

技术编号:28042225 阅读:16 留言:0更新日期:2021-04-09 23:25
本发明专利技术公开一种数据量的异常检测方法,针对一个业务类型,采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;N为正整数,T大于零;针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数;根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;根据最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;根据预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常。

【技术实现步骤摘要】
一种数据量的异常检测方法、装置、存储介质和设备
本专利技术涉及数据处理技术,尤其涉及一种数据量的异常检测方法、装置、存储介质和设备。
技术介绍
医疗数据治理领域,通过在医院部署客户端(简称为医院院端)收集数据,医院院端上传数据至系统,在系统中对这些数据进行管理。基于此,要求对医院院端上传的数据量进行监控并进行合理性评估,以确保医疗数据不缺失、不重复的稳定传输。传统的医疗数据质控方式主要为人工经验质控、院端厂商提供预测指标、完全借助人工智能三种方式。但是,人工经验质控的方式存在质控成本高、标准模糊且不能量化、质控精度低等问题,院端厂商提供预测指标存在质控精度低等问题,而完全借助人工智能的方式技术投入高、技术要求高。因此,需要一种简单易维护,且成本低、质控精度高的数据质控方式。
技术实现思路
本专利技术提供一种数据量的异常检测方法和装置,以至少解决现有技术中存在的以上技术问题。本专利技术一方面提供一种数据量的异常检测方法,该方法应用于一数据系统,该数据系统包括至少一个业务类型,每个业务类型有一个基础表和至少一个非基础表,该方法包括:针对一个业务类型,采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;所述N为正整数,所述T大于零;针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数;根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;根据所述最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常。其中,所述基础表和非基础表中,每个表包含至少一条记录,所述数据量为表中包含的记录数;所述基础表用于记录用户的基础数据,每条记录对应一个唯一的用户标识;在所述用户的基础数据产生后,所述非基础表用于记录该用户产生的关联数据。其中,所述根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数,包括:针对任意一个批次,该非基础表对应于该批次的系数为:该非基础表在该批次的数据量与基础表在该批次的数据量的比值。其中,所述计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量,包括:采集第N+1个批次的基础表的数据量;将第N+1个批次的基础表的数据量减去第N个批次的基础表的数据量,得到用户增量;该非基础表在第N+1个批次对应的预测最大数据量为:该非基础表在第N个批次的数据量+用户增量*所述最大系数;该非基础表在第N+1个批次对应的预测最小数据量为:该非基础表在第N个批次的数据量+用户增量*所述最小系数。其中,所述根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常,包括:若该非基础表在第N+1个批次的数据量大于等于所述预测最小数据量且小于等于所述预测最大数据量,则确定所述该非基础表在第N+1个批次的数据量为正常,否则确定为异常。其中,所述采集的N个批次的样本数据中不包含已被检测为异常的数据。其中,若所述检测结果错误,该方法还包括,针对待检测批次,调整所述N的值,包括:通过时间窗采集样本数据,其中,所述时间窗的起始长度为M个批次,所述时间窗的起始位置为所述待检测批次的前一个批次,所述时间窗的结束位置为待检测批次的前M个批次;每次采集样本数据时,所述时间窗的起始位置不变,所述时间窗的结束位置相比上一次采集时向前移动P个批次;采用时间窗采集样本数据的次数为预定次数;计算通过时间窗每次采集的样本数据对应的误差百分比,将绝对值最小的误差百分比对应的样本数据的批次数量作为所述N的值。其中,所述计算通过时间窗每次采集的样本数据对应的误差百分比,包括:对于任意一次采集的样本数据,计算该待检测的非基础表在本次采集的样本数据中对应于每个批次的系数,统计该非基础表对应的平均系数;计算该待检测的非基础表在待检测批次对应的预测平均数据量为:该待检测的非基础表在第上一个批次的数据量+用户增量*所述平均系数;计算待检测的非基础表对应于本次样本数据的误差百分比为:所述预测平均数据量与该非基础表在待检测批次的数据量的比值减1。本专利技术另一方面提供一种数据量的异常检测装置,该装置应用于一数据系统,该数据系统包括至少一个业务类型,每个业务类型有一个基础表和至少一个非基础表,该装置包括:采集模块,针对一个业务类型,用于采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;计算模块,用于针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数;并根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;预测模块,用于根据所述最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;检测模块,用于根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常。本专利技术再一方面提供一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现以上任一所述的数据量的异常检测方法。本专利技术还一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上任一所述的数据量的异常检测方法。在上述的数据量的异常检测方式中,对于当前批次的数据量的检测依赖于前N个批次的数据量;基于该N个批次的数据量计算出指标、即预测最大数据量和预测最小数据量,依次来检测当前批次数据量是否异常,在该检测过程中,不需要依赖于人的经验,也无需厂商提供的指标,更没有复杂的人工智能算法,达到了释放人力成本、提高质控精度、提高自动化程度,降低技术要求、技术投入成本等目的。附图说明图1示出了本专利技术一实施例提供的数据量的异常检测方法流程示意图;图2示出了本专利技术另一实施例提供的数据量的异常检测方法流程示意图;图3示出本专利技术一实施例提供的数据量的异常检测装置结构示意图;具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在医疗数据治理领域,现有的数据质检方式大概有:人工经验质控:依赖于质控人员根据长时间跟踪的经验,通过数据量增量的大小、趋势变化、医疗机构的特点本文档来自技高网...

【技术保护点】
1.一种数据量的异常检测方法,其特征在于,该方法应用于一数据系统,该数据系统包括至少一个业务类型,每个业务类型有一个基础表和至少一个非基础表,该方法包括:/n针对一个业务类型,采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;所述N为正整数,所述T大于零;/n针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数;/n根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;/n根据所述最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;/n根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常。/n

【技术特征摘要】
1.一种数据量的异常检测方法,其特征在于,该方法应用于一数据系统,该数据系统包括至少一个业务类型,每个业务类型有一个基础表和至少一个非基础表,该方法包括:
针对一个业务类型,采集N个批次的样本数据,每个批次的时长为T,每个批次的样本数据包括一个基础表的数据量和所有非基础表的数据量;所述N为正整数,所述T大于零;
针对任意一个非基础表,根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数;
根据该非基础表对应的N个批次的系数,统计该非基础表对应的最大系数和最小系数;
根据所述最大系数和最小系数,计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量;
根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常。


2.根据权利要求1所述的方法,其特征在于,
所述基础表和非基础表中,每个表包含至少一条记录,所述数据量为表中包含的记录数;
所述基础表用于记录用户的基础数据,每条记录对应一个唯一的用户标识;在所述用户的基础数据产生后,所述非基础表用于记录该用户产生的关联数据。


3.根据权利要2所述的方法,其特征在于,所述根据该非基础表的数据量和基础表的数据量,统计该非基础表对应于每个批次的系数,包括:
针对任意一个批次,该非基础表对应于该批次的系数为:该非基础表在该批次的数据量与基础表在该批次的数据量的比值。


4.根据权利要2所述的方法,其特征在于,所述计算该非基础表在第N+1个批次对应的预测最大数据量和预测最小数据量,包括:
采集第N+1个批次的基础表的数据量;
将第N+1个批次的基础表的数据量减去第N个批次的基础表的数据量,得到用户增量;
该非基础表在第N+1个批次对应的预测最大数据量为:该非基础表在第N个批次的数据量+用户增量*所述最大系数;
该非基础表在第N+1个批次对应的预测最小数据量为:该非基础表在第N个批次的数据量+用户增量*所述最小系数。


5.根据权利要求4所述的方法,其特征在于,所述根据所述预测最大数据量和预测最小数据量,检测该非基础表在第N+1个批次的数据量是否异常,包括:
若该非基础表在第N+1个批次的数据量大于等于所述预测最小数据量且小于等于所述预测最大数据量,则确定所述该非基础表在第N+1个批次的数据量为正常,否则确定为异常。


6.根据权利要求5所述的方法,其特征在于,所述采集的N个批次的样本数据中不包含已被检测为异常的数据。<...

【专利技术属性】
技术研发人员:许朝
申请(专利权)人:北京懿医云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1