数据统计方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24409801 阅读:18 留言:0更新日期:2020-06-06 08:41
本申请揭示了一种数据统计方法、装置、计算机设备和存储介质,其中方法包括获取指定时间段内产生的数据记录,形成源数据集;数据记录中至少包括代表所述数据记录的唯一值CARDID,以及数据记录时间;将源数据集转换成<key,value>类型的第一数据集,其中key为CARDID和数据记录时间,value为1;以每一条<key,value>中的数据记录时间为起点,向前或向后映射出N条虚拟<key,value>数据,得到第二数据集,其中,N为正整数,N=M/T,M为指定的时间长度,T为预设的时间单位;选择任意M时间长度的时间区间作为key值,对第二数据集中的数据进行key聚合处理,并将对应的value进行累加,得出不同的所述数据记录在时间区间内的刷卡次数。本申请计算速度更快,实现通过牺牲存储空间达到提升分析效率的目的。

Data statistics methods, devices, computer equipment and storage media

【技术实现步骤摘要】
数据统计方法、装置、计算机设备和存储介质
本申请涉及到计算机领域,特别是涉及到一种数据统计方法、装置、计算机设备和存储介质。
技术介绍
刷卡是目前生活中常见的一种行为,如刷社保卡、公交卡、门禁卡等等。其中,有些卡是不能随便刷的,比如随着全民参保的普及,越来越多的参保人享受着在医院就医过程中直接持卡结算的便捷服务,但由于不同待遇人群间的报销比例差异较大以及医院收费人员对持卡人信息核验不严,可能存在多个人共用一张卡去医院刷卡结算的情况。通过分析出高频刷卡行为,可以缩小疑似违规刷卡的范围,为医保经办人员重点核查提供有力依据。传统的高频刷卡计算方法是分析出每天(00:00:00-23:59:59),或每个整点时间段(如:00:00:00-00:59:59/00:00:00-00:29:59)的刷卡次数大于等于N的持卡人信息,这种计算方式相对实现简单,主要存在两个问题:一是随着时间段的调整,需要调整程序,而且时间段范围越小,程序执行时间越长;二是无法实现分析出任意M分钟(如任意30分钟:00:01:00-00:30:59/07:27:00-07:56:59等)的刷卡次数大于等于N的持卡人信息,可能会有少部分违规刷卡行为未被发现。
技术实现思路
本申请的主要目的为提供一种数据统计方法、装置、计算机设备和存储介质,旨在解决现有技术中无法快速查询任意M分钟内的刷卡次数的技术问题。为了实现上述专利技术目的,本申请提出一种数据统计方法,包括步骤:获取指定时间段内产生的数据记录,形成源数据集,其中,所述数据记录中至少包括代表所述数据记录的唯一值CARDID,以及数据记录时间;将所述源数据集转换成<key,value>类型的第一数据集,其中所述key为CARDID和数据记录时间,value为1;以每一条<key,value>中的数据记录时间为起点,向前或向后映射出N条虚拟<key,value>数据,得到第二数据集,其中,所述N为正整数,所述N=M/T,M为指定的时间长度,T为预设的时间单位;选择任意M时间长度的时间区间作为key值,对所述第二数据集中的数据进行key聚合处理,并将对应的value进行累加,得出对应不同的所述CARDID在所述时间区间内产生的数据记录次数。进一步地,所述选择任意M时间长度的时间区间作为key值,对所述第二数据集中的数据进行key聚合处理,并将对应的value进行累加,得出对应不同的所述CARDID在所述时间区间内产生的数据记录次数的步骤之后,包括:判断对应不同的所述CARDID在所述M时间长度的时间区间内产生的数据记录次数是否大于预设值;若是,则发出提醒信息。进一步地,所述数据记录为医保卡的刷卡记录,所述获取指定时间段内产生的数据记录,形成源数据集的步骤之前,包括:获取用户登录医保卡刷卡违规检测平台的动作;拍摄所述用户的脸部图像;到预设的脸部权限数据库中匹配所述脸部图像;若匹配成功,则允许所述用户继续操作;若匹配失败,则发出权限验证失败的提醒,禁止用户继续操作。进一步地,所述拍摄所述用户的脸部图像的步骤,包括:录制预设时长的所述用户的脸部视频;判断所述脸部视频中,用户的眼睛是否发生眨眼的动作;若是,则在所述脸部视频中截取一张符合预设标准的图片作为所述脸部图像。进一步地,所述到预设的脸部权限数据库中匹配所述脸部图像的步骤,包括:计算所述脸部图像中用户眼睛的特征与所述脸部权限数据库中各图像中的眼睛特征的第一相似度;判断各所述第一像似度是否大于预设的第一相似度阈值;若均小于,则判定所述脸部图像在所述脸部权限数据库中匹配失败;若存在所述第一像似度大于预设的第一相似度阈值的情况,则将所述第一相似度大于预设的第一相似度阈值的所述脸部权限数据库中的图像进行标记,得到标记图像;计算所述脸部图像与所述各标记图像的第二相似度阈值,其中,所述第二相似度阈值小于所述第一相似度阈值;若所述第二相似度大于预设的第二相似度阈值,则判定所述脸部图像在所述脸部权限数据库匹配成功,否则判定匹配失败。本申请还提供一种数据统计装置,包括:获取单元,用于获取指定时间段内产生的数据记录,形成源数据集,其中,所述数据记录中至少包括代表所述数据记录的唯一值CARDID,以及数据记录时间;转换单元,用于将所述源数据集转换成<key,value>类型的第一数据集,其中所述key为CARDID和数据记录时间,value为1;映射单元,用于以每一条<key,value>中的数据记录时间为起点,向前或向后映射出N条虚拟<key,value>数据,得到第二数据集,其中,所述N为正整数,所述N=M/T,M为指定的时间长度,T为预设的时间单位;所述第二数据集中包括所述第一数据集中的每一条<key,value>数据映射出的N条虚拟<key,value>数据;聚合累加单元,用于选择任意M时间长度的时间区间作为key值,对所述第二数据集中的数据进行key聚合处理,并将对应的value进行累加,得出对应不同的所述CARDID在所述时间区间内产生的数据记录次数。进一步地,所述数据统计装置还包括:判断单元,用于判断对应不同的所述CARDID在所述M时间长度的时间区间内产生的数据记录次数是否大于预设值;提醒单元,用于若所述数据记录次数大于预设值,则发出提醒信息。进一步地,所述数据记录为医保卡的刷卡记录,所述数据统计装置还包括:获取登录单元,用于获取用户登录医保卡刷卡违规检测平台的动作;拍摄单元,用于拍摄所述用户的脸部图像;匹配单元,用于到预设的脸部权限数据库中匹配所述脸部图像;指定单元,用于若匹配成功,则允许运行所述用户继续操作;若匹配失败,则发出权限验证失败的提醒,禁止用户继续操作。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请的数据统计方法、装置、计算机设备和存储介质,将有依赖关系的数据记录数据集转成没有依赖关系的数据集,使得第二数据集更适合通过分布式计算来处理,提升了数据分析效率。而且可以对任意M时间长度中的刷卡次数进行统计,灵活方便。虽然说总的数据量由源数据集的K条变成第二数据集的K*N条,但对新数据集没有使用到递归和嵌套处理,而是使用聚合算法,计算速度更快,实现通过牺牲存储空间(或内存空间)达到提升分析效率的目的;而且在计算机集群中统计数据记录次数时,可以将各计算机的计算结果进行二次聚合,快速得到计算机集群的数据记录次数统计,可以减少分布式计算过程中数据在不同本文档来自技高网...

【技术保护点】
1.一种数据统计方法,其特征在于,包括步骤:/n获取指定时间段内产生的数据记录,形成源数据集,其中,所述数据记录中至少包括代表所述数据记录的唯一值CARDID,以及数据记录时间;/n将所述源数据集转换成<key,value>类型的第一数据集,其中所述key为CARDID和数据记录时间,value为1;/n以每一条<key,value>中的数据记录时间为起点,向前或向后映射出N条虚拟<key,value>数据,得到第二数据集,其中,所述N为正整数,所述N=M/T,M为指定的时间长度,T为预设的时间单位;所述第二数据集中包括所述第一数据集中的每一条<key,value>数据映射出的N条虚拟<key,value>数据;/n选择任意M时间长度的时间区间作为key值,对所述第二数据集中的数据进行key聚合处理,并将对应的value进行累加,得出对应不同的所述CARDID在所述时间区间内产生的数据记录次数。/n

【技术特征摘要】
1.一种数据统计方法,其特征在于,包括步骤:
获取指定时间段内产生的数据记录,形成源数据集,其中,所述数据记录中至少包括代表所述数据记录的唯一值CARDID,以及数据记录时间;
将所述源数据集转换成<key,value>类型的第一数据集,其中所述key为CARDID和数据记录时间,value为1;
以每一条<key,value>中的数据记录时间为起点,向前或向后映射出N条虚拟<key,value>数据,得到第二数据集,其中,所述N为正整数,所述N=M/T,M为指定的时间长度,T为预设的时间单位;所述第二数据集中包括所述第一数据集中的每一条<key,value>数据映射出的N条虚拟<key,value>数据;
选择任意M时间长度的时间区间作为key值,对所述第二数据集中的数据进行key聚合处理,并将对应的value进行累加,得出对应不同的所述CARDID在所述时间区间内产生的数据记录次数。


2.根据权利要求1所述的数据统计方法,其特征在于,所述选择任意M时间长度的时间区间作为key值,对所述第二数据集中的数据进行key聚合处理,并将对应的value进行累加,得出对应不同的所述CARDID在所述时间区间内产生的数据记录次数的步骤之后,包括:
判断对应不同的所述CARDID在所述M时间长度的时间区间内产生的数据记录次数是否大于预设值;
若是,则发出提醒信息。


3.根据权利要求1所述的数据统计方法,其特征在于,所述数据记录为医保卡的刷卡记录,所述获取指定时间段内产生的数据记录,形成源数据集的步骤之前,包括:
获取用户登录医保卡刷卡违规检测平台的动作;
拍摄所述用户的脸部图像;
到预设的脸部权限数据库中匹配所述脸部图像;
若匹配成功,则允许所述用户继续操作;
若匹配失败,则发出权限验证失败的提醒,禁止用户继续操作。


4.根据权利要求3所述的数据统计方法,其特征在于,所述拍摄所述用户的脸部图像的步骤,包括:
录制预设时长的所述用户的脸部视频;
判断所述脸部视频中,用户的眼睛是否发生眨眼的动作;
若是,则在所述脸部视频中截取一张符合预设标准的图片作为所述脸部图像。


5.根据权利要求3所述的数据统计方法,其特征在于,所述到预设的脸部权限数据库中匹配所述脸部图像的步骤,包括:
计算所述脸部图像中用户眼睛的特征与所述脸部权限数据库中各图像中的眼睛特征的第一相似度;
判断各所述第一像似度是否大于预设的第一相似度阈值;
若均小于,则判定所述脸部图像在所述脸部权限数据库中匹配失败;

【专利技术属性】
技术研发人员:王成林赵永民范子龙赵慧敏王巍
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1