基于影像资料调用业务场景实现资料冷热分离存储的方法技术

技术编号:24331285 阅读:21 留言:0更新日期:2020-05-29 19:41
本发明专利技术公开了一种基于影像资料调用业务场景实现资料冷热分离存储的方法,属于影像资料冷热分离存储技术领域,解决现有技术造成冷热数据预判的准确率低,调取响应时间长等问题。本发明专利技术基于获取的影像资料是否是首次提交或/和基于预测得到的下一个需要办理的业务进行处理时,临时预热区域内的影像资料是否被调用或/和影像资料冷热更新,对临时预热区域、热数据区域或/和冷数据区域中的影像资料进行冷热分离处理,并将分离后的数据分别存储在热数据区域和冷数据区域。本发明专利技术用于影像冷热分离存储。

A method of data cold and hot separation storage based on image data calling business scenario

【技术实现步骤摘要】
基于影像资料调用业务场景实现资料冷热分离存储的方法
一种基于影像资料调用业务场景实现资料冷热分离存储的方法,用于影像冷热分离存储,属于影像资料冷热分离存储

技术介绍
随着互联网、大数据和电子商务的发展,互联网金融得到了快速发展,越来越多的金融业务办理实现了互联网化,网上业务办理,产生了大量的影像资料,如何快速、高效、合理的存储、调阅和管理这些影像资料显得尤为重要。目前的影像冷热分离方法基本上是通过调用次数对数据进行冷热判断,然后将冷热数据进行分层存储。由于影像数据量非常庞大,因此,常常将冷数据存储在一些查询效率较慢的存储介质中。在某些调用影像的业务场景中,影像资料的访问频率低但是要求存储的有效性很长。如线上用户开户时上传的身份证照片,当次办理业务后,进行存储,过了很久进行线上的鉴权,可能又会调阅该用户的身份证照片,此时将该影像定义为冷数据,调阅需要花费很长时间是不能接受的。目前的冷热数据预判方法主要存在以下问题:1.通过调阅次数来进行预判为冷热数据,在业务办理场景中,冷数据会突然变为热数据,业务办理完成后,热数据也可能很久不会调用,因此造成调阅次数来进行冷热数据预判的准确率低。2.将冷数据进行分层存储,业务办理时,先将数据预热,再调取,响应时间长。3.冷数据的查询效率普遍较慢,响应时间长。
技术实现思路
针对上述研究的问题,本专利技术的目的在于提供一种基于影像资料调用业务场景实现资料冷热分离存储的方法,解决现有技术造成冷热数据预判的准确率低,调取响应时间长等问题。为了达到上述目的,本专利技术采用如下技术方案:一种基于影像资料调用业务场景实现资料冷热分离存储的方法,如下步骤:步骤1、根据应用场景中的埋点技术,实时采集用户行为数据,获取基于用户行为数据提交的影像资料,并判断获取的影像资料是否是首次提交,若不是首次提交,转到步骤2,若是首次提交,存储在热数据区域,再转到步骤2,其中,影像资料为非结构化数据,包括图片、视频和PDF;步骤2、基于当前用户行为数据、历史用户行为数据和训练好的用户行为预测模型,预测用户下一个需要办理的业务;步骤3、若下一个需要办理的业务对应的影像资料存储在冷数据区域,则将其调取到临时预热区域,再转到步骤4,若存储在热数据区域,则不做处理;步骤4、处理下一个需要办理的业务时,临时预热区域内的影像资料被调用,则将临时预热区域内的影像资料移动到热数据区域进行存储,若未被调用,则将其移回冷数据区域进行存储。进一步,还包括影像资料冷热更新,即指每日检测热数据区域中存储的影像资料,判断其是否超过给定的时间阈值、且未被调用,若是,将其判定为冷影像资料,并将此影像资料移动到冷数据区域进行存储,若否,则仍为热影像资料,仍存储在热数据区域,其中,给定的时间阈值为7-30日。进一步,所述步骤1的具体步骤为:步骤1.1、在调取影像资料的应用场景中,用户登录或浏览入口页面时,基于埋点技术会实时产生用户操作行为数据,即用户行为数据,产生后实时地记录用户行为数据,并获取基于用户行为数据提交的影像资料;步骤1.2、判断获取的影像资料是否是首次提交,即根据标签比对的方法判断当前提交的影像资料是否在临时预热区域、热数据区域或冷数据区域,若不是首次提交,即在临时预热区域、热数据区域或冷数据区域,转到步骤2,若是首次提交,即不在临时预热区域、热数据区域和冷数据区域,存储影像资料在热数据区域,再转到步骤2;其中,标签比对的方法是将影像资料的标签与临时预热区域、热数据区域和冷数据区域中存储的影像资料的标签进行对比。进一步,所述步骤2中,得到训练好的用户行为预测模型的具体步骤为:步骤2-1、获取历史用户行为数据,即获取用户的历史地理位置信息、历史当前办理业务、历史下一个需要办理的业务和业务流程先后顺序规则,其中,业务流程先后顺序规则是指在业务办理过程中各业务的先后顺序,以及各业务内调取影像资料的先后顺序;步骤2-2、将历史地理位置信息、业务流程先后顺序规则做one-hot编码转换处理,处理后映射为向量形式,其中,映射时缺失值以中位数或者均值填充;历史访问页面的URL映射为向量空间,将所有映射的结果构成特征向量,其中,历史访问页面的URL即指历史当前办理业务和历史下一个需要办理的业务;步骤2-3、基于特征向量训练用户行为预测模型,得到训练后的用户行为模型,其中,用户行为预测模型为LSTM长短时记忆神经网络模型。进一步,所述步骤2-1中,业务流程先后顺序规则包括在授信场景中,业务的先后顺序依次为用户注册到实名认证、申请授信和放款;其中,在用户注册到实名认证中,包括调用身份证影像资料上传、身份证影像资料OCR识别、人脸比对和唇语识别的先后顺序;在申请授信中,调用身份影像资料核查和征信影像资料核查的先后顺序;在放款时,调用各合同影像资料进行审查的先后顺序。进一步,所述步骤2的具体步骤为:将用户当前的地理位置信息、当前办理业务、业务流程先后顺序规则和历史用户行为数据输入训练好的用户行为模型,预测到用户下一个需要办理的业务。进一步,所述步骤3中的临时预热区域为NAS服务器、内存存储介质、缓存存储介质或缓冲区存储介质中的一种或多种。进一步,所述冷数据区域为大数据平台HDFS、HBASE存储介质或FileNet存储介质中的一种或多种,热数据区域为高性能存储介质,包括NAS或SSD存储介质中的一种或多种。本专利技术同现有技术相比,其有益效果表现在:一、本专利技术实时预测用户行为,提前准备所需影像资料到临时预热区域,从根本上解决业务响应时间过长,处理效率过慢,用户体验不佳的问题。二、本专利技术根据时间阈值判断冷热数据,及时更新冷热状态,解决冷热数据准确率过低的问题。三、本专利技术通过实时预测用户行为,解决了在线业务需要使用大容量的高性能存储的依赖,通过实时预测用户行为,只需要使用小量高性能存储即可;大大节省了系统建设成本。如:以前为了满足响应要求,100TB的影像资料都需要高性能存储介质进行存储,现在只需要1TB高性能存储介质和99TB的普通存储介质进行存储即可。四、本专利技术进行下一个需要办理业务成功的情况下,本专利技术调用冷数据的时间与现有技术相比,可以节省一半的时间。附图说明图1是本专利技术的流程示意图;图2是本专利技术中得到训练后的用户行为预测模型的流程示意图。具体实施方式为了便于本领域普通技术人员的理解和实施本专利技术的各个环节,以下结合实施例的具体实施方式,对本专利技术的上述内容再作进一步的详细说明。但不应将此理解为本专利技术上述主题的范围仅限于以下的实例。在不脱离本专利技术上述技术思想前提下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本专利技术的范围内。一种基于影像资料调用业务场景实现资料冷热分离存储的方法,如下步骤:步骤1、根据应用场景中的埋点技术,实时采集用户行为数据,获取基于用户行为数据提交的影像资本文档来自技高网...

【技术保护点】
1.一种基于影像资料调用业务场景实现资料冷热分离存储的方法,其特征在于,如下步骤:/n步骤1、根据应用场景中的埋点技术,实时采集用户行为数据,获取基于用户行为数据提交的影像资料,并判断获取的影像资料是否是首次提交,若不是首次提交,转到步骤2,若是首次提交,存储在热数据区域,再转到步骤2,其中,影像资料为非结构化数据,包括图片、视频和PDF;/n步骤2、基于当前用户行为数据、历史用户行为数据和训练好的用户行为预测模型,预测用户下一个需要办理的业务;/n步骤3、若下一个需要办理的业务对应的影像资料存储在冷数据区域,则将其调取到临时预热区域,再转到步骤4,若存储在热数据区域,则不做处理;/n步骤4、处理下一个需要办理的业务时,临时预热区域内的影像资料被调用,则将临时预热区域内的影像资料移动到热数据区域进行存储,若未被调用,则将其移回冷数据区域进行存储。/n

【技术特征摘要】
1.一种基于影像资料调用业务场景实现资料冷热分离存储的方法,其特征在于,如下步骤:
步骤1、根据应用场景中的埋点技术,实时采集用户行为数据,获取基于用户行为数据提交的影像资料,并判断获取的影像资料是否是首次提交,若不是首次提交,转到步骤2,若是首次提交,存储在热数据区域,再转到步骤2,其中,影像资料为非结构化数据,包括图片、视频和PDF;
步骤2、基于当前用户行为数据、历史用户行为数据和训练好的用户行为预测模型,预测用户下一个需要办理的业务;
步骤3、若下一个需要办理的业务对应的影像资料存储在冷数据区域,则将其调取到临时预热区域,再转到步骤4,若存储在热数据区域,则不做处理;
步骤4、处理下一个需要办理的业务时,临时预热区域内的影像资料被调用,则将临时预热区域内的影像资料移动到热数据区域进行存储,若未被调用,则将其移回冷数据区域进行存储。


2.根据权利要求1所述的一种基于影像资料调用业务场景实现资料冷热分离存储的方法,其特征在于:还包括影像资料冷热更新,即指每日检测热数据区域中存储的影像资料,判断其是否超过给定的时间阈值、且未被调用,若是,将其判定为冷影像资料,并将此影像资料移动到冷数据区域进行存储,若否,则仍为热影像资料,仍存储在热数据区域,其中,给定的时间阈值为7-30日。


3.根据权利要求1所述的一种基于影像资料调用业务场景实现资料冷热分离存储的方法,其特征在于,所述步骤1的具体步骤为:
步骤1.1、在调取影像资料的应用场景中,用户登录或浏览入口页面时,基于埋点技术会实时产生用户操作行为数据,即用户行为数据,产生后实时地记录用户行为数据,并获取基于用户行为数据提交的影像资料;
步骤1.2、判断获取的影像资料是否是首次提交,即根据标签比对的方法判断当前提交的影像资料是否在临时预热区域、热数据区域或冷数据区域,若不是首次提交,即在临时预热区域、热数据区域或冷数据区域,转到步骤2,若是首次提交,即不在临时预热区域、热数据区域和冷数据区域,存储影像资料在热数据区域,再转到步骤2;其中,标签比对的方法是将影像资料的标签与临时预热区域、热数据区域和冷数据区域中存储的影像资料的标签进行对比。


4.根据权利要求1所述的一种基于影像资料调用业务场景实现资料冷...

【专利技术属性】
技术研发人员:喻川陈思成胡荣德
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1