本发明专利技术提供一种用户操作行为全量快照和业务还原方法及装置,所述方法包括基于URL镜像的应用层用户操作行为数据的全量快照采集;基于卷积神经网络TextCNN算法对用户操作行为数据进行业务类型识别;基于业务语义的操作关联水平计算和用户行为序列模式分析;该方法及装置基于URL镜像的应用层用户操作全量采集方法、基于卷积神经网络TextCNN算法的业务类型识别方法、基于业务语义的操作关联水平计算和用户行为序列模式分析,来快速采集用户操作行为信息,准确还原用户操作行为,反映用户真实业务操作,以此来实现用户行为操作审计,满足当前用户关联操作的查询检索及对当前用户在一段时间内的用户行为展现。一段时间内的用户行为展现。一段时间内的用户行为展现。
【技术实现步骤摘要】
用户操作行为全量快照和业务还原方法及装置
[0001]本专利技术属于数据分析
,特别涉及一种用户操作行为全量快照和业务还原方法及装置。
技术介绍
[0002]在管理信息系统中,对用户操作行为记录,将为后续的异常行为分析、用户操作行为审计和告警预警提供数据基础。对用户操作行为记录,不仅仅是用户操作行为日志,更是对用户全部操作行为的记录,使得后续的分析更为精准。现有方法为平衡性能、存储容量和业务需要等因素,一般只采集用户操作日志,即只记录用户操作的总结性的或统计性的数据,不包括用户操作行为的输入输出信息。在实际应用场景中,仅仅采集用户行为日志远远不能满足业务要求,如用户非法新增一条报销数据,事后去判别和审计都需要用户操作行为的输入输出数据支持。因此,本专利技术在采集用户操作行为时,将对用户操作行为的全量数据进行记录(考虑到系统中存在大文件,针对文件数据则仅记录结构性操作数据,不记录文件本身)。
[0003]现有方法针对用户操作行为日志的采集、处理、分析和展示,一般通过网络层或应用层采集用户操作行为日志,提取相关和必要的操作行为到统一的存储系统,按照业务需要进行预处理和数据组织形成可用于业务分析的统一格式的日志,最后面向业务应用提取必要字段,通过不同可视化手段显示日志信息(如图1所示)。
[0004]针对用户操作行为全量采集,现有方法存在数据完整性和处理效率低的问题。当通过网络层,例如采用网络镜像方法采集用户操作行为时,一般需要专用设备镜像采集所有网络流量数据,虽不影响业务运行性能,但由于采集数据量大,且还需在应用层对数据进行过滤,存在后续用户操作行为数据提取难度大、效率低等问题。当通过应用层采集用户操作行为时,则需要在应用层实现全量业务数据旁路,通过编写专用程序实时过滤和处理用户操作行为,虽然提升了业务数据提取的准确度,但往往对系统性能造成较大的影响。因此在满足全量数据提取的同时不降低系统性能是用户操作行为采集的关键问题。
[0005]针对用户操作行为处理和分析,现有方法主要针对不同种类的业务制定规则,实现日志到用户操作行为的映射。一般通过定义正则表达式完成日志记录到业务类型的翻译,主要存在业务类型信息不完整和业务动态调整适应性差等问题,即日志仅是记录总结性或统计性数据,对业务类型记录不完整,造成还原难度大;同时由于业务系统经常调整导致业务类型发生变化,使得业务还原不具备动态性。另外,同样的业务类型还存在不同的操作行为,如财务报销中的交通费报销这个业务类型,则存在报销单暂存、提交、审批、更新、删除、查询等操作行为,且这些不同的操作行为对应不同的数据版本。现有方法还未见对业务类型和业务操作进行细粒度划分,以满足用户业务操作的精准还原。因此,如何识别和还原出业务类型和业务操作是用户操作行为处理和分析的关键问题。
[0006]针对用户操作行为展示和分析,业务类型之间往往具备关联性,如交通费报销业务与财务付款、课题经费收支操作是关联的。现有方法中通过日志分析实现业务关联的工
作较少,尤其是管理信息系统中不同业务类型的关联和可视化展示方面。因此,如何通过简单的查询或问答式检索,快速地将当前用户在一定时间范围内的相关业务操作呈现出来是用户操作行为分析和展示的关键问题。
技术实现思路
[0007]为了解决现有技术中存在的问题,本专利技术提供一种用户操作行为全量快照和业务还原方法及装置。
[0008]本专利技术其中一个技术方案提供一种用户操作行为全量快照和业务还原方法,所述方法包括如下步骤:
[0009]基于URL镜像的应用层用户操作行为数据的全量快照采集;
[0010]基于卷积神经网络TextCNN算法对用户操作行为数据进行业务类型识别;
[0011]基于业务语义的操作关联水平计算和用户行为序列模式分析。
[0012]进一步改进的方案中,所述基于卷积神经网络TextCNN算法对用户操作行为数据进行业务类型识别具体包括:
[0013]通过滑动窗口方法对用户操作行为数据进行区分、截取单用户单一业务操作产生的数据段;
[0014]基于卷积神经网络TextCNN算法,对截取形成的单用户单一业务操作产生的数据段进行业务类型的识别。
[0015]进一步改进的方案中,所述操作流程内各业务操作间关联水平量化分析具体为:利用TextCNN算法的输出值序列,采用余弦相似性计算各业务操作间的业务关联水平。
[0016]进一步改进的方案中,所述用户行为序列模式挖掘为利用PrefixSpan算法对用户行为序列模式进行挖掘。
[0017]本专利技术另一技术方案提供一种用户操作行为全量快照和业务还原装置,所述装置包括:
[0018]采集模块,所述采集模块被配置为基于URL镜像的应用层用户操作行为数据的全量快照采集;
[0019]业务类型识别模块,所述业务类型识别模块被配置为基于卷积神经网络TextCNN算法对用户操作行为数据进行业务类型的识别;
[0020]关联模块,所述关联模块被配置为基于业务语义的操作关联水平计算和用户行为序列模式分析。
[0021]本专利技术另一个技术方案还一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行一种用户操作行为全量快照和业务还原方法时实现的步骤。
[0022]本专利技术提供的一种用户操作行为全量快照和业务还原方法及装置,该方法及装置构建了基于URL镜像的应用层用户操作全量采集方法,能够快速有效的采集用户操作行为日志;构建了基于卷积神经网络TextCNN算法的业务类型识别方法,通过对URL和操作数据进行聚类学习,获取业务系统中的业务类型和业务操作;构建基于业务语义或语义编辑的操作关联水平计算和用户行为序列模式分析,来快速采集用户操作行为信息,准确还原用户操作行为,反映用户真实业务操作,以此来实现用户行为操作审计,满足当前用户关联操作的查询检索及对当前用户在一段时间内的用户行为展现。
附图说明
[0023]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0024]图1是现有技术公开的用户操作行为日志采集、处理、分析和展示的流程图;
[0025]图2是本专利技术一些实施例提供的一种用户操作行为全量快照和业务还原方法的流程图;
[0026]图3是卷积神经网络TextCNN算法的流程图;
[0027]图4为本专利技术一些实施例提供的一种用户操作行为全量快照和业务还原装置的结构框图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用户操作行为全量快照和业务还原方法,其特征在于,所述方法包括如下步骤:基于URL镜像的应用层用户操作行为数据的全量快照采集;基于卷积神经网络TextCNN算法对用户操作行为数据进行业务类型识别;基于业务语义的操作关联水平计算和用户行为序列模式分析。2.根据权利要求1所述的用户操作行为全量快照和业务还原方法,其特征在于,所述基于卷积神经网络TextCNN算法对用户操作行为数据进行业务类型识别具体包括:通过滑动窗口方法对用户操作行为数据进行区分、截取单用户单一业务操作产生的数据段;基于卷积神经网络TextCNN算法,对截取形成的单用户单一业务操作产生的数据段进行业务类型的识别。3.根据权利要求2所述的用户操作行为全量快照和业务还原方法,其特征在于,所述基于业务语义的操作关联水平计算和用户行为序列模式分析具体为:利用TextCNN算...
【专利技术属性】
技术研发人员:周小军,冯博,于建军,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。