一种网站数据采集方法、装置、设备及存储介质制造方法及图纸

技术编号:37394631 阅读:20 留言:0更新日期:2023-04-27 07:31
本发明专利技术提供了一种网站数据采集方法、装置、设备及存储介质,涉及网页流量数据采集技术领域,本申请的日志和埋点功能,不仅提供的日志异步输出,保证了日志输出不会对应用程序性能有影响,还实现了后端隐藏式、自动化埋点统计功能;利用log4j封装的定制化的自定义日志类JtyLog,提供和log4j一样的使用方式,保证了功能的解耦和研发的快速上手使用。在保证性能和研发效率的前提下,很好的实现了页面和服务接口的流量统计和监控功能。务接口的流量统计和监控功能。务接口的流量统计和监控功能。

【技术实现步骤摘要】
一种网站数据采集方法、装置、设备及存储介质


[0001]本专利技术涉及网页流量数据采集
,具体而言,涉及一种网站数据采集方法、装置、设备及存储介质。

技术介绍

[0002]目前,随着互联网技术的发展,功能研发到投产的周期越来越短,而功能埋点能够拿数据作为支撑,反映出用户对网站的反应,以及如何提高网站流量、改进网站性能,了解用户访问网站的行为,为更好地满足用户需求提供支持。随着互联网产品在人们生活中的普及,越来越多的互联网产品都具有功能埋点,成为了大数据抓手,例如,页面浏览数(PV)、独立访问者数量(UV),IP、页面停留时间、页面操作时间、页面访问次数、按钮点击次数、文件下载次数等,根据页面埋点可得到一些重要信息,如用户对网站的反应、浏览内容按访问习惯等。
[0003]在金融行业,尤其是银行,对管理系统的功能模块,审批流程等使用的把控更加严格,但是,却没有合适的数据抓手,来支撑管理层去决策功能的优化方向和策略。且由于行业内系统架构的特殊性,前后端分离,后端存在多个微服务情况,缺失一种统一的埋点策略来推进页面、后端服务接口的流量统计和监控功能,无法提供大数据基数。

技术实现思路

[0004]本专利技术的目的在于提供一种网站数据采集方法、装置、设备及存储介质,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:
[0005]第一方面,本申请提供了一种网站数据采集方法,包括:
[0006]获取第一服务请求信息以及所述第一服务请求信息对应的第一时间信息,所述第一服务请求信息为描述网站前端请求调用后端微服务器接口的信息。
[0007]根据所述第一服务请求信息,得到第一关键参数,所述第一关键参数为从所述第一服务请求信息中解析提取的关键字段信息。
[0008]根据所述第一时间信息和所述第一关键参数,得到用户数据信息,所述用户数据信息是根据所述第一时间信息的先后顺序,将所述第一关键参数中相同微服务器接口的所述第一服务请求信息进行合并后得到的信息。
[0009]基于所述用户数据信息生成第一日志文件。
[0010]根据所述第一时间信息、所述第一日志文件和预设存储单元,得到网站数据信息,所述网站数据信息是根据所述第一日志文件与所述预设存储单元之间的映射关系,并按照所述第一时间信息的先后顺序将所述第一日志文件存储至所述预设存储单元内的数据,所述预设存储单元是将数据库根据自定义字段分割成多个存储单元。
[0011]第二方面,本申请还提供了一种网站数据采集装置,包括获取模块、提取模块、集合模块、日志模块和存储模块,其中:
[0012]获取模块:用于获取第一服务请求信息以及所述第一服务请求信息对应的第一时
间信息,所述第一服务请求信息为描述网站前端请求调用后端微服务器接口的信息。
[0013]提取模块:用于根据所述第一服务请求信息,得到第一关键参数,所述第一关键参数为从所述第一服务请求信息中解析提取的关键字段信息。
[0014]集合模块:用于根据所述第一时间信息和所述第一关键参数,得到用户数据信息,所述用户数据信息是根据所述第一时间信息的先后顺序,将所述第一关键参数中相同微服务器接口的所述第一服务请求信息进行合并后得到的信息。
[0015]日志模块:用于基于所述用户数据信息生成第一日志文件。
[0016]存储模块:用于根据所述第一时间信息、所述第一日志文件和预设存储单元,得到网站数据信息,所述网站数据信息是根据所述第一日志文件与所述预设存储单元之间的映射关系,并按照所述第一时间信息的先后顺序将所述第一日志文件存储至所述预设存储单元内的数据,所述预设存储单元是将数据库根据自定义字段分割成多个存储单元。
[0017]第三方面,本申请还提供了一种网站数据采集设备,包括:
[0018]存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述网站数据采集方法的步骤。
[0019]第四方面,本申请还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于网站数据采集方法的步骤。
[0020]本专利技术的有益效果为:
[0021]本申请的日志和埋点功能,不仅提供的日志异步输出,保证了日志输出不会对应用程序性能有影响,还实现了后端隐藏式、自动化埋点统计功能;利用log4j封装的定制化的自定义日志类JtyLog,提供和log4j一样的使用方式,保证了功能的解耦和研发的快速上手使用。在保证性能和研发效率的前提下,很好的实现了页面和服务接口的流量统计和监控功能。
[0022]本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0023]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0024]图1为本专利技术实施例中的网站数据采集方法的流程框图;
[0025]图2为本专利技术实施例中的网站数据采集装置框图;
[0026]图3为本专利技术实施例中的网站数据采集设备的框图。
[0027]图中标记:700

网站数据采集装置;710

获取模块;720

提取模块;730

集合模块;740

日志模块;750

存储模块;760

验证模块;761

第一配置单元;762

第一判断单元;763

第二判断单元;7631

第三处理单元;770

切面拦截模块;771

第二配置单元;772

第一获取单元;773

第一提取单元;774

第三判断单元;775

第一存储单元;780

第一前端埋点模块;781

第三配置单元;782

第二获取单元;783

第二处理单元;784

第二存储单元;790

第二
前端埋点模块;791

第三获取单元;792

第四获取单元;793

第四判断单元;794

第三存储单元;800

网站数据采集设备;801

处理器;802

存储器;803

多媒体组件;804...

【技术保护点】

【技术特征摘要】
1.一种网站数据采集方法,其特征在于,包括:获取第一服务请求信息以及所述第一服务请求信息对应的第一时间信息,所述第一服务请求信息为描述网站前端请求调用后端微服务器接口的信息;根据所述第一服务请求信息,得到第一关键参数,所述第一关键参数为从所述第一服务请求信息中解析提取的关键字段信息;根据所述第一时间信息和所述第一关键参数,得到用户数据信息,所述用户数据信息是根据所述第一时间信息的先后顺序,将所述第一关键参数中相同微服务器接口的所述第一服务请求信息进行合并后得到的信息;基于所述用户数据信息生成第一日志文件;根据所述第一时间信息、所述第一日志文件和预设存储单元,得到网站数据信息,所述网站数据信息是根据所述第一日志文件与所述预设存储单元之间的映射关系,并按照所述第一时间信息的先后顺序将所述第一日志文件存储至所述预设存储单元内的数据,所述预设存储单元是将数据库根据自定义字段分割成多个存储单元。2.根据权利要求1所述的网站数据采集方法,其特征在于,根据所述第一服务请求信息,得到第一关键参数之前还包括:配置网关的拦截规则,所述拦截规则为所述网关对所述服务请求进行主动拦截的元素集合,所述元素集合中的每个元素对应一种拦截信息;判断所述第一服务请求信息是否合法,若所述第一服务请求信息合法,则判断所述第一服务请求信息中的URL地址是否在第一预设信息内,所述第一预设信息为网关进行拦截操作的URL地址信息;若所述第一服务请求信息中的URL地址存在于所述第一预设信息内,则判断所述第一服务请求信息中的第一token信息是否为空;若所述第一服务请求信息中的第一token信息不为空,则根据所述第一服务请求信息得到所述关键参数。3.根据权利要求2所述的网站数据采集方法,其特征在于,判断所述第一服务请求信息中的第一token信息是否为空,包括:判断所述第一token信息与所述后端微服务器接口的第二token信息是否一致;若不一致,则将所述第一服务请求信息返回至所述网站前端;若一致,则将所述网站前端的信息放到第一服务请求信息中的属性attributes中。4.根据权利要求1所述的网站数据采集方法,其特征在于,所述网站数据采集方法,还包括:自定义AOP切面拦截的切入点,所述切入点包括拦截接口信息和拦截方法信息,所述拦截接口信息为服务组合的接口信息,所述服务组合为基于调用耦合关系由多个所述微服务器所形成的具有完整功能的服务;所述拦截方法信息为自定义注释的拦截规则;获取第二服务请求信息以及所述第二服务请求信息对应的第二时间信息,所述第二服务请求信息为描述后端不同的微服务器接口之间相互调用的信息;根据所述第二服务请求信息,得到第二关键参数集合,所述第二关键参数集合中的每个第二关键参数为从所述第二服务请求信息中解析得到的微服务器的信息;判断所述第二关键参数与所述切入点是否一致,若是,则根据所述第二时间信息的先后顺序和每个所述第二关键参数生成第二日志文件;
根据所述第二日志文件与所述预设存储单元之间的映射关系,并按照第二时间信息的先后顺序将所述第二日志文件分别存储至对应的所述预设存储单元内的数据。5.根据权利要求1所述的网站数据采集方法,其特征在于,所述网站数据采集方法,还包括:获取埋点配置数据,所述埋点配置数据包括设置于网站中的各埋点元素以及所述埋点元素的属性参数;响应于所述埋点元素的访问操作,获取所述访问操作对应的行为监测数据,所述访问操作为网站元素发起的可被检测到的操作,所述行为监测数据为描述用户行为的数据以及被访问信息的数据;根据所述访问操作对应的触发事件,得到第三日志文件,所述第三日志文件为服务器根据所述触发事件对所述行为监测数据做出相应处理后得到的数据,所述触发事件为描述所述网站向服务器发出变更数据请求的信息;根据所述埋点配置数据、所述第三日志文件和所述预设存储单元,得到网站数据,所述网站数据是根据所述埋点元素的属性参数与所述预设存储单元的映射关系,将所述第三日志文件存储至所述预设存储单元的数据。6.根据权利要求1所述的网站数据采集方法,其特征在于,所述网站数据采集方法,还包括:获取第三访问请求信息,所述第三访问请求信息为描述前端的所述网站向后端所述微服务器请求访问的信息;基于所述第三访问请求信息,得到第一路由信息,所述第一路由信息为从所述网站的IP地址到所述微服务器的IP地址的进程;判断所述第一路由信息是否在第二路由信息内,所述第二路由信息中至少包括两个自定义的预设路由,每个所述预设路由为从访问IP地址到目标访问IP地址的进程;若是,则响应于所述第三访问请求信息,得到第四日志文件,所述第四日志文件为所述微服务器的基本属性信息;根据所述第四日志文件和所述预设存储单元,得到网站数据信息,所述网站数据信息是根据所述预设存储单元与所述微服务器的基本属性信息的映射关系,将所述第四日志文件分别存储至所述预设存储单元的数据。7.一种网站数据采集装置,其特征在于,包括:获取模块:用于获取第一服务请求信息以及所述第一服务请求信息对应的第一时间信息,所述第一服务请求信息为描述网站前端请求调用后端微服务器接口的信息;提取模块:用于根据所述第一服务请求信息,得到第一关键参数,所述第一关键参数为从所述第一服务请求信息中解析提取的关键字段信息;集合模块:用于根据所述第一时间信息和所述第一关键参数,得到用户数据信息,所述用户数据...

【专利技术属性】
技术研发人员:唐存雨
申请(专利权)人:中信银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1