一种数据的衍生处理方法技术

技术编号:34437050 阅读:12 留言:0更新日期:2022-08-06 16:21
本发明专利技术涉及大数据应用技术领域,尤其涉及一种数据的衍生处理方法,包括基于原子属性信息依次建立层级数据簇,令这些层级数据簇为显性数据簇;基于显性数据簇挖掘原子间的隐性信息,并通过隐性信息建立隐性数据簇;将隐性数据簇更新至显性数据簇所在的数据库;更具所需关注的属性信息获取数据库中的高频原子,并引入热源注意力机制和双向门控循环网络对高频数据进行处理,进一步结合任务场景的对高频原子进行相关性分析,并基于相关性对高频原子进行排序。本技术方案能够高效地将海量数据进行处理,同时能够有效降低大数据算法的时间复杂度,兼顾数据挖掘的深度,在保障原有大数据系统功能的同时,还能够给各相关部门管理人物信息规划新的思路。息规划新的思路。息规划新的思路。

【技术实现步骤摘要】
一种数据的衍生处理方法


[0001]本专利技术涉及大数据应用
,尤其涉及一种数据的衍生处理方法。

技术介绍

[0002]在信息技术和网络技术的推动下,人们的生活发生了翻天覆地的变化。大数据、云计算、物联网等现代技术正在不断改变着人们的生活,人们在使用这些技术的过程中,也不断地产生着数据,并且,这些数据不再是简单的文本和结构化的小样本数据,而是伴随有图像、音频、视频等非结构化的海量数据,当今社会已经进入大数据时代。
[0003]与传统数据相比,大数据具有数据量更大、种类繁多、增长速度快、价值密度低等特点。各业务系统每天产生着大量、非结构化的数据,也是大数据的一种,各业务大数据在帮助各企业部门了解业务需求情况、针对性提供产品服务方面起着至关重要的作用。当前,随着社会经济的发展和人口流动性的增加,消费者在不同时间、不同场合的需求存在较大差异。由于信息共享不畅,企业很难分析消费者真实的需求;同时,通过手机、电视、电脑等媒体,消费者浏览的信息量增加,他们对不同出行、购物、饮食的方案优缺点了解增多,形成了一套属于自己的消费观念,这些都显著地增加了企业对消费者进行需求分析的难度。为了更精准的为消费者提供服务,提高对资源的利用以及服务效率,企业需要充分利用大数据技术,寻找自动分析数据、自动分类数据、自动汇总数据、自动发现和描述趋势、自动识别异常,这些都催生了数据挖掘的诞生。简而言之,数据挖掘从大量数据中提取或挖掘知识。
[0004]通过以上所述,现有的各业务大数据挖掘系统主要面临以下几个问题:1.大数据量大繁多,不能够有效地获取有价值的数据;2.人群基数大,大数据算法处理起来需要大量的时间成本;3.消费者的接触的信息量增加,企业直接获取用户需求难度增加;4.消费者在不同时间、不同场合的需求存在较大差异,企业难以准确进行智能推荐。

技术实现思路

[0005]本专利技术的目的在于根据上述各业务大数据挖掘系统面临的问题,提出一种数据的衍生处理方法,一方面能够高效地将海量数据进行处理,同时能够有效降低大数据算法的时间复杂度,另一方面还能够兼顾数据挖掘的深度。两者相结合,在保障原有大数据系统功能的同时,还能够给各相关部门管理人物信息规划新的思路,提高智能推荐的效率。本专利技术解决上述技术问题所采用的技术方案如下:
[0006]一种数据的衍生处理方法,包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析;
[0007]S1,所述显性数据簇的生成:根据数据的属性对原始数据进行若干次分类,并基于每次分类结果依次建立层级数据簇,称任意层级数据簇中的每单个数据为原子,这些层级数据簇为显性数据簇,将所有显性数据簇存入数据库;
[0008]S2,所述隐性数据簇的生成:获取相同或不同显性数据簇中不同原子的隐性信息,并基于隐性信息对不同显性数据簇中不同原子进行划分,以形成隐性数据簇;
[0009]S3,所述数据簇的处理:将隐性数据簇更新至显性数据簇所在的数据库;
[0010]S4,所述相关性分析:获取数据库中所有与任务场景的原子,并根据原子与任务场景的相关性,对所有原子进行排序。
[0011]优选的,所述显性数据簇的生成过程中,所述原始数据来自于相关部门的业务数据库,且业务数据库包括人力资源管理数据库。
[0012]优选的,所述显性数据簇的生成包括以下步骤:
[0013]S11,获取原始数据的属性信息;
[0014]S12,基于属性信息,在原始数据的若干属性中选择一种属性作为第一属性;
[0015]S13,以第一属性为依据,对原始数据进行分类,并基于分类结果建立若干一级数据组,称所有一级数据组为所述层级数据簇中的一级数据簇,称一级数据簇中的每单个数据为原子,每单个一级数据簇中的原子具有相同的第一属性;
[0016]S14,根据业务场景确定迭代阈值n,并基于迭代阈值对原子进行n次发散衍生,且n≥1;其中,原子发散衍生包括以下步骤:
[0017]S14

1,基于属性信息选择第m+1属性,以第m+1属性为依据,对隶属于相同或不同的m级数据簇中的原子进行分类,并基于分类结果建立若干m+1级数据组,称所有 m+1级数据组为所述层级数据簇中的m+1级数据簇;其中,m为当前发散衍生的次数, n≥m≥1;
[0018]S14

2,判断m是否大于n;若m≤n,则令m=m+1后,回到步骤S14

1;若m>n,则停止对原子的发散衍生。
[0019]优选的,所述隐性信息是基于显性数据簇生成后,根据不同原子之间除所述属性信息以外的相关性而产生的隐性属性。
[0020]优选的,所述步骤S4中,获取数据库中所有与任务场景的原子包括以下步骤:
[0021]S41

1,根据任务场景确定需要关注的属性信息;
[0022]S41

2,根据需要关注的属性信息提取所述数据库中的高频原子,所述高频原子即为整个数据库中出现次数相对较多的原子。
[0023]优选的,所述步骤S4中,对所有原子进行排序包括以下步骤:
[0024]S42

1,引入热源注意力机制和双向门控循环网络;利用热源注意力机制对所述高频原子进行初步处理,以将注意力集中到所需关注的属性信息上;利用双向门控循环网络进行对所述高频原子二次处理,以选择性地忽略原子无需关注的属性信息对任务的影响;
[0025]S42

2,将热源注意力机制和双向门控循环网络的处理结果进行汇总,基于汇总结果结合实际情况获取高频原子与业务的相关性;
[0026]S42

3,根据高频原子与业务的相关性对原子进行排序。
[0027]本专利技术的有益效果:
[0028]本专利技术针对目前的社会大数据环境,提出了一种数据的衍生处理方法,其中包含了一种原始数据的高效划分方式,能够高效地将海量数据进行处理,同时能够有效降低大数据算法的时间复杂度,结合对隐性关系的挖掘,兼顾数据挖掘的深度,在保障原有大数据系统功能的同时,还能够给各相关部门管理人物信息规划新的思路,提高智能推荐的效率,进一步大幅降低了数据处理量和业务复杂度。
附图说明
[0029]图1为本技术方案的实施流程如图。
具体实施方式
[0030]为使专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。
[0031]因此,以下对在附图中提供的本专利技术的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]本实施例提供一种数据的衍生处理方法,主要是针对人物数据的处理,包括显性数据簇的生成、隐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据的衍生处理方法,其特征在于:包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析;S1,所述显性数据簇的生成:根据数据的属性对原始数据进行若干次分类,并基于每次分类结果依次建立层级数据簇,称任意层级数据簇中的每单个数据为原子,这些层级数据簇为显性数据簇,将所有显性数据簇存入数据库;S2,所述隐性数据簇的生成:获取相同或不同显性数据簇中不同原子的隐性信息,并基于隐性信息对不同显性数据簇中不同原子进行划分,以形成隐性数据簇;S3,所述数据簇的处理:将隐性数据簇更新至显性数据簇所在的数据库;S4,所述相关性分析:获取数据库中所有与任务场景的原子,并根据原子与任务场景的相关性,对所有原子进行排序。2.如权利要求1所述一种数据的衍生处理方法,其特征在于:所述显性数据簇的生成过程中,所述原始数据来自于相关部门的业务数据库,且业务数据库包括人力资源管理数据库。3.如权利要求1所述一种数据的衍生处理方法,其特征在于,所述显性数据簇的生成包括以下步骤:S11,获取原始数据的属性信息;S12,基于属性信息,在原始数据的若干属性中选择一种属性作为第一属性;S13,以第一属性为依据,对原始数据进行分类,并基于分类结果建立若干一级数据组,称所有一级数据组为所述层级数据簇中的一级数据簇,称一级数据簇中的每单个数据为原子,每单个一级数据簇中的原子具有相同的第一属性;S14,根据业务场景确定迭代阈值n,并基于迭代阈值对原子进行n次发散衍生,且n≥1;其中,原子发散衍生包括以下步骤:S14

1,基于属性信息选择第m+1属性,以第m+1属性为依据,对隶属于相同或不同的m级数据簇中的原...

【专利技术属性】
技术研发人员:殷光强李超唐飞侯少麒陈勇生林若希
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1