一种数据的衍生处理方法技术

技术编号：34437050 阅读：12 留言：0更新日期：2022-08-06 16:21

本发明专利技术涉及大数据应用技术领域，尤其涉及一种数据的衍生处理方法，包括基于原子属性信息依次建立层级数据簇，令这些层级数据簇为显性数据簇；基于显性数据簇挖掘原子间的隐性信息，并通过隐性信息建立隐性数据簇；将隐性数据簇更新至显性数据簇所在的数据库；更具所需关注的属性信息获取数据库中的高频原子，并引入热源注意力机制和双向门控循环网络对高频数据进行处理，进一步结合任务场景的对高频原子进行相关性分析，并基于相关性对高频原子进行排序。本技术方案能够高效地将海量数据进行处理，同时能够有效降低大数据算法的时间复杂度，兼顾数据挖掘的深度，在保障原有大数据系统功能的同时，还能够给各相关部门管理人物信息规划新的思路。息规划新的思路。息规划新的思路。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据的衍生处理方法

[0001]本专利技术涉及大数据应用
，尤其涉及一种数据的衍生处理方法。

技术介绍

[0002]在信息技术和网络技术的推动下，人们的生活发生了翻天覆地的变化。大数据、云计算、物联网等现代技术正在不断改变着人们的生活，人们在使用这些技术的过程中，也不断地产生着数据，并且，这些数据不再是简单的文本和结构化的小样本数据，而是伴随有图像、音频、视频等非结构化的海量数据，当今社会已经进入大数据时代。
[0003]与传统数据相比，大数据具有数据量更大、种类繁多、增长速度快、价值密度低等特点。各业务系统每天产生着大量、非结构化的数据，也是大数据的一种，各业务大数据在帮助各企业部门了解业务需求情况、针对性提供产品服务方面起着至关重要的作用。当前，随着社会经济的发展和人口流动性的增加，消费者在不同时间、不同场合的需求存在较大差异。由于信息共享不畅，企业很难分析消费者真实的需求；同时，通过手机、电视、电脑等媒体，消费者浏览的信息量增加，他们对不同出行、购物、饮食的方案优缺点了解增多，形成了一套属于自己的消费观念，这些都显著地增加了企业对消费者进行需求分析的难度。为了更精准的为消费者提供服务，提高对资源的利用以及服务效率，企业需要充分利用大数据技术，寻找自动分析数据、自动分类数据、自动汇总数据、自动发现和描述趋势、自动识别异常，这些都催生了数据挖掘的诞生。简而言之，数据挖掘从大量数据中提取或挖掘知识。
[0004]通过以上所述，现有的各业务大数据挖掘系统主要面临以下几个问题：1.大数据量大繁多...

【技术保护点】

【技术特征摘要】
1.一种数据的衍生处理方法，其特征在于：包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析；S1，所述显性数据簇的生成：根据数据的属性对原始数据进行若干次分类，并基于每次分类结果依次建立层级数据簇，称任意层级数据簇中的每单个数据为原子，这些层级数据簇为显性数据簇，将所有显性数据簇存入数据库；S2，所述隐性数据簇的生成：获取相同或不同显性数据簇中不同原子的隐性信息，并基于隐性信息对不同显性数据簇中不同原子进行划分，以形成隐性数据簇；S3，所述数据簇的处理：将隐性数据簇更新至显性数据簇所在的数据库；S4，所述相关性分析：获取数据库中所有与任务场景的原子，并根据原子与任务场景的相关性，对所有原子进行排序。2.如权利要求1所述一种数据的衍生处理方法，其特征在于：所述显性数据簇的生成过程中，所述原始数据来自于相关部门的业务数据库，且业务数据库包括人力资源管理数据库。3.如权利要求1所述一种数据的衍生处理方法，其特征在于，所述显性数据簇的生成包括以下步骤：S11，获取原始数据的属性信息；S12，基于属性信息，在原始数据的若干属性中选择一种属性作为第一属性；S13，以第一属性为依据，对原始数据进行分类，并基于分类结果建立若干一级数据组，称所有一级数据组为所述层级数据簇中的一级数据簇，称一级数据簇中的每单个数据为原子，每单个一级数据簇中的原子具有相同的第一属性；S14，根据业务场景确定迭代阈值n，并基于迭代阈值对原子进行n次发散衍生，且n≥1；其中，原子发散衍生包括以下步骤：S14
‑
1，基于属性信息选择第m+1属性，以第m+1属性为依据，对隶属于相同或不同的m级数据簇中的原...

【专利技术属性】
技术研发人员：殷光强，李超，唐飞，侯少麒，陈勇生，林若希，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人