一种基于大数据环境下的多源数据聚合抽样方法及系统技术方案

技术编号：21913901 阅读：20 留言：0更新日期：2019-08-21 12:24

本发明专利技术属于大数据技术领域，公开了一种基于大数据环境下的多源数据聚合抽样方法及系统，采集多个原始数据源，每一原始数据源包括数据源名称和至少一个关联域；对采集的数据源进行清洗、识别、去除冗余操作；利用构建程序根据原始数据源，获取原始策略列表，对原始策略列表中的原始策略进行排序，形成数据源间策略列表；利用融合程序将不同来源数据集进行融合处理；将融合后的文件进行分词，形成文件词语的二维词频矩阵；设定均衡校验数值，循环匹对各个词语，进行滚雪球抽样；利用显示器显示采集的多源数据。本发明专利技术通过预处理模块计算节点由Spark调度，完成分布式计算，能够实现更高效地数据预处理，实用性强，适用范围广。

A Sampling Method and System for Multi-Source Data Aggregation Based on Large Data Environment

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据环境下的多源数据聚合抽样方法及系统
本专利技术属于大数据
，尤其涉及一种基于大数据环境下的多源数据聚合抽样方法及系统。
技术介绍
多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起，并对信息进行统一的评价，最后得到统一的信息的技术。该技术研发出来的目的是将各种不同的数据信息进行综合，吸取不同数据源的特点然后从中提取出统一的，比单一数据更好、更丰富的信息。然而，现有大数据环境下的多源数据聚合抽样过程中，对结构化数据，对于半结构化、非结构化的数据预处理研究不足，并且通常只包含数据采集和数据清洗两个模块，而且数据清洗的方法也比较简单，不能很好地满足用户需求；同时，数据的融合时，没有开放链接数据集作为先验知识，无法在减少比较复杂度的情况下高效准确进行大规模异构数据源的融合。综上所述，现有技术存在的问题是：现有大数据环境下的多源数据聚合抽样过程中，对结构化数据，对于半结构化、非结构化的数据预处理研究不足，并且通常只包含数据采集和数据清洗两个模块，而且数据清洗的方法也比较简单，不能很好地满足用户需求；同时，数据的融合时，没有开放链接数据集作为先验知识，无法在减少比较复杂度的情况下高效准确进行大规模异构数据源的融合。
技术实现思路
针对现有技术存在的问题，本专利技术提供了一种基于大数据环境下的多源数据聚合抽样方法及系统。本专利技术是这样实现的，一种基于大数据环境下的多源数据聚合抽样方法，所述基于大数据环境下的多源数据聚合抽样方法包括：通过数据融合模块利用融合程序将不同来源数据集进行融合处理；在融合多个来源的实体数据时，分别对每个数据...

【技术保护点】
1.一种基于大数据环境下的多源数据聚合抽样方法，其特征在于，所述基于大数据环境下的多源数据聚合抽样方法包括：通过数据融合模块利用融合程序将不同来源数据集进行融合处理；在融合多个来源的实体数据时，分别对每个数据源的属性进行规范化表示，其中包括了同义属性映射和对属性值的数值单位的统一转换；基于实体名和实体属性对实体进行分块聚合；将同一分块内不同来源的实体作为候选实体对，采用实体对齐算法计算实体间的相似度，将匹配得到不同来源中描述同一客观世界的实体对，建立不同数据源之间同一实体的等价链接，并进行实体属性的合并，而对于一个数据源中独有的实体，直接添加到知识库中；通过分词模块将融合后的文件进行分词，形成文件词语的二维词频矩阵；

【技术特征摘要】
1.一种基于大数据环境下的多源数据聚合抽样方法，其特征在于，所述基于大数据环境下的多源数据聚合抽样方法包括：通过数据融合模块利用融合程序将不同来源数据集进行融合处理；在融合多个来源的实体数据时，分别对每个数据源的属性进行规范化表示，其中包括了同义属性映射和对属性值的数值单位的统一转换；基于实体名和实体属性对实体进行分块聚合；将同一分块内不同来源的实体作为候选实体对，采用实体对齐算法计算实体间的相似度，将匹配得到不同来源中描述同一客观世界的实体对，建立不同数据源之间同一实体的等价链接，并进行实体属性的合并，而对于一个数据源中独有的实体，直接添加到知识库中；通过分词模块将融合后的文件进行分词，形成文件词语的二维词频矩阵；s.t.Xi＝XiAi+Ei,i＝1,…,K其中α是大于0的系数，用来度量正常词语和异常词语分词带来的误差；等价为以下模型：2.如权利要求1所述基于大数据环境下的多源数据聚合抽样方法，其特征在于，所述基于大数据环境下的多源数据聚合抽样方法进一步包括：步骤一，通过数据源采集模块采集多个原始数据源，每一原始数据源包括数据源名称和至少一个关联域；步骤二，中央控制模块通过预处理模块利用数据处理程序对采集的数据源进行清洗、识别、去除冗余操作；步骤三，通过策略列表构建模块利用构建程序根据原始数据源，获取原始策略列表，对原始策略列表中的原始策略进行排序，形成数据源间策略列表；步骤四，通过数据融合模块利用融合程序将不同来源数据集进行融合处理；步骤五，通过分词模块将融合后的文件进行分词，形成文件词语的二维词频矩阵；步骤六，通过抽样模块利用抽样程序选取数据目标导向的种子根节点关键词语，输入滚雪球抽样深度，在种子根节点数据的基础上，设定均衡校验数值，循环匹对各个词语，进行滚雪球抽样；步骤七，通过显示模块利用显示器显示采集的多源数据。3.如权利要求2所述基于大数据环境下的多源数据聚合抽样方法，其特征在于，预处理模块处理方法包括：(1)根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储；(2)采用Spark框架将分布式文件系统HDFS中的数据加载到内存，清除重复数据、噪声数据，进行格式变换操作；(3)对清洗后的数据，识别出同一个实体的不同表示方法，正确地识别出的所有不同实体，对同一实体的数据进行合并；(4)采用基于哈希值的重复数据删除技术，去除冗余数据。4.如权利要求3所述基于大数据环境下的多源数据聚合抽样方法，其特征在于，所述步骤(1)中，从异构数据源中读取结构化、半结构化、非结构化大数据，上传到分布式文件系统HDFS进行存储；所述异构数据源的格式包括：Txt、Csv、Xsl、数据库数据、jpg、mp4，并提供接口标准以便扩展新数据源；对于文本文件，包括Txt、Csv，通过设计文本存储函数，从文本文件中读取文本数据，存储到分布式文件系统HDFS中；对于Xsl文件，通过设计Xsl存储函数，从Excel文件中读取excel数据，存储到分布式文件系统HDFS中；对于数据库数据，包括MySQL、Oracle，通过数据库访问接口ODBC或JDBC从数据库中读取，存储到分布式文件系统HDFS中；对于其他类型的文件，包括jpg、mp4，通过设计相应的文件存储函数，读取相应的数据源中的数据，存储到分布式文件系统HDFS中。5.如权利要求3所述基于大数据环境下的多源数据聚合抽样方法，其特征在于，所述步骤(2)中，...

【专利技术属性】
技术研发人员：云本胜，钱亚冠，胡月，
申请(专利权)人：浙江科技学院，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人