一种基于大数据环境下的多源数据聚合抽样方法及系统技术方案

技术编号:21913901 阅读:20 留言:0更新日期:2019-08-21 12:24
本发明专利技术属于大数据技术领域,公开了一种基于大数据环境下的多源数据聚合抽样方法及系统,采集多个原始数据源,每一原始数据源包括数据源名称和至少一个关联域;对采集的数据源进行清洗、识别、去除冗余操作;利用构建程序根据原始数据源,获取原始策略列表,对原始策略列表中的原始策略进行排序,形成数据源间策略列表;利用融合程序将不同来源数据集进行融合处理;将融合后的文件进行分词,形成文件词语的二维词频矩阵;设定均衡校验数值,循环匹对各个词语,进行滚雪球抽样;利用显示器显示采集的多源数据。本发明专利技术通过预处理模块计算节点由Spark调度,完成分布式计算,能够实现更高效地数据预处理,实用性强,适用范围广。

A Sampling Method and System for Multi-Source Data Aggregation Based on Large Data Environment

【技术实现步骤摘要】
一种基于大数据环境下的多源数据聚合抽样方法及系统
本专利技术属于大数据
,尤其涉及一种基于大数据环境下的多源数据聚合抽样方法及系统。
技术介绍
多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起,并对信息进行统一的评价,最后得到统一的信息的技术。该技术研发出来的目的是将各种不同的数据信息进行综合,吸取不同数据源的特点然后从中提取出统一的,比单一数据更好、更丰富的信息。然而,现有大数据环境下的多源数据聚合抽样过程中,对结构化数据,对于半结构化、非结构化的数据预处理研究不足,并且通常只包含数据采集和数据清洗两个模块,而且数据清洗的方法也比较简单,不能很好地满足用户需求;同时,数据的融合时,没有开放链接数据集作为先验知识,无法在减少比较复杂度的情况下高效准确进行大规模异构数据源的融合。综上所述,现有技术存在的问题是:现有大数据环境下的多源数据聚合抽样过程中,对结构化数据,对于半结构化、非结构化的数据预处理研究不足,并且通常只包含数据采集和数据清洗两个模块,而且数据清洗的方法也比较简单,不能很好地满足用户需求;同时,数据的融合时,没有开放链接数据集作为先验知识,无法在减少比较复杂度的情况下高效准确进行大规模异构数据源的融合。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于大数据环境下的多源数据聚合抽样方法及系统。本专利技术是这样实现的,一种基于大数据环境下的多源数据聚合抽样方法,所述基于大数据环境下的多源数据聚合抽样方法包括:通过数据融合模块利用融合程序将不同来源数据集进行融合处理;在融合多个来源的实体数据时,分别对每个数据源的属性进行规范化表示,其中包括了同义属性映射和对属性值的数值单位的统一转换;基于实体名和实体属性对实体进行分块聚合;将同一分块内不同来源的实体作为候选实体对,采用实体对齐算法计算实体间的相似度,将匹配得到不同来源中描述同一客观世界的实体对,建立不同数据源之间同一实体的等价链接,并进行实体属性的合并,而对于一个数据源中独有的实体,直接添加到知识库中;通过分词模块将融合后的文件进行分词,形成文件词语的二维词频矩阵;s.t.Xi=XiAi+Ei,i=1,…,K其中α是大于0的系数,用来度量正常词语和异常词语分词带来的误差;等价为以下模型:s.t.Xi=XiSi+Ei,Ai=Ji,Ai=Si,i=1,…,K进一步,所述基于大数据环境下的多源数据聚合抽样方法进一步包括:步骤一,通过数据源采集模块采集多个原始数据源,每一原始数据源包括数据源名称和至少一个关联域;步骤二,中央控制模块通过预处理模块利用数据处理程序对采集的数据源进行清洗、识别、去除冗余操作;步骤三,通过策略列表构建模块利用构建程序根据原始数据源,获取原始策略列表,对原始策略列表中的原始策略进行排序,形成数据源间策略列表;步骤四,通过数据融合模块利用融合程序将不同来源数据集进行融合处理;步骤五,通过分词模块将融合后的文件进行分词,形成文件词语的二维词频矩阵;步骤六,通过抽样模块利用抽样程序选取数据目标导向的种子根节点关键词语,输入滚雪球抽样深度,在种子根节点数据的基础上,设定均衡校验数值,循环匹对各个词语,进行滚雪球抽样;步骤七,通过显示模块利用显示器显示采集的多源数据。进一步,预处理模块处理方法包括:(1)根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;(2)采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;(3)对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;(4)采用基于哈希值的重复数据删除技术,去除冗余数据。进一步,所述步骤(1)中,从异构数据源中读取结构化、半结构化、非结构化大数据,上传到分布式文件系统HDFS进行存储;所述异构数据源的格式包括:Txt、Csv、Xsl、数据库数据、jpg、mp4,并提供接口标准以便扩展新数据源;对于文本文件,包括Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中;对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中;对于数据库数据,包括MySQL、Oracle,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中;对于其他类型的文件,包括jpg、mp4,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。进一步,所述步骤(2)中,所述数据清洗是指基于Spark大数据处理框架,将分布式文件系统HDFS中的数据加载到内存,进行去噪、去重,格式变换操作,具体过程包括:读取数据:基于SparkRDD/DataFrame建立数据模型,读取HDFS文件中的数据,转化为RDD/DataFrame;清除重复数据:读取步骤生成的数据,通过设计函数或使用内置的函数清除重复数据;清除噪声数据:采用规则引擎实现了组合条件判断规则的自由配置,减少或清除噪声数据,并避免有效信息丢失;进行格式变换,将不同格式的数据转化为统一格式。进一步,所述进行规范化表示包括对数值型属性和日期型属性的规范方法,所述日期型属性的属性值均统一表示为XX年XX月XX日,对于数值型属性的属性值的规范主要包括数值转化和单位统一两个步骤,数值转换是指将原有数值中的千位分隔符、中文大写数字等情况全部转化为阿拉伯数字,单位统一则对同一类别下的不同单位间进行数值换算;所述基于实体名和实体属性对实体进行分块聚合,首先需要对实体进行分块,将可能指向一致的实体对放入同一块中,再将同一块中不同来源的实体作为候选匹配实体对,两两比较不同数据源中的实体是否是同一指代;所述分块采用基于实体名称和实体属性的分块策略对实体进行分组聚合,所述分组聚合的具体的流程是,首先根据实体名称,将实体名称分解为二元模型序列;其次,对于每个二元模型序列中的项作为倒排索引的key值,将该实体插入到该项对应的倒排索引中;然后,将倒排索引中每个key值对应的实体,根据实体属性再进行划分,最后,如果两个不同来源的实体具有两个以上相同的属性及属性值,则被划分入同一分块中。本专利技术的另一目的在于提供一种实现所述基于大数据环境下的多源数据聚合抽样方法的信息数据处理终端。本专利技术的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于大数据环境下的多源数据聚合抽样方法。本专利技术的另一目的在于提供一种实施所述基于大数据环境下的多源数据聚合抽样方法的基于大数据环境下的多源数据聚合抽样系统,所述基于大数据环境下的多源数据聚合抽样系统包括:数据源采集模块,与中央控制模块连接,用于采集多个原始数据源,每一原始数据源包括数据源名称和至少一个关联域;中央控制模块,与数据源采集模块、预处理模块、策略列表构建模块、数据融合模块、分词模块、抽样模块、显示模块连接,用于通过中央处理器控制各个模块正常工作;预处理模块,与中央控制模块连接,用于通过数据处理程序对采集的数据源进行清洗、识别、去除冗余操作;策略列表构建模块,与中央控制模块连接,用于通过构建程序根据原始数本文档来自技高网...

【技术保护点】
1.一种基于大数据环境下的多源数据聚合抽样方法,其特征在于,所述基于大数据环境下的多源数据聚合抽样方法包括:通过数据融合模块利用融合程序将不同来源数据集进行融合处理;在融合多个来源的实体数据时,分别对每个数据源的属性进行规范化表示,其中包括了同义属性映射和对属性值的数值单位的统一转换;基于实体名和实体属性对实体进行分块聚合;将同一分块内不同来源的实体作为候选实体对,采用实体对齐算法计算实体间的相似度,将匹配得到不同来源中描述同一客观世界的实体对,建立不同数据源之间同一实体的等价链接,并进行实体属性的合并,而对于一个数据源中独有的实体,直接添加到知识库中;通过分词模块将融合后的文件进行分词,形成文件词语的二维词频矩阵;

【技术特征摘要】
1.一种基于大数据环境下的多源数据聚合抽样方法,其特征在于,所述基于大数据环境下的多源数据聚合抽样方法包括:通过数据融合模块利用融合程序将不同来源数据集进行融合处理;在融合多个来源的实体数据时,分别对每个数据源的属性进行规范化表示,其中包括了同义属性映射和对属性值的数值单位的统一转换;基于实体名和实体属性对实体进行分块聚合;将同一分块内不同来源的实体作为候选实体对,采用实体对齐算法计算实体间的相似度,将匹配得到不同来源中描述同一客观世界的实体对,建立不同数据源之间同一实体的等价链接,并进行实体属性的合并,而对于一个数据源中独有的实体,直接添加到知识库中;通过分词模块将融合后的文件进行分词,形成文件词语的二维词频矩阵;s.t.Xi=XiAi+Ei,i=1,…,K其中α是大于0的系数,用来度量正常词语和异常词语分词带来的误差;等价为以下模型:2.如权利要求1所述基于大数据环境下的多源数据聚合抽样方法,其特征在于,所述基于大数据环境下的多源数据聚合抽样方法进一步包括:步骤一,通过数据源采集模块采集多个原始数据源,每一原始数据源包括数据源名称和至少一个关联域;步骤二,中央控制模块通过预处理模块利用数据处理程序对采集的数据源进行清洗、识别、去除冗余操作;步骤三,通过策略列表构建模块利用构建程序根据原始数据源,获取原始策略列表,对原始策略列表中的原始策略进行排序,形成数据源间策略列表;步骤四,通过数据融合模块利用融合程序将不同来源数据集进行融合处理;步骤五,通过分词模块将融合后的文件进行分词,形成文件词语的二维词频矩阵;步骤六,通过抽样模块利用抽样程序选取数据目标导向的种子根节点关键词语,输入滚雪球抽样深度,在种子根节点数据的基础上,设定均衡校验数值,循环匹对各个词语,进行滚雪球抽样;步骤七,通过显示模块利用显示器显示采集的多源数据。3.如权利要求2所述基于大数据环境下的多源数据聚合抽样方法,其特征在于,预处理模块处理方法包括:(1)根据预设条件抽取异构数据源中的数据上传到分布式文件系统HDFS进行存储;(2)采用Spark框架将分布式文件系统HDFS中的数据加载到内存,清除重复数据、噪声数据,进行格式变换操作;(3)对清洗后的数据,识别出同一个实体的不同表示方法,正确地识别出的所有不同实体,对同一实体的数据进行合并;(4)采用基于哈希值的重复数据删除技术,去除冗余数据。4.如权利要求3所述基于大数据环境下的多源数据聚合抽样方法,其特征在于,所述步骤(1)中,从异构数据源中读取结构化、半结构化、非结构化大数据,上传到分布式文件系统HDFS进行存储;所述异构数据源的格式包括:Txt、Csv、Xsl、数据库数据、jpg、mp4,并提供接口标准以便扩展新数据源;对于文本文件,包括Txt、Csv,通过设计文本存储函数,从文本文件中读取文本数据,存储到分布式文件系统HDFS中;对于Xsl文件,通过设计Xsl存储函数,从Excel文件中读取excel数据,存储到分布式文件系统HDFS中;对于数据库数据,包括MySQL、Oracle,通过数据库访问接口ODBC或JDBC从数据库中读取,存储到分布式文件系统HDFS中;对于其他类型的文件,包括jpg、mp4,通过设计相应的文件存储函数,读取相应的数据源中的数据,存储到分布式文件系统HDFS中。5.如权利要求3所述基于大数据环境下的多源数据聚合抽样方法,其特征在于,所述步骤(2)中,...

【专利技术属性】
技术研发人员:云本胜钱亚冠胡月
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1