【技术实现步骤摘要】
面向多源异构数据融合的数据源选择方法
本专利技术属于大数据分析
技术介绍
随着大数据时代的来临,每时每刻都产生着数以亿计的数据。基于海量数据,人们需要从中提取有用的信息来了解甚至指导人们的日常生活和工作。因此,大数据分析应运而生,并且成为一个越来越受欢迎的领域。然而,对于一个大数据分析任务,如何获取该任务需要的数据集是一个非常关键的问题。在许多数据分析算法中,尤其是大部分机器学习算法,数据起到了关键性的作用,数据对分析结果的好坏起着决定性的作用。但是,人们往往假设数据集是已经给出的。然而,目前大部分数据分析任务的数据集往往仍然由此领域的专家或机构通过人工采集的方式来获取。采用人工的方式获取数据集虽然能够使数据质量得到保证,并且在数据量较少的情况下是可行的,但是一旦数据量增多,仅仅依赖领域专家或机构人工采集的方式获取数据集是不实际的,而且这将耗费巨大的人力、物力和财力,造成昂贵的代价。
技术实现思路
本专利技术是为了解决现有大数据分析采用人工采集的方式,存在分析效率低且存在大量的资源浪费的 ...
【技术保护点】
1.面向多源异构数据融合的数据源选择方法,其特征在于,该方法基于异构数据源集合S={S1、S2、…、Sn}实现,所述异构数据源集合S中每个数据源Si的属性集合为<xi
【技术特征摘要】
1.面向多源异构数据融合的数据源选择方法,其特征在于,该方法基于异构数据源集合S={S1、S2、…、Sn}实现,所述异构数据源集合S中每个数据源Si的属性集合为<xi1,xi2,…,xin>;
该方法具体包括:
步骤一、建立数据分析任务目标数据集的属性集A={A1,A2,…,Ar};在属性集A中随机抽取一个目标属性Ai作为搜索属性,在数据源集合S中搜索包含属性性Ai的数据源,获得数据源集合P,初始化判别函数值Dold为0;
步骤二、将数据源集合P中每个元素Pi均构建为一个集合{Pi},构成集合T={{Pi}|Pi属于P};
步骤三、计算集合T中每个子集合的分数;
步骤四、获取集合T中分数最大的子集合Tmax;判断分数最大的子集合Tmax的属性是否包含属性集{A1,A2,…,An}中所有的属性;若是,则执行步骤六,否则,执行步骤五;
步骤五、从异构数据源集合S中筛选出所有既不属于集合Tmax,又与集合Tmax之间存在可连接关系的数据源Si,更新P′=Tmax∪{Si},计算集合P′中每个子集合的分数,并将P′加入集合T中,令T=T∪{P′};返回执行步骤四;
步骤六、判断集合T中分数最大的集合Tmax中是否包含多余的数据源,若是,从集合T中移除集合Tmax,更新集合T=T-{Tmax};返回执行步骤四,否则执行步骤七;
步骤七、将分数最大的集合Tmax加入目标数据源集合的集合Sol;计算集合Sol当前的判别函数值Dnew;
步骤八、判断判别函数值Dnew是否大于Dold;Dold为上次计算的集合Sol的判别函数值;若是,令Dold=Dnew,返回执行步骤四,否则,完成数据源选择,将集合Sol作为目标数据源集合。
2.根据权利要求1所述面向多源异构数据融合的数据源选择方法,其特征在于,步骤三所述计算集合T中每个子集合的分数的具体方法为:
通过对集合T中每个子集合N中的每个数据源进行采样...
【专利技术属性】
技术研发人员:王宏志,赖昕,王春楠,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。