云计算环境下面向不确定数据源的工作流视图构造方法技术

技术编号:8271464 阅读:176 留言:0更新日期:2013-01-31 03:41
本发明专利技术公开了云计算环境下面向不确定数据源的工作流视图构造方法。本发明专利技术首先读取科学工作流的数据源图信息,并将整个数据源图视为一个完整的工作流视图,检测它的合理性。然后对数据源图进行拆分与重构时,按照四种情形处理。最后对数据源图中的任务节点进行再次合并与重构,直到数据源图中无法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。本发明专利技术所提供的检测方法不仅考虑到了确定数据源图中视图的合理性,更是结合了视图存在的期望支持度来检测是否可以将多个任务合并为期望支持度更大的复合任务。

【技术实现步骤摘要】
本专利技术属于科学工作流
,涉及一种面向科学工作流不确定数据源的视图构造方法。
技术介绍
近年来,随着计算机网络技术飞速发展,作为新型互联网的后端支撑基础云计算技术已开始逐步走向人类社会生活。科学工作流是一类典型的面向海量密集型数据流、以减少计算成本为目标的应用系统,它的出现为跨多类学科和跨不同地域的科研合作提供了方便。在科学工作流系统中,海量数据密集型计算与分布式资源共享彼此间协作、无隙地进行,使得具有不同领域专业知识、地理位置分布的科研工作者可跨组织合作完成相关的科学实验。科学工作流系统现已在各国的科研院所展开应用,并在生物信息学、社会关系分析、气象学、物理学等多个领域都发挥了应有的作用。在云计算环境下进行科学工作流运行 时,将产生大量的中间数据和结果,对这些数据进行管理与分析有助于科研工作者对复杂、多步骤的科学实验进行描述和分析。为了保证实验结果的可重复性与可验证性,许多科学工作流系统都提供了对数据源的支持。由于复杂、大规模的科学工作流系统在运行过程中将产生大量的数据源。如何对这些海量的数据源进行有效地查询与管理现已成为科研工作者研究的重要问题之一,目前许多研究工作针对此方面展开,它们通过构造数据源视图的方式来分析数据源,从而达到缩减数据源图的规模和计算复杂度的目的。在数据源视图中,科学工作流中的任务依据数据流关系,被抽象成高阶的复合任务,从而达到隐藏不相关的源数据细节、降低数据源图规模的目的,同时在视图级进行数据查询将有效地提高查询效率。然而由于受数据采集的准确度和服务器的可靠性影响,当对数据源进行数据集成时,工作流数据的不确定性现象将会产生。一般说来,这样的数据不确定性现象可用概率的形式加以量化;在此基础上,不确定科学工作流中的数据源可被定义成活动执行的概率图形式。目前在科学工作流视图构建技术方面的研究尚未深入,现有工作则主要集中在确定式数据源图方面;而面向不确定式数据源视图的合理性检验与构建技术方面的相关研究工作还有待进一步开展。因此本专利技术针对此方面进行研究,提出了在不确定数据源图中检测视图合理性的方法,并进一步基于任务间的数据流和局部期望支持度给出了构建不确定式视图的方法。本专利技术方法的具体步骤是 步骤(I)读取科学工作流的数据源图信息,包括数据源图中任务节点集、任务节点间的数据流边的集合和数据流边的存在概率。步骤(2)将整个数据源图视为一个完整的工作流视图,检测它的合理性,包括 ①根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点这一原则,来检测数据源图的合理性。②数据源图中的相邻任务节点在满足条件①的情况下能否合并为一个新的复合任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率,如果合并后的新复合任务存在概率大于合并之前各任务节点的存在概率,则认为原来的数据源图具有不合理性。若数据源图具有合理性,则整个数据源图被视为一个完整的工作流视图。步骤(3)若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的,则按照以下两种情况重新构造该数据源图的合理性视图 i)若数据源图因为不符合步骤(2)中的条件①,则对该数据源图按照步骤(4)进行拆分重构,从数据源图里面重新构造出合理性的视图。ii)若数据源图不符合步骤(2)中的条件②,则找出数据源图中存在那些相邻任务节点这些相邻任务节点在满足条件①的情况下能合并为一个新的复合任务、且新复合任务存在概率大于未合并之前各任务节点的存在概率,并将这些相邻的任务节点进行合并。 步骤(4)对数据源图进行拆分与重构时,按照如下情形处理 情形I、对某一任务节点,若它有且仅有一个相邻的前序节点,且该任务节点与该前序节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点与其前序节点可以合并为合理的复合任务节点。情形2、若对于某一任务节点,若它仅有一个相邻的后续节点,且该任务节点与其后续节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点可与其后续节点合并为合理的复合任务。情形3、若某一任务节点有多个相邻前序节点,若这些前序节点中存在着某个任务节点,使得从其它前序节点出发的数据流边都能到达该前序任务节点,并且从该前序任务节点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值,则可对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除,并将这些前序节点与该任务节点进行尝试性合并,如果合并之后的复合任务的概率期望支持度大于合并前各任务节点的概率期望支持度,则这样的合并是可行的,且合并生成的复合任务是合理的。情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集,且这些前序任务节点中的每一个节点同时所具有相同的相邻后续任务集,此外若这些任务节点与它们的前序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的概率期望支持度,则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合任务。步骤(5)重复步骤(3)对数据源图中的任务节点进行合并与重构,直到数据源图中无法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。本专利技术所提供的云计算环境下面向不确定数据源的工作流视图构造方法由一组功能模块组成,它们包括数据源图信息读入模块、视图遍历检测模块和不合理视图拆分重构模块。数据源图信息读入模块读入科学工作流不确定数据源图视图的详细信息。包括数据源图的节点数目,边的数目,节点与节点、节点与边之间的关系,边的存在概率。视图所包含的节点以及边。视图遍历检测模块将对输入的数据源图进行检测,首先将整个数据源图视为一个完整的视图,依据数据源图的输入数据流必须到达数据源图的所有输出任务节点,并对数据源图中的任务节点的概率期望支持度进行检测。若检测出是不合理的,则数据源图作为下一个模块的输入。不合理数据源图拆分重构模块对输入的数据源图进行拆分重构。本模块首先对输入的数据源图进行遍历,统计该数据源图的输入节点和输出接点,并分别存放于输入节点集合和输出节点集合中,从输出节点中的某一任务节点开始,依次遍历该节点的前序节点,如果符合合并规则就将该节点与其前序合并为一个复合任务,直至遍历到输入节点集合中的节点,按照此方法依次遍历输出节点集合中剩余的复合任务。与传统方法相比,本专利技术所提供的检测方法不仅考虑到了确定数据源图中视图的合理性,更是结合了视图存在的期望支持度来检测是否可以将多个任务合并为期望支持度更大的复合任务。··在不合理视图检测环节对实际科学工作流数据源图做出直接映射,考虑了实际情景中可能出现的各种情况。在对不合理视图拆分重构过程中总结了四种不同的合并规则,对于减少合理视图数目具有很重要的作用。具体实施例方式 相关概念及符号说明 G ={VG, Eg, hg, Li):不确定数据源 Vg :不确定数据源图中节点集合; Eg :不确定数据源图中边的集合 G :不确定数据源图中边的概率集合; Lq :不确定数据源图中节点Vg、Eg的标签; K:不确定数据源图中的视 复合任务; Hpiyi, I):复合任务Z7中的节点Vj本文档来自技高网...

【技术保护点】
云计算环境下面向不确定数据源的工作流视图构造方法,其特征在于该方法的具体步骤:步骤(1)读取科学工作流的数据源图信息,包括数据源图中任务节点集、任务节点间的数据流边的集合和数据流边的存在概率;?步骤(2)将整个数据源图视为一个完整的工作流视图,检测它的合理性,包括:①根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点这一原则,来检测数据源图的合理性;②数据源图中的相邻任务节点在满足条件①的情况下能否合并为一个新的复合任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率,如果合并后的新复合任务存在概率大于合并之前各任务节点的存在概率,则认为原来的数据源图具有不合理性;若数据源图具有合理性,则整个数据源图被视为一个完整的工作流视图;步骤(3)若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的,则按照以下两种情况重新构造该数据源图的合理性视图:i)若数据源图因为不符合步骤(2)中的条件①,则对该数据源图按照步骤(4)进行拆分重构,从数据源图里面重新构造出合理性的视图;ii)若数据源图不符合步骤(2)中的条件②,则找出数据源图中存在那些相邻任务节点:这些相邻任务节点在满足条件①的情况下能合并为一个新的复合任务、且新复合任务存在概率大于未合并之前各任务节点的存在概率,并将这些相邻的任务节点进行合并;步骤(4)对数据源图进行拆分与重构时,按照如下情形处理:情形1、对某一任务节点,若它有且仅有一个相邻的前序节点,且该任务节点与该前序节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点与其前序节点可以合并为合理的复合任务节点;情形2、若对于某一任务节点,若它仅有一个相邻的后续节点,且该任务节点与其后续节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点可与其后续节点合并为合理的复合任务;情形3、若某一任务节点有多个相邻前序节点,若这些前序节点中存在着某个任务节点,使得从其它前序节点出发的数据流边都能到达该前序任务节点,并且从该前序任务节点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值,则可对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除,并将这些前序节点与该任务节点进行尝试性合并,如果合并之后的复合任务的概率期望支持度大于合并前各任务节点的概率期望支持度,则这样的合并是可行的,且合并生成的复合任务是合理的;?情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集,且这些前序任务节点中的每一个节点同时所具有相同的相邻后续任务集,此外若这些任务节点与它们的前序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的概率期望支持度,则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合任务;步骤(5)重复步骤(3)对数据源图中的任务节点进行合并与重构,直到数据源图中无法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。...

【技术特征摘要】
1.云计算环境下面向不确定数据源的工作流视图构造方法,其特征在于该方法的具体步骤 步骤(I)读取科学工作流的数据源图信息,包括数据源图中任务节点集、任务节点间的数据流边的集合和数据流边的存在概率; 步骤(2)将整个数据源图视为一个完整的工作流视图,检测它的合理性,包括 ①根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点这一原则,来检测数据源图的合理性; ②数据源图中的相邻任务节点在满足条件①的情况下能否合并为一个新的复合任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率,如果合并后的新复合任务存在概率大于合并之前各任务节点的存在概率,则认为原来的数据源图具有不合理性; 若数据源图具有合理性,则整个数据源图被视为一个完整的工作流视图; 步骤(3)若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的,则按照以下两种情况重新构造该数据源图的合理性视图 i)若数据源图因为不符合步骤(2)中的条件①,则对该数据源图按照步骤(4)进行拆分重构,从数据源图里面重新构造出合理性的视图; )若数据源图不符合步骤(2)中的条件②,则找出数据源图中存在那些相邻任务节点这些相邻任务节点在满足条件①的情况下能合并为一个新的复合任务、且新复合任务存在概率大于未合并之前各任务节点的存在概率,并将这些相邻的任务节点进行合并;步骤(4)对数据源图进行拆分与重构时,按照如下情形处理 情形I、对某一任务节点,若它有且仅有一个相邻的前序节点,且该任务节点与该前序节点合并后...

【专利技术属性】
技术研发人员:胡海洋刘占晨
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1