基于本体的大规模发布订阅流水线匹配方法组成比例

技术编号:3860347 阅读:375 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及基于本体的大规模发布订阅流水线匹配方法。现有的匹配方法无法满足大规模发布订阅中间件系统的性能要求。本发明专利技术方法首先建立RDF事件图模型和RDF订阅图模式,然后以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,建立订阅语句模式索引,再将RDF事件图与RDF订阅图模式的基本语义单元匹配过程分解成以下六个流水线活动过程,组成匹配流水线,具体是:读入带类型语句、类型约束匹配、谓词约束匹配、结点映射、状态检查、输出匹配结果。本发明专利技术方法提高了基于本体的大规模发布订阅中间件系统的匹配效率,且其性能不受系统订阅数量显著影响,同时消除了不同订阅图模式之间不必要的冗余匹配。

【技术实现步骤摘要】

本专利技术属于计算机
,涉及一种基于本体的大规模发布订阅流水 线匹配方法。该方法将本体技术和并行计算技术引入发布订阅中间件系统, 以提高大规模发布订阅中间件系统的匹配准确性和时间效率。
技术介绍
发布订阅中间件系统非常适合因特网大规模信息分发、移动计算、网格 计算等分布式异构平台松散通信的需求,有着广泛的应用前景。传统的发布订阅中间件系统有基于主题、基于内容、基于XML等形式,他们大多数依赖于特定的事件类型和简单的匹配机制,如关键字匹配、属性值的谓词比较、XPath树模式匹配等。而基于本体的发布订阅中间件系统可以结合事件/订阅 本体模型,提供事件/订阅的语义匹配,从而极大地提高匹配的准确性,同 时也使用户能更方便地表达其订阅兴趣。在基于本体的发布订阅中间件系统 中,RDF是表达语义的基础。为了表达事件/订阅的语义信息,通常采用RDF 图来表示事件,称为RDF事件图。用建立在RDF图上的图模式来表达用户订 阅条件,称为RDF订阅图模式。因而,基于本体的发布订阅中间件系统的匹 配方法实质上就是一种RDF图模式匹配方法。尤其是,在大规模发布订阅中 间件系统中,存在着大量带有谓词约束的RDF订阅图模式。如何高效、快速 地进行RDF订阅图模式的匹配成为基于本体的大规模发布订阅中间件系统面 临的主要挑战。目前,已有一些RDF图模式匹配方法,如汪锦岭等人提出基于扩展元 语句(extended meta-statement)数组和匹配状态树的方法。该方法为每 个RDF订阅图模式维护一棵独立的匹配状态树,匹配过程需要重复遍历匹配 状态树的所有状态结点,并计算和生成新的状态结点。最后根据每棵匹配状 态树的最终状态,来判断哪些RDF订阅图模式被匹配成功。该匹配方法的缺 点是匹配时间会随着系统订阅数量增加而急剧增长。另外,Milenko等人提 出一种基于全局RDF图模式的匹配方法,该方法将系统中所有RDF订阅图模 式合并成一个全局的RDF订阅图模式。显然该方法只适合订阅数量较少或订阅中变量个数有限的情况,因为当每个RDF订阅图模式包含有较多变量时, 由于变量标识和约束条件的多样性和差异性,合并这些RDF订阅图模式是非 常困难和费时的。综合来看,已有的匹配方法远远无法满足大规模发布订阅 中间件系统的性能要求。因此,需要发展一种更加高效、快速、不受系统订 阅数量显著影响的、适合大规模发布订阅中间件系统的匹配方法。
技术实现思路
本专利技术的目的就是针对现有技术的不足,提供一种高效、快速、不受系 统订阅数量显著影响的。本专利技术方法的具体步骤是歩骤(l)建立事件/订阅的本体模型采用RDF本体描述语言,将事件表 示成RDF事件图、将订阅表示成RDF订阅图模式,在RDF事件图和RDF订阅 图模式中,每个结点都有唯一的常量或变量标识以及结点所属概念类的类型 标识,每条弧都有一个常量标识表示其所属概念类的属性标识。步骤(2)预处理事件/订阅分解RDF事件图和RDF订阅图模式,以RDF 事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,具体是① 将RDF事件图分解成带类型语句的集合,带类型语句是由对应弧的两 端结点常量标识、结点类型标识、以及弧的属性标识组成的五元组,并将带 类型语句缓存到一个缓冲队列中;② 将RDF订阅图模式分解成订阅语句模式的集合,订阅语句模式是由对 应弧的两端结点变量标识、受约束变量的谓词约束条件表达式、结点类型标 识、以及弧的属性标识组成的六元组,即订阅语句模式包含了结点间的类型 约束和受约束变量的谓词约束条件表达式;歩骤(3)建立订阅语句模式索引将所有订阅语句模式组织成三层索引 存储结构,其中第一层对订阅语句模式的弧标识建立索引;第二层对订阅 语句模式的两端结点类型对建立索引;第三层对订阅语句模式的谓词约束条 件表达式建立索引;步骤(4)组建匹配流水线将RDF事件图与RDF订阅图模式的匹配过程分 解成以下六个流水线活动过程,每个活动由分工明确的线程负责处理,线程 之间相互协同,从而组成匹配流水线。具体过程是①读入带类型语句从缓冲队列中读取带类型语句,将其传给下一处理 流程;② 类型约束匹配根据输入的带类型语句,查询订阅语句模式的三层索 引存储结构,过滤出类型约束匹配的所有订阅语句模式,将其传给下一处理 流程;③ 谓词约束匹配用带类型语句的结点常量替换订阅语句模式的变量, 并执行谓词约束条件表达式,找出谓词约束条件表达式计算结果为真的订阅 语句模式,将其传给下一处理流程;④ 结点映射根据输入的订阅语句模式,生成从其变量结点到与其匹配 的带类型语句的常量结点的映射;具体是若订阅语句模式的起始结点是RDF 订阅图模式的主结点,则可以直接生成对应的起始结点映射和终止结点映 射;否则只有当起始结点映射记录已经存在时,才可以生成对应的终止结点 映射记录,将其传给下一处理流程;⑤ 状态检查记录和维护RDF订阅图模式的结点映射状态,当结点映射 被RDF订阅图模式中与结点关联的所有订阅语句模式共享时,称该结点映射 为饱和状态;并记录RDF订阅图模式中已获得饱和状态的结点映射集合; 输出匹配结果当RDF订阅图模式中每个结点都存在一个无冲突的饱 和状态的结点映射时,可判定该RDF订阅图模式被匹配成功,并以增量的方 式输出被匹配成功的RDF订阅图模式。本专利技术方法利用匹配流水线提高了基于本体的大规模发布订阅中间件 系统的匹配效率,且其性能不受系统订阅数量显著影响,同时消除了不同订 阅图模式之间不必要的冗余匹配。另外,本专利技术方法支持以增量的方式输出 匹配结果。综合而言,本专利技术方法适合大规模发布订阅中间件系统的语义匹 配和性能要求。 附图说明图1为本专利技术一具体实施例的RDF订阅图模式的示意图2为由图1转换的三层索引存储结构的示意图3为匹配流水线中的读入带类型语句处理过程流程图4为匹配流水线中的类型约束匹配处理过程流程图5为匹配流水线中的谓词约束匹配处理过程流程图6为匹配流水线中的结点映射处理过程流程图7为匹配流水线中的状态检查处理过程流程图8为匹配流水线中的输出匹配结果处理过程流程图。具体实施例方式一种包括以下步骤 步骤(l)建立事件/订阅的本体模型采用RDF本体描述语言,将事件/订阅表示成RDF事件图或RDF订阅图模式的形式,具体是① RDF事件图RDF语言以三元组(Subject, property, Object)的形 式来表达客观事实,每个三元组称为一个RDF陈述语句。其中,主语(Subject) 是被描述资源的URI引用,谓词(property)是某属性的URI引用,宾语(Object)为该属性的值,可以是URI引用或文本。如果用结点来表示主语 和宾语,用有向弧来表示谓词,则一个或多个RDF语句可以表示成一个有向 标记图,称为RDF图。在本专利技术方法中,每个事件都以RDF图的形式来表示, 且图中每个结点都有唯一的结点常量标识和一个表示其所属本体概念类的 类型标识,称为RDF事件图。② RDF订阅图模式是在RDF事件图的基础上,描述每个结点需要满足 的约束条件。RDF订阅图模式的形式,如图1所示,图中每个结点都有唯一 的变量标识和一个表示其所属本体概念类的类型标识,以及受约束变量的谓 词约束条件表达式,变量名以*为前缀,类型本文档来自技高网
...

【技术保护点】
基于本体的大规模发布订阅流水线匹配方法,其特征在于该方法的具体步骤是: 步骤(1)建立事件/订阅的本体模型:采用RDF本体描述语言,将事件表示成RDF事件图、将订阅表示成RDF订阅图模式,在RDF事件图和RDF订阅图模式中,每个结点都有唯一的常量或变量标识以及结点所属概念类的类型标识,每条弧都有一个常量标识表示其所属概念类的属性标识; 步骤(2)预处理事件/订阅:分解RDF事件图和RDF订阅图模式,以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,具体是: ①将RDF事件图分解成带类型语句的集合,带类型语句是由对应弧的两端结点常量标识、结点类型标识、以及弧的属性标识组成的五元组,并将带类型语句缓存到一个缓冲队列中; ②将RDF订阅图模式分解成订阅语句模式的集合,订阅语句模式是由对应弧的两端结点变量标识、受约束变量的谓词约束条件表达式、结点类型标识、以及弧的属性标识组成的六元组,即订阅语句模式包含了结点间的类型约束和受约束变量的谓词约束条件表达式; 步骤(3)建立订阅语句模式索引:将所有订阅语句模式组织成三层索引存储结构,其中:第一层索引使用哈希表结构,以订阅语句模式的弧标识作为哈希键值,对应的哈希表项指向第二层索引;第二层索引使用哈希表结构,以订阅语句模式的起始结点类型和终止结点类型作为哈希键值,对应的哈希表项指向第三层索引;第三层采用链表结构来存储具有相同类型约束的订阅语句模式,并存储订阅语句模式所属RDF订阅图模式的编号; 步骤(4)组建匹配流水线:将RDF事件图与RDF订阅图模式的匹配过程分解成以下六个流水线活动过程,每个活动由分工明确的线程负责处理,线程之间相互协同,从而组成匹配流水线;具体过程是: ①读入带类型语句:从缓冲队列中读取带类型语句,将其传给下一处理流程; ②类型约束匹配:根据输入的带类型语句,分别以带类型语句中的弧标识和两端结点类型标识为索引键值,搜索三层索引存储结构,过滤出类型约束相匹配的订阅语句模式,将其传给下一处理流程; ③谓词约束匹配:对于输入的订阅语句模式和带类型语句,用带类型语句的结点常量替换订阅语句模式的对应变量,计算谓词约束条件表达式,过滤出谓词约束条件计算结果为真的订阅语句模式,将其传给下一处理流程; ④结点映射:根据输入的订阅语句模式,生成从其变量结点到与其匹配的带类型语句的常量结点的映射;具体是:若订阅语句模式的起始结点是RDF订阅图模式的主结点,则可以直...

【技术特征摘要】
1、基于本体的大规模发布订阅流水线匹配方法,其特征在于该方法的具体步骤是步骤(1)建立事件/订阅的本体模型采用RDF本体描述语言,将事件表示成RDF事件图、将订阅表示成RDF订阅图模式,在RDF事件图和RDF订阅图模式中,每个结点都有唯一的常量或变量标识以及结点所属概念类的类型标识,每条弧都有一个常量标识表示其所属概念类的属性标识;步骤(2)预处理事件/订阅分解RDF事件图和RDF订阅图模式,以RDF事件图和RDF订阅图模式中每条弧作为基本语义匹配单元,具体是①将RDF事件图分解成带类型语句的集合,带类型语句是由对应弧的两端结点常量标识、结点类型标识、以及弧的属性标识组成的五元组,并将带类型语句缓存到一个缓冲队列中;②将RDF订阅图模式分解成订阅语句模式的集合,订阅语句模式是由对应弧的两端结点变量标识、受约束变量的谓词约束条件表达式、结点类型标识、以及弧的属性标识组成的六元组,即订阅语句模式包含了结点间的类型约束和受约束变量的谓词约束条件表达式;步骤(3)建立订阅语句模式索引将所有订阅语句模式组织成三层索引存储结构,其中第一层索引使用哈希表结构,以订阅语句模式的弧标识作为哈希键值,对应的哈希表项指向第二层索引;第二层索引使用哈希表结构,以订阅语句模式的起始结点类型和终止结点类型作为哈希键值,对应的哈希表项指向第三层索引;第三层采用链表结构来存储具有相同类型约束的订阅语句模式,并存储订阅语句模式所属RDF订阅图模式的编号;步骤(4)组建匹配流水线将RDF事...

【专利技术属性】
技术研发人员:胡昔祥
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1