一种基于概率模式匹配的关键字查询转换与分发系统和方法技术方案

技术编号:14881404 阅读:130 留言:0更新日期:2017-03-24 03:59
一种基于概率模式匹配的关键字查询转换与分发系统和方法,属于关键字查询转换与分发系统和方法。所述的关键字查询转换与分发系统包括:关键字查询接口、集成查询接口、Web数据库查询接口、关键字查询转换模块和查询分发模块;用户在关键字查询接口提交关键字查询,由关键字查询转换模块将用户的关键字查询转换为集成查询接口的查询,再由查询分发模块进一步将查询分发至各Web数据库查询接口,对各Web数据库进行查询。优点:提供给用户提交关键字查询的接口,简单快捷。提高了匹配的效率、匹配的合理性和匹配的准确性;整个系统自动完成,用户只需提交关键字查询,系统将查询转换至集成接口,进而分发至各Web数据库查询接口。

【技术实现步骤摘要】

本专利技术涉及一种关键字查询转换与分发系统和方法,特别是一种基于概率模式匹配的关键字查询转换与分发系统和方法
技术介绍
用户对关键字查询转换可以分为两步:首先将用户的关键字查询转换到结构化的集成查询接口,再进一步分发到各Web数据库查询接口上。这两个步骤均依赖于正确的模式匹配。第一步是利用实例信息进行模式匹配,第二步是利用模式信息及实例信息进行模式匹配。自动模式匹配方法的研究在过去十年有了长足的进展。一些原型系统在自动或半自动模式匹配研究方面有了新的突破。如:SEMINT、Cupid、DIKE、COMA等系统。但在这些系统中,模式匹配的方法都是在寻找确定的匹配结果,忽略模式匹配的不确定性。值得注意的是,这其中的模式匹配存在着不确定性。一方面,用户提交的关键字查询往往只有属性值而不包含属性名,由于属性名的缺失使得属性的语义变得难以判断,当将其映射到相应的结构化集成查询接口上时,可能产生多种有一定合理性的匹配结果。另一方面,集成接口模式与各Web数据库查询接口的模式之间的匹配也往往是不准确的。首先,由于各Web数据库由不同的组织或个人在不同的时间和地点设计,自治性很强,造成了内容和形式的复杂性和多样性,这给模式匹配的准确性提出了更大的挑战;而且由于Web数据库一直处于动态变化中,据观察,Web数据库查询接口平均每三个月就会发生一些变化,这导致了已有的集成接口到各Web数据库查询接口的模式匹配经常失效;再者,自动模式匹配抽取的不准确也给后续的模式匹配增加了不确定因素。因此,集成接口模式与各Web数据库查询接口模式之间的匹配存在诸多不确定性。
技术实现思路
本专利技术的目的是要提供一种基于概率模式匹配的关键字查询转换与分发系统和方法,解决如何在不确定性存在的前提下,进行用户关键字查询高效而准确地转换和分发的问题。本专利技术的目的是这样实现的:本专利技术用于用户关键字查询的转换和分发包括关键字查询转换与分发系统和关键字查询转换与分发方法。所述的关键字查询转换与分发系统包括:关键字查询接口、集成查询接口、Web数据库查询接口、关键字查询转换模块和查询分发模块;用户在关键字查询接口提交关键字查询,由关键字查询转换模块将用户的关键字查询转换为集成查询接口的查询,再由查询分发模块进一步将查询分发至各Web数据库查询接口,对各Web数据库进行查询。所述的关键字查询接口,用于用户提交查询请求,即提交查询关键字;所述的集成查询接口,是由各Web数据库查询接口抽取集成得到的结构化查询接口;所述的Web数据库查询接口,是从Web上爬取得到的同一领域的数据库查询接口;所述的关键字查询转换模块,用于将关键字查询接口上用户提交的查询转换至结构化集成查询接口上;所述的查询分发模块,用于将集成查询接口上的查询分发至Web数据库查询接口上。所述的关键字查询转换模块进一步包括:转换数据类型分析子模块、基于概率的转换模式匹配子模块和关键字转换子模块;先由数据类型分析子模块分析具有相同数据类型的关键字与集成接口的概念,将其作为潜在的匹配对;然后由基于概率的模式匹配子模块计算可能匹配对的匹配概率;最后由关键字转换子模块将用户的关键字查询转换至集成查询接口。所述的转换数据类型分析子模块,用于分析用户查询的关键字、结构化集成接口的各概念所属的数据类型;所述的基于概率的转换模式匹配子模块,用于计算各可能匹配的匹配概率,不同的数据类型采用不同的计算方法,计算出匹配的概率;所述的关键字转换子模块,将各匹配概率按降序排序,选择且得到最优模式匹配结果,将关键字查询接口上用户提交的查询转换至结构化集成查询接口上。所述的查询分发模块进一步包括:分发数据类型分析子模块、基于概率的分发模式匹配子模块和查询分发子模块;先由数据类型分析子模块分析具有相同数据类型集成接口的概念与各Web数据库查询接口各属性,将其作为潜在的匹配对;然后由基于概率的模式匹配子模块计算可能匹配对的匹配概率;最后由关查询分发子模块将集成接口的查询分发至各Web数据库查询接口各属性。所述的分发数据类型分析子模块,用于分析结构化集成接口的各概念和各Web数据库查询接口各属性所属的数据类型;所述的基于概率的分发模式匹配子模块,用于计算各可能匹配的匹配概率,不同的数据类型采用不同的计算方法,计算出匹配的概率;所述的查询分发子模块,将各匹配概率按降序排序,选择且得到最优模式匹配结果,将集成查询接口上的查询分发至Web数据库查询接口上。所述的关键字查询转换与分发方法包括以下步骤:步骤A:将用户的关键字查询转换为结构化集成查询接口的查询;利用用户查询的关键字信息和集成查询接口各概念的候选值信息,寻找关键字查询模式与集成查询接口模式之间的模式匹配关系,建立用户查询关键字和集成的结构化查询接口中的相关概念之间的对应关系,从而将用户的关键字查询转换为结构化集成查询接口的查询;步骤B:将集成接口的结构化查询分发到各Web数据库查询接口的查询;利用集成接口的模式信息、候选值信息和Web数据库查询接口的模式信息、候选值信息,寻找集成查询接口模式与各Web数据库查询接口模式之间的匹配关系,建立集成查询接口各概念与Web数据库查询接口各属性的模式对应关系,从而将集成接口的结构化查询分发到各Web数据库查询接口;所述的集成接口的模式为概念及相应的标签名集合。所述的步骤A和步骤B均包括有延伸步骤,步骤A和步骤B的每一步的延伸步骤分别相同,具体步骤如下:步骤A1或步骤B1:基于数据类型进行匹配的优化。数据类型是否相同其实是进行关键字和集成查询接口的概念之间或者集成查询接口的概念与Web数据库查询接口的属性之间是否匹配的先决条件,即关键字往往与其数据类型相同的概念匹配,概念也只与数据类型相同的属性匹配。基于数据类型的匹配优化就是将同类型的匹配项放在一组,进行匹配概率计算,否则不再进行匹配概率计算;所述的数据类型包括文本型、数字型和时间型。步骤A2或步骤B2:对于不同的数据类型的匹配项进行匹配时,采用不同的概率计算方法,得到基于概率模式匹配的最优匹配结果。步骤A3或步骤B3:将用户的关键字查询匹配到集成查询接口,再由集成查询接口进一步分发至各Web数据库查询接口。所述的步骤A2和步骤B2均包括有延伸步骤,步骤A2和步骤B2的每一步的延伸步骤分别相同,具体步骤如下:步骤A21或B21步骤:对于字符型数据类型的匹配,采用基于字符串相似度的计算方法得到匹配概率,目前成熟的字符串相似度计算方法很多,例如Levenshteindistance,Affinegapdistance,Jarodistance,Q-gramdistance,相似度计算结果作为匹配的概率;步骤A22或B22步骤:对于数字型数据类型的匹配,基于数字实例的覆盖情况,(1)无覆盖;(2)松散部分覆盖;(3)松散覆盖;(4)单一约束覆盖;(5)复杂约束覆盖,进行模式匹配的剪枝,得到可能的匹配对;步骤A23或B23步骤:对于可能的数字型数据类型的匹配对,进行匹配概率计算,将各匹配概率按降序排序,选出概率最大的一对作为第一个匹配对,删除包含这个匹配对中任意一项的匹配概率,从余下的匹配概率中选择最大的一对作为第二个匹配对……,依次类推,直到找到所有的匹配项。所述的步骤A23和步骤B23均包本文档来自技高网...
一种基于概率模式匹配的关键字查询转换与分发系统和方法

【技术保护点】
一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:关键字查询转换与分发系统包括:关键字查询接口、集成查询接口、Web数据库查询接口、关键字查询转换模块和查询分发模块;用户在关键字查询接口提交关键字查询,由关键字查询转换模块将用户的关键字查询转换为集成查询接口的查询,再由查询分发模块进一步将查询分发至各Web数据库查询接口,对各Web数据库进行查询。

【技术特征摘要】
1.一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:关键字查询转换与分发系统包括:关键字查询接口、集成查询接口、Web数据库查询接口、关键字查询转换模块和查询分发模块;用户在关键字查询接口提交关键字查询,由关键字查询转换模块将用户的关键字查询转换为集成查询接口的查询,再由查询分发模块进一步将查询分发至各Web数据库查询接口,对各Web数据库进行查询。2.根据权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的关键字查询接口,用于用户提交查询请求,即提交查询关键字;所述的集成查询接口,是由各Web数据库查询接口抽取集成得到的结构化查询接口;所述的Web数据库查询接口,是从Web上爬取得到的同一领域的数据库查询接口;所述的关键字查询转换模块,用于将关键字查询接口上用户提交的查询转换至结构化集成查询接口上;所述的查询分发模块,用于将集成查询接口上的查询分发至Web数据库查询接口上。3.根据权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的关键字查询转换模块进一步包括:转换数据类型分析子模块、基于概率的转换模式匹配子模块和关键字转换子模块;先由数据类型分析子模块分析具有相同数据类型的关键字与集成接口的概念,将其作为潜在的匹配对;然后由基于概率的模式匹配子模块计算可能匹配对的匹配概率;最后由关键字转换子模块将用户的关键字查询转换至集成查询接口。4.根据权利要求3所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的转换数据类型分析子模块,用于分析用户查询的关键字、结构化集成接口的各概念所属的数据类型;所述的基于概率的转换模式匹配子模块,用于计算各可能匹配的匹配概率,不同的数据类型采用不同的计算方法,计算出匹配的概率;所述的关键字转换子模块,将各匹配概率按降序排序,选择且得到最优模式匹配结果,将关键字查询接口上用户提交的查询转换至结构化集成查询接口上。5.根据权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的查询分发模块进一步包括:分发数据类型分析子模块、基于概率的分发模式匹配子模块和查询分发子模块;先由数据类型分析子模块分析具有相同数据类型集成接口的概念与各Web数据库查询接口各属性,将其作为潜在的匹配对;然后由基于概率的模式匹配子模块计算可能匹配对的匹配概率;最后由关查询分发子模块将集成接口的查询分发至各Web数据库查询接口各属性。6.根据权利要求5所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的分发数据类型分析子模块,用于分析结构化集成接口的各概念和各Web数据库查询接口各属性所属的数据类型;所述的基于概率的分发模式匹配子模块,用于计算各可能匹配的匹配概率,不同的数据类型采用不同的计算方法,计算出匹配的概率;所述的查询分发子模块,将各匹配概率按降序排序,选择且得到最优模式匹配结果,将集成查询接口上的查询分发至Web数据库查询接口上。7.权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统的分发方法,其特征是:所述的关键字查询转换与分发方法包括以下步骤:步骤A:将用户的关键字查询转换为结构化集成查询接口的查询;利用用户查...

【专利技术属性】
技术研发人员:姜芳艽
申请(专利权)人:江苏师范大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1