模式匹配系统、模式映射系统及方法技术方案

技术编号:7700394 阅读:222 留言:0更新日期:2012-08-23 05:27
公开了基于混合属性-值匹配的模式匹配系统、模式映射系统、模式匹配方法和模式映射方法,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成。其中,对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息。通过上述模式匹配和模式映射系统及方法,可以使得源模式和目标模式的对应项的值更加可比较,减小了相似度计算的粒度,从而提高了模式匹配的精度。并且,由于无需引入领域相关的表单、词典以及本体知识,可以降低系统的成本,并便利用户的使用。

【技术实现步骤摘要】

本专利技术总的来说涉及与信息处理和信息整合技术,且更具体地,涉及基于混合属性-值匹配的模式匹配系统和模式映射系统及其方法。
技术介绍
在信息处理和信息整合技术中,有时需要构建对象数据库,同时匹配不同对象副本中的对应项并整合异构的副本,这里,对象的副本通常被称为模式。在互联网上存在着大量含有对象属性-值信息的网页,比如产品的规范说明页面。这些属性-值的表格可以通过信息抽取获取,作为自动建立对象数据库的第一歩工作。但是异构的数据源网页对产品信息的展示方式也不尽相同,涉及不同的措辞,不同的表格结构,针对特定用户的不完全信息。因此,需要从ー个现实世界中的产品对象的多个模式副本识别出其中的对应项,并整合这些异构的副本为ー个一致的模式。以上所涉及的具体任 务可以被划分为模式匹配和模式整合。对于调和不同数据来源的模式,在Reconciling schema of disparatedatasources a machine learning approach,Doan AH,2001. InProc ACM SIGMODConf,PP. 509-520中公开了ー种机器学习方法。这种机器学习方法应用于数据集成系统,采用了基于元数据的学习方法。但是,当如上述情况,处理目标是网页中的表格而并非逻辑数据库中的表格或者XML文件吋,由于所处理的数据缺少元数据和数据格式的约束,因此这种监瞀学习方法可能导致过度拟合且无法适应跨领域的数据。在S-Match :an algorithm and an implementation of semantic matching 中公开了ー种语义匹配的算法及实现,即,S-Match,其是ー种面向结构的模式匹配方法,通过使用WordNet计算词之间的距离,并使用SAT求解器推理映射。但是,WordNet虽然可用于挖掘语义相关性,但是在产品信息的面向实例的模式匹配中,并不适用。这是因为对于例如上述产品规范说明页面中的值表达式和解释性段落来说,很难定义其语义相似度。在US 2008/0021912 Al, Tools and methods for semi-automaticschemamatching中,公开了ー种半自动化模式匹配的工具和方法,这篇专利采用了多种外部词典,但是这种外部词典无法适应跨领域数据,并且其处理对象为富含元信息的XML数据。在网络数据库中模式匹配的方法和系统(US 7249135 B2,Method andsystem forschema matching of web database. ,MICROSOFT C0RP)中,提供了一种方法实施在网络数据库中识别模式之间的匹配,这里的模式是网络数据库中表的模式;并且已知ー个全局的模式,匹配主要依赖于模式与全局模式之间的匹配实现。但是,这里公开的方法和系统主要应用于网络数据库中的模式匹配,网络数据库为关系数据库,即输入的数据都是有完整元信息的数据库表格。但是对于数据源网页的表格,并没有元信息的约束,因此虽然实现了属性-属性匹配计算和值-值匹配计算,但是处理的数据主要为字符串类型,没有为数值数据提供特别的方法,因而在对于数值数据的匹配方面仍存在不足。此外,在上述方法和系统中使用了全局模式,因此需要先验性的领域或本体知识。在ー种从多网页中抽取和规范化产品属性的非监瞀方法(AnUnsupervi sedFramework for Extracting and Normalizing Product Attributes fromMuitiple WebSites)中,提供ー种方法从多网页中同时抽取和规范化产品属性,这里属性的规范化即是指发现其中的语义相似性,将产品属性通过某种距离度量聚类,聚类结果为一条属性的可能词表。但是,在上述方法中,产品属性没有区分属性和值,即将例如上述数据源网页的表格中涉及的产品的属性和值看作是一条属性,因此,在进行匹配时必然导致匹配精度降低。此外,上述方法中所采用的距离度量是使用监瞀的机器学习方法训练所得,即在ー个特定领域内,要进行一次距离计算,而在另ー个领域内,距离要重新计算,这显然提高了系统应用的成本并造成了用户的不便。因此,可以看到在以上提到的多篇现有技术文件中,大多数仅关注于特定领域,造成领域信息很难收集,需要大量的人力。并且,现有技术中的系统和方法大多数是处理关系数据库中的表格以及结构化的XML数据,这些数据富含元信息,如数据类型,取值范围和约束等。而对于非结构化的数据,比如无结构的XML数据或者网页中抽取出的表格,则不包含 上述元信息。例如,网页中抽取出的表格只有表格结构和文本内容两类信息,因此并不适合于采取上述现有技术中的系统和方法来进行处理。因此,需要一种领域无关的模式匹配和模式映射系统及方法,能够对于对象的非结构化的模式副本进行处理,得到可以接受的结果精度,同时不需要先验性的领域或本体知识。
技术实现思路
因此,本专利技术的目的是解决上述现有技术中的一个或多个问题和缺点。本专利技术的目的是提供模式匹配系统、模式映射系统、模式匹配方法和模式映射方法,其能够将对象的模式的无结构的纯文本形式的值规范化为有结构的形式,从而为所述值添加元信息以使其更加可比较。为实现上述目的,根据本专利技术的一方面,提供了一种基于混合属性-值匹配的模式匹配系统,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成,所述模式匹配系统包括模式规范化模块,对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信ο根据本专利技术的另一方面,提供了一种基于混合属性-值匹配的模式映射系统,包括模式匹配装置,用于匹配对象的源模式和目标模式中的对应项以生成匹配结果映射,模式代表对象的副本,并由具有层次结构的属性-值对组成,其中所述模式匹配装置对源模式和目标模式中的值进行规范化处理,以匹配源模式和目标模式中的对应项,所述规范化处理是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为其添加元信息;模式整合装置,与模式匹配装置相连接,用于根据所述模式匹配装置生成的所述匹配结果映射来整合所述源模式和目标模式,以生成整合的模式。在上述模式映射系统中,所述模式匹配装置包括模式规范化模块,接收对象的源模式和目标模式作为输入,对源模式和目标模式的属性和值进行规范化处理,以使得所述属性和值更加可比较;模式匹配模块,与所述模式规范化模块相连接,接收已由所述模式规范化模块进行了规范化的属性和值,并计算源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度;匹配映射计算模块,与所述模式匹配模块相连接,接收由所述模式匹配模块计算出的源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度,从而计算所述源模式和目标模式的对应项之间的综合相似度并生成所述匹配结果映射。在上述模式映射系统中,所述模式整合装置包括结构推理模块,与所述匹配映射计算模块相连接,接收所述匹配映射计算模块所生成的匹配结构映射,井根据所述匹配结果映射推理实际映射情況;结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合属性-值匹配的模式匹配系统,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成,所述模式匹配系统包括 模式规范化模块,对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息。2.一种基于混合属性-值匹配的模式映射系统,包括 模式匹配装置,用于匹配对象的源模式和目标模式中的对应项以生成匹配结果映射,模式代表对象的副本,并由具有层次结构的属性-值对组成,其中所述模式匹配装置对源模式和目标模式中的值进行规范化处理,以匹配源模式和目标模式中的对应项,所述规范化处理是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息; 模式整合装置,与模式匹配装置相连接,用于根据所述模式匹配装置生成的所述匹配结果映射来整合所述源模式和目标模式,以生成整合的模式。3.根据权利要求2所述的模式映射系统,其中,所述模式匹配装置包括 模式规范化模块,接收对象的源模式和目标模式作为输入,对源模式和目标模式的属性和值进行规范化处理,以使得所述属性和值更加可比较; 模式匹配模块,与所述模式规范化模块相连接,接收已由所述模式规范化模块进行了规范化的属性和值,并计算源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度; 匹配映射计算模块,与所述模式匹配模块相连接,接收由所述模式匹配模块计算出的源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度,从而计算所述源模式和目标模式的对应项之间的综合相似度并生成所述匹配结果映射。4.根据权利要求3所述的模式映射系统,其中,所述模式整合装置包括 结构推理模块,与所述匹配映射计算模块相连接,接收所述匹配映射计算模块所生成的匹配结构映射,井根据所述匹配结果映射推理实际映射情况; 结构变形模块,与所述结构推理模块相连接,根据所述接收推理模块输出的所述实际映射情况对所述源模式或所述目标模式进行变形,以生成所述整合的模式。5.根据权利要求3所述的模式映射系统,其中,所述值的规范化处理包括 值为复合的简单短语时,分离处于并列关系的简短短语以成为简短短语集合的形式; 值为值表达式时,借助于领域无关的度量単位字典来分离值表达式中的数值和度量单位以成为数值+度量単位的形式; 值为复合的值表达式时,分离处于并列关系的值表达式,并借助于领域无关的度量单位字典来分离值表达式中的数值和度量单位以成为数值+度量単位集合的形式; 值为表格和列表时,分解表格和列表的项,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式; 值为解释性段落吋,从解释性段落中抽取关键词语,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式。6....

【专利技术属性】
技术研发人员:姜珊珊谢宣松孙军赵利军郑继川
申请(专利权)人:株式会社理光
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1