当前位置: 首页 > 专利查询>孟小峰专利>正文

一种用在实体识别系统中的Web实体识别方法技术方案

技术编号:2827355 阅读:267 留言:0更新日期:2012-04-11 18:40
一种用在实体识别系统中的Web实体识别方法,该实体识别系统包括输入模块、基于领域的属性分析模块、实体识别模块、以及输出模块,其特征在于,该方法包括步骤:A.输入记录集合;B.分析给定领域内所有属性的相似性计算规则以及属性之间的相关性;C.确定任意给定两个记录是否为同一实体;以及D.输出实体集合。

【技术实现步骤摘要】

本专利技术涉及计算机数据库和领域,尤其是涉及一种用在实体识别系 统中的Web实体识别方法。
技术介绍
在应用方面,随着Web的飞速发展,Web中蕴藏了海量的信息,据保 守估计,目前整个Web超过了 200, 000TB的信息量,而且仍在快速的增 长,而且这些信息覆盖了现实世界的各个领域(比如商业、娱乐、体育 等)。这使得Web逐渐成为人们获取有用信息的最重要的途径之一。然而 海量的信息也经常使得人们不能快速准确地从Web中发现自己想要的信 息。如何高效地从当前巨大的Web中获取有用的信息成为人们面临的一 个新的挑战。为了解决这个问题,许多研究者们正在致力于如何用自动 化的方法帮助人们完成对Web中信息有效的获取。然而,Web中存在着大 量重复的信息,重复信息是指不同Web数据源对现实世界中同一个实体 的各自的描述。对于这些重复的信息的识别对于Web数据的集成有着非 常重要的意义,典型的应用场景是去重、合并、辨真。去重是指将多个Web数据源描述同一实体的重复信息只保留一份。 比如用户向当当和卓越两个购书Web数据源查询有关java的书,并 希望买到最便宜的,这就需要把两个Web数据源返回的记录集中表示同 一本书的记录识别出来,并选择出最便宜的。合并是指将多个Web数据源描述同一实体的信息合并在一起并保留 各自不同的部分。比如用户从多个提供人员信息的Web数据源查询某个 人的信息。每个Web数据源提供人员不同方面的信息,有的Web数据源 提供人员工作信息(姓名、性别、年龄、单位名称、职位、邮箱、单位 地点、单位邮编等),有的提供人员的生活信息(姓名、性别、年龄、籍 贯、家庭电话、家庭住址、血型、配偶等)。这就需要把表示同一人的记 录识别出来,并将其合并为同一条记录从而获得这个人的全部信息。辨真是指各个Web数据源对同一实体的某个方法描述并不相同,从中 选择出真实的。比如很多Web数据源报道易建联年龄的新闻,存在很多 版本(18、 19、 24等)。我们需要从中辨别出哪一个年龄是真实的。在技术方面,由于Web中的数据具有高度异质(异质是指数据的不同 表现形式,比如日期不同的书写格式,姓名的全称和缩略表达)、规模大 等特点,这使得对于同一个实体的描述,不同的Web数据源有着不同的 表达形式,因而造成实体识别在准确性和效率上存在着很大的难度。目前已经提出了许多实体识别的方法,但这些方法虽然达到了较高的 准确性,但它们主要是针对少量的特别是两个异质数据源而言,对于Web 中大量高度异质的数据源存在严重的效率问题。举个例子,如果有100 个Web数据源,利用已有的实体识别方法需要在其中任意两个数据源之 间执行一次,因此一共需要执行(^。。-4950次。为了提供在大规模Web数据源上了实体识别的效率问题,我们提出的 方法可以一次处理一个领域(经济、体育、音乐等现实领i或)内所有Web 数据源。
技术实现思路
为了解决上述传统问题,因此本专利技术的一个目的就是提出了 一种用 在实体识别系统中的Web实体识别方法。在本专利技术的一个方面中, 一种用在实体识别系统中的Web实体识别 方法,该实体识别系统包括输入模块、基于领域的属性分析模块、实体 识别模块、以及输出模块,其特征在于,该方法包括步骤A、输入记录 集合;B、分析给定领域内所有属性的相似性计算规则以及属性之间的相 关性;C、确定任意给定两个记录是否为同一实体;以及D、输出实体集 合。在本专利技术的这个方面中,其中步骤B进一步包括步骤Bl、输入一 个给定的领域;B2、进行基于领域的属性收集;B3、进行属性分类;B4、 进行属性相似性计算规则定义;B5、输出相似性计算规则;B6、进行属 性相关性分析;以及B7、输出属性之间的相关性模型。在本专利技术的这个方面中,其中步骤B2进一步包括步骤B2-l、进 行Web数据源的收集,从特定网站获取该领域足够多的Web数据源;B2-2、进行属性的收集,对于每个已经收集到的Web数据源,提取所包含 的所有属性;以及B2-3、进行属性的合并,把从每个Web数据源获得的 属性集合进行合并,不同Web数据源之间表示同一语义的属性算作一个。 在本专利技术的这个方面中,其中在步骤B3中,将属性分类为有用属性 和无用属性,有用属性进一步分为主码属性、过滤属性、重要属性、以 及辅助属性。在本专利技术的这个方面中,其中在步骤B4中,属性相似性是指两个记 录在某一个共同属性上的相似性。判断两个记录是否同一实体,需要综 合它们在各个共同属性上的相似性来判断。在本专利技术的这个方面中,其中对于属性相似性由YES、 MAYBE、或N0 三元值来表示。在本专利技术的这个方面中,其中YES是指两个记录在该属性上值完全 相同;NO是指两个记录在该属性上值的语义肯定不同;MAYBE是指两个 记录在该属性上值由于表现形式不同,无法确定是否语义相同。在本专利技术的这个方面中,其中在步骤B6中,属性相关性分析是指给 定一个领域的所有属性,通过训练的方法得到属性之间的相关性。在本专利技术的这个方面中,其中步骤C进一步包括步骤Cl、判断这 两个记录是否共有关键属性,如果没有在则转至步骤C2,如果有相同, 则判断它们是同一实体;不同,则判断它们不是同一实体;C2、判断这 两个记录是否共有过滤属性,没有转至步骤C3,如果有不同,则判断 它们不是同一实体;相同,转至步骤C3; C3、考察两个记录共有的重要 属性,分别计算在各个重要属性上的相似度,相似度分为YES、 MAYBE、 或N0; C4、根据属性相关性,利用属性相似模型提高在取值MAYBE属性 上的相似性,使得两个记录在这些属性上取值也能够判断为YES;以及 C5、如果两个记录在所有重要属性上取值都判断为YES,那么认为两个记 录表示同一实体。附图说明结合随后的附图,从下面的详细说明中可显而易见的得出本专利技术的 上述及其他目的、特征及优点。在附图中图1给出了根据本专利技术的实体识别系统的整体框架图;图2给出了根据本专利技术的基于领域的属性分析方法的流程图;图3给出了根据本专利技术的基于领域的属性收集方法的流程图;图4给出了根据本专利技术的属性分类的示意图;图5给出了根据本专利技术的属性相似性规则的示意图;图6给出了根据本专利技术的相关属性选择方法的流程图;以及图7给出了根据本专利技术的实体识别方法的流程图。具体实施方式首先,参考图1,对根据本专利技术的实体识别系统的整体框架图进行说 明。图l给出了根据本专利技术的实体识别系统的整体框架图。如图1所示,该系统主要包括四个模块,即基于领域的属性分析模 块、实体别模块、输入模块、以及输出模块。输入模块用于输入记录集合。基于领域的属性分析模块用于分析给定领域内所有属性的相似性计 算规则以及属性之间的相关性。实体识别模块用于确定任意给定两个记录是否为同一实体。 输出模块用于输出实体集合。下面分别对基于领域的属性分析模块和实体识别模块进行更详细的 说明。基于领域的属性分析模块的功能主要包括:确定属性相似性的计算方 法;确定属性之间的相关性。如图2所示,图2给出了根据本专利技术的基于领域的属性分析方法的流 程图。在步骤S201,输入一个给定的领域,比如图书、音乐、电影等。 在步骤S202,进行基于领域的属性收集,随后参考图3对其进行更加详 细的说明。在步骤S2本文档来自技高网
...

【技术保护点】
一种用在实体识别系统中的Web实体识别方法,该实体识别系统包括输入模块、基于领域的属性分析模块、实体识别模块、以及输出模块,其特征在于,该方法包括步骤:    A、输入记录集合;    B、分析给定领域内所有属性的相似性计算规则以及属性之间的相关性;    C、确定任意给定两个记录是否为同一实体;以及    D、输出实体集合。

【技术特征摘要】
1、一种用在实体识别系统中的Web实体识别方法,该实体识别系统包括输入模块、基于领域的属性分析模块、实体识别模块、以及输出模块,其特征在于,该方法包括步骤A、输入记录集合;B、分析给定领域内所有属性的相似性计算规则以及属性之间的相关性;C、确定任意给定两个记录是否为同一实体;以及D、输出实体集合。2、 根据权利要求1的方法,其中步骤B进一步包括步骤 Bl、输入一个给定的领域;B2、进行基于领域的属性收集;B3、进行属性分类;B4、进行属性相似性计算规则定义;B5、输出相似性计算规则;B6、进行属性相关性分析;以及B7、输出属性之间的相关性模型。3、 根据权利要求2的方法,其中步骤B2进一步包括步骤B2 - 1、进行Web数据源的收集,从特定网站获取该领域足够多的Web 数据源;B2-2、进行属性的收集,对于每个已经收集到的Web数据源,提取 所包含的所有属性;以及B2-3、进行属性的合并,把从每个Web数据源获得的属性集合进行 合并,不同Web数据源之间表示同一语义的属性算作一个。4、 根据权利要求2的方法,其中在步骤B3中,将属性分类为有用属性 和无用属性,有用属性进一步分为主码属性、过滤属性、重要属性、 以及辅助属性。5、 根据权利要求2的方法,其中在步骤B4中,属性相似性是指两个记 录在某一个共同...

【专利技术属性】
技术研发人员:孟小峰刘伟凌妍妍
申请(专利权)人:孟小峰
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1