一种领域百科图谱的构建方法及系统技术方案

技术编号:32128442 阅读:15 留言:0更新日期:2022-01-29 19:22
本申请公开了一种领域百科图谱的构建方法及系统,该方法包括以下步骤:从多个开放百科数据源中采集领域相关词条,得到领域词条集;对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;基于所述引用关系网和所述分类树,构建领域百科图谱。本申请通过构建的开放百科数据采集模型,采集开放百科中的领域相关词条,对采集的词条集进行引用标注和标签标注,并依据标注的信息,按照领域百科关系模型构建领域百科图谱,能够以开放百科为素材实现快速、低人工参与地构建领域百科,并实现了相关词条之间的推荐能力。词条之间的推荐能力。词条之间的推荐能力。

【技术实现步骤摘要】
一种领域百科图谱的构建方法及系统


[0001]本申请属于计算机
,具体涉及一种领域百科图谱的构建方法及系统。

技术介绍

[0002]百科是一种价值密度较高的知识资源,相比于资讯信息,百科词条能够更加全面和完整的描述概念信息。当前,以维基百科、百度百科、互动百科、搜搜百科等为代表的开放百科已经成为互联网上最有价值的知识资源之一,几乎各行各业的名词概念都可以在这些开放百科中找到相关的词条,在一定程度上为用户获取数据知识提供了便利。
[0003]领域百科是只包含一个或若干个存在一定内在联系的学科(门类)知识的百科词条集合。相比于通用百科,领域百科具有知识聚焦和体系完备的特点,能够方便特定领域的用户快速定位和全面了解领域内知识。领域百科主要服务于特定领域的用户,相比于维基百科、百度百科、互动百科、搜搜百科等通用百科多采用的众包建设模式,领域百科的建设往往需要领域内的机构和人员组织开展,多以人工建设为主,费时费力,且难以适应数据爆炸式增长的时代特点。
[0004]因此,领域百科的建设应该解决以下几个问题:一是百科词条能够及时更新,二是通过对词条有效拓展支撑用户对相关概念的全面了解。一个良好的领域百科构建方法一般应具备以下三个特征:一是信息聚焦,领域百科的词条范围要尽量服务于领域需要,尽量少地提供领域无关词条,以提升数据价值密度,降低无关数据的干扰;二是构建迅速,领域百科的构建过程除必要的专家知识确认过程,应尽量提供自动化能力,以实现词条的快速扩充和完善;三是推荐有效,为提高用户的知识获取效率,构建的领域百科应具备词条的推荐能力,根据领域用户的使用习惯,词条的推荐应该围绕引用推荐和分类主题推荐展开。
[0005]以维基百科、百度百科、互动百科、搜搜百科等为代表的开放百科具有海量的百科词条,几乎涵盖了各行各业的名词概念。但是,对于特定领域的用户而言,使用开放百科获取数据知识仍然存在一些不足。一方面,海量的信息资源伴随着知识的不聚焦,无形中增加了特定领域用户获取数据知识的成本;另一方面,各个开放百科在特定领域的知识积累存在互补性,依靠单一的百科信源并不能很好的解决特定领域百科知识的获取需求。而采用人工从头构建领域百科的方式存在建设代价过高,不能快速大量构建的缺点。
[0006]申请内容
[0007]本申请实施例的目的是提供一种领域百科图谱的构建方法及系统,以解决现有技术中的开放百科数据零散不聚焦,人工构建成本高的问题。
[0008]为了解决上述技术问题,本申请是这样实现的:
[0009]第一方面,提供了一种领域百科图谱的构建方法,包括以下步骤:
[0010]从多个开放百科数据源中采集领域相关词条,得到领域词条集;
[0011]对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;
[0012]基于所述引用关系网和所述分类树,构建领域百科图谱。
[0013]第二方面,提供了一种领域百科图谱的构建系统,包括:
[0014]采集模块,用于从多个开放百科数据源中采集领域相关词条,得到领域词条集;
[0015]标注模块,用于对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;
[0016]构建模块,用于基于所述引用关系网和所述分类树,构建领域百科图谱。
[0017]本申请实施例通过构建的开放百科数据采集模型,采集开放百科中的领域相关词条,对采集的词条集进行引用标注和标签标注,并依据标注的信息,按照领域百科关系模型构建领域百科图谱,能够以开放百科为素材实现快速、低人工参与地构建领域百科,并实现了相关词条之间的推荐能力。
附图说明
[0018]图1是本申请实施例提供的一种领域百科图谱的构建方法流程图;
[0019]图2是本申请实施例提供的领域百科关系模型的示意图;
[0020]图3是本申请实施例提供的一种领域百科图谱的构建系统的结构示意图。
具体实施方式
[0021]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022]本专利技术面向特定领域的百科知识构建场景,聚焦领域百科的基本特征,提出一种基于开放百科的领域百科图谱的构建方法及系统。
[0023]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的领域百科图谱的构建方法进行详细地说明。
[0024]如图1所示,为本申请实施例提供的一种领域百科图谱的构建方法流程图,包括以下步骤:
[0025]步骤101,从多个开放百科数据源中采集领域相关词条,得到领域词条集。
[0026]具体地,可以从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合;对所述多个词条集合进行去重,得到领域词条集。
[0027]本实施例中,可以构建开放百科数据采集模型,基于该模型采集领域词条集。具体地,从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合,具体包括:
[0028]对每个开发百科数据源执行以下操作:
[0029]步骤A:将领域内的重点概念作为种子词条,并以所述种子词条为线索,爬取所述种子词条在所述开放百科数据源中所引用的关联词条;
[0030]步骤B:判断爬取到的关联词条中是否存在与领域知识密切相关的核心词条,如果不存在,则将所有爬取到的关联词条作为拓展词条存入领域词条集;如果存在,则将爬取到的关联词条中的核心词条作为新的种子词条,将爬取到的关联词条中除核心词条之外的其他词条作为拓展词条存入领域词条集,并执行步骤C;
[0031]步骤C:判断是否达到终止条件,如果是,则执行步骤E;否则,执行步骤D;
[0032]步骤D:爬取所述新的种子词条在所述开放百科数据源中所引用的关联词条,并执行步骤B;
[0033]步骤E:将所有的种子词条作为核心词条存入领域词条集。
[0034]其中,判断是否达到终止条件,具体包括:判断爬取到的关联词条中的核心词条是否均为已存在的种子词条,如果是,则确定达到终止条件;否则,确定未达到终止条件;
[0035]或者
[0036]判断是否达到预设的采集深度,如果是,则确定达到终止条件;否则,确定未达到终止条件。
[0037]步骤102,对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树。
[0038]具体地,可以分析所述领域词条集中的不同词条之间的引用关系,形成不同词条间的引用关系网络;分析所述领域词条集中的不同词条之间的包含关系和归属关系,形成不同词条间的分类树。
[0039]步骤103,基于所述引用关系网和所述分类树,构建领域百科图谱。
[0040]其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种领域百科图谱的构建方法,其特征在于,包括以下步骤:从多个开放百科数据源中采集领域相关词条,得到领域词条集;对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;基于所述引用关系网和所述分类树,构建领域百科图谱。2.根据权利要求1所述的方法,其特征在于,所述从多个开放百科数据源中采集领域相关词条,得到领域词条集,具体包括:从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合;对所述多个词条集合进行去重,得到领域词条集。3.根据权利要求2所述的方法,其特征在于,所述从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合,具体包括:对每个开发百科数据源执行以下操作:步骤A:将领域内的重点概念作为种子词条,并以所述种子词条为线索,爬取所述种子词条在所述开放百科数据源中所引用的关联词条;步骤B:判断爬取到的关联词条中是否存在与领域知识密切相关的核心词条,如果不存在,则将所有爬取到的关联词条作为拓展词条存入领域词条集;如果存在,则将爬取到的关联词条中的核心词条作为新的种子词条,将爬取到的关联词条中除核心词条之外的其他词条作为拓展词条存入领域词条集,并执行步骤C;步骤C:判断是否达到终止条件,如果是,则执行步骤E;否则,执行步骤D;步骤D:爬取所述新的种子词条在所述开放百科数据源中所引用的关联词条,并执行步骤B;步骤E:将所有的种子词条作为核心词条存入领域词条集。4.根据权利要求3所述的方法,其特征在于,所述判断是否达到终止条件,具体包括:判断爬取到的关联词条中的核心词条是否均为已存在的种子词条,如果是,则确定达到终止条件;否则,确定未达到终止条件;或者判断是否达到预设的采集深度,如果是,则确定达到终止条件;否则,确定未达到终止条件。5.根据权利要求1所述的方法,其特征在于,所述领域百科图谱包含词条、主题和分类三种概念,以及词条引用关系、主题包含关系和分类归属关系三种关系;所述对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树,具体包括:分析所述领域词条集中的不同词条之间的引用关系,形成不同词条间的引用关系网络;分析所述领域词条集中的不同词条之间的包含关系和归属关系,形成不同词条间的分类树;所述基于所述引用关系网和所述分类树,构建领域百科图谱,具体包括:基于所述分类树,从所述领域词条集中选择至少一个词条作为主题,作为主题的词条与所述领域词条集中的至少一个其他词条之间具有包含关系;基于所述分类树,从所述领域词条集中选择至少一个词条作为分类,作为分类的词条
与所述领域词条集中的至少一个其他词条之间具有归属关系;基于所述引用关系网和所述分类树,构建领域百科图谱中的不同词条之间的词条引用关系,主题与...

【专利技术属性】
技术研发人员:宋伟王鹏飞刘圣郑刘梦焦亚鑫赵化育
申请(专利权)人:北京迈迪培尔信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1