【技术实现步骤摘要】
一种领域百科图谱的构建方法及系统
[0001]本申请属于计算机
,具体涉及一种领域百科图谱的构建方法及系统。
技术介绍
[0002]百科是一种价值密度较高的知识资源,相比于资讯信息,百科词条能够更加全面和完整的描述概念信息。当前,以维基百科、百度百科、互动百科、搜搜百科等为代表的开放百科已经成为互联网上最有价值的知识资源之一,几乎各行各业的名词概念都可以在这些开放百科中找到相关的词条,在一定程度上为用户获取数据知识提供了便利。
[0003]领域百科是只包含一个或若干个存在一定内在联系的学科(门类)知识的百科词条集合。相比于通用百科,领域百科具有知识聚焦和体系完备的特点,能够方便特定领域的用户快速定位和全面了解领域内知识。领域百科主要服务于特定领域的用户,相比于维基百科、百度百科、互动百科、搜搜百科等通用百科多采用的众包建设模式,领域百科的建设往往需要领域内的机构和人员组织开展,多以人工建设为主,费时费力,且难以适应数据爆炸式增长的时代特点。
[0004]因此,领域百科的建设应该解决以下几个问题:一是百科词条能够及时更新,二是通过对词条有效拓展支撑用户对相关概念的全面了解。一个良好的领域百科构建方法一般应具备以下三个特征:一是信息聚焦,领域百科的词条范围要尽量服务于领域需要,尽量少地提供领域无关词条,以提升数据价值密度,降低无关数据的干扰;二是构建迅速,领域百科的构建过程除必要的专家知识确认过程,应尽量提供自动化能力,以实现词条的快速扩充和完善;三是推荐有效,为提高用户的知识获取效率,构建的领域百 ...
【技术保护点】
【技术特征摘要】
1.一种领域百科图谱的构建方法,其特征在于,包括以下步骤:从多个开放百科数据源中采集领域相关词条,得到领域词条集;对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;基于所述引用关系网和所述分类树,构建领域百科图谱。2.根据权利要求1所述的方法,其特征在于,所述从多个开放百科数据源中采集领域相关词条,得到领域词条集,具体包括:从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合;对所述多个词条集合进行去重,得到领域词条集。3.根据权利要求2所述的方法,其特征在于,所述从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合,具体包括:对每个开发百科数据源执行以下操作:步骤A:将领域内的重点概念作为种子词条,并以所述种子词条为线索,爬取所述种子词条在所述开放百科数据源中所引用的关联词条;步骤B:判断爬取到的关联词条中是否存在与领域知识密切相关的核心词条,如果不存在,则将所有爬取到的关联词条作为拓展词条存入领域词条集;如果存在,则将爬取到的关联词条中的核心词条作为新的种子词条,将爬取到的关联词条中除核心词条之外的其他词条作为拓展词条存入领域词条集,并执行步骤C;步骤C:判断是否达到终止条件,如果是,则执行步骤E;否则,执行步骤D;步骤D:爬取所述新的种子词条在所述开放百科数据源中所引用的关联词条,并执行步骤B;步骤E:将所有的种子词条作为核心词条存入领域词条集。4.根据权利要求3所述的方法,其特征在于,所述判断是否达到终止条件,具体包括:判断爬取到的关联词条中的核心词条是否均为已存在的种子词条,如果是,则确定达到终止条件;否则,确定未达到终止条件;或者判断是否达到预设的采集深度,如果是,则确定达到终止条件;否则,确定未达到终止条件。5.根据权利要求1所述的方法,其特征在于,所述领域百科图谱包含词条、主题和分类三种概念,以及词条引用关系、主题包含关系和分类归属关系三种关系;所述对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树,具体包括:分析所述领域词条集中的不同词条之间的引用关系,形成不同词条间的引用关系网络;分析所述领域词条集中的不同词条之间的包含关系和归属关系,形成不同词条间的分类树;所述基于所述引用关系网和所述分类树,构建领域百科图谱,具体包括:基于所述分类树,从所述领域词条集中选择至少一个词条作为主题,作为主题的词条与所述领域词条集中的至少一个其他词条之间具有包含关系;基于所述分类树,从所述领域词条集中选择至少一个词条作为分类,作为分类的词条
与所述领域词条集中的至少一个其他词条之间具有归属关系;基于所述引用关系网和所述分类树,构建领域百科图谱中的不同词条之间的词条引用关系,主题与...
【专利技术属性】
技术研发人员:宋伟,王鹏飞,刘圣,郑刘梦,焦亚鑫,赵化育,
申请(专利权)人:北京迈迪培尔信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。