【技术实现步骤摘要】
一种基于wikidata的知识体系自动构建方法与系统
本专利技术涉及知识体系构建领域,尤其是涉及一种基于wikidata的知识体系自动构建方法和系统。
技术介绍
在大数据时代背景下,面对浩如烟海的信息/知识和快速更新的现状,通过传统的知识体系积累方式,大量人工将花费在数据搜集和整理上,对于科研和情报人员的研究价值更是一种极大的浪费。采取机器智能手段挖掘已有的公共开放知识库,自动汇聚特定主题/知识主体的知识,形成一套基础的知识体系,从而让科研和情报人员能够快速了解掌握其框架轮廓,并结合自身认知进行进一步的修正完善,演变成特定的知识体系。Wikidata是一个世界范围的免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库,采用众包协作机制支持以三元组为基础的知识条目的自由编辑。Wikidata中的每个实体存在多个不同语言的标签,别名,描述,以及声明(statement),目前支持超过350种语言,拥有超过6600万个数据项及8亿的声明,是一个超大型知识库。概念介绍知识条目,是指包含了一定知识内容 ...
【技术保护点】
1.一种基于wikidata的知识体系自动构建方法,所述方法包括:/n步骤1)获取种子数据和辐射层级;/n步骤2)抽取与种子数据相关的wikidata知识条目;/n步骤3)对wikidata知识条目清洗解析,以主-谓-宾三元组的形式存储,并拆分、解析生成知识结构数据,同时根据解析出的关联实体形成辐射实体,生成新的种子数据;若迭代次数未达到辐射层级,进入步骤2),否则,进入步骤4);/n步骤4)将知识结构数据进行封装,确定知识模型层级、属性关系和知识实体,将wikidata知识条目对应到知识实体下,形成知识体系。/n
【技术特征摘要】
1.一种基于wikidata的知识体系自动构建方法,所述方法包括:
步骤1)获取种子数据和辐射层级;
步骤2)抽取与种子数据相关的wikidata知识条目;
步骤3)对wikidata知识条目清洗解析,以主-谓-宾三元组的形式存储,并拆分、解析生成知识结构数据,同时根据解析出的关联实体形成辐射实体,生成新的种子数据;若迭代次数未达到辐射层级,进入步骤2),否则,进入步骤4);
步骤4)将知识结构数据进行封装,确定知识模型层级、属性关系和知识实体,将wikidata知识条目对应到知识实体下,形成知识体系。
2.根据权利要求1所述的基于wikidata的知识体系自动构建方法,其特征在于,所述步骤2)具体包括:
根据种子数据从本地化数据中采集wikidata知识条目;
对于本地化数据中缺失的信息,采用面向特定需求的数据查询接口,从wikidata知识库在线采集wikidata知识条目。
3.根据权利要求2所述的基于wikidata的知识体系自动构建方法,其特征在于,所述对wikidata知识条目清洗解析,以主-谓-宾三元组的形式存储,并拆分、解析生成知识结构数据,同时根据解析出的关联实体形成辐射实体,生成新的种子数据;具体包括:
清洗解析wikidata知识条目,以主-谓-宾三元组的形式存储;
拆分wikidata知识条目,主语字段对应知识实体,谓语字段对应为属性关系,宾语字段对应属性值或关联知识实体;
解析出属性和关系,生成知识结构数据;
汇总关联知识实体形成辐射实体,生成新的种子数据。
4.根据权利要求3所述的基于wikidata的知识体系自动构建方法,其特征在于,所述步骤4),具体包括:
从主-谓-宾三元组中获取知识实体的P31字段值和P279字段值,结合本地化数据和wikidata知识库,进行有限次递归查询,形成针对特定知识实体的类别层级,获得实体类别信息及层级从属信息,确定知识模型层级;
根据确定的知识模型层级,对每个知识模型下所有知识实体从主-谓-宾三元组数据中获取谓语集合,根据解析的结果,将其按属性关系定义到相应知识模型下;
根据获取的辐射层级,将最后一次辐射获得的知识实体转化为该实体指代的名称,从而将知识链接截断形成闭环;
结合知识模型层级、属性关系和知识实体,将主-谓-宾三元组数据对应到相应知识实体下,形成知识体系。
5.根据权利要求4所述的基于wikidata的知识体系自动构建方法,所述步骤4)还包括:结合可选的体系专家修正信息输入,对构建的知识体系进行优化。
6.一种基于wikidata的知识体系自动构建系统,其特征在于,所述系统包括用户层、系统层和展示层;
所述用户层,用于采集种子数据、辐射层级和体系专家修正信息;
所述系统层,用于抽取与种子数据相关的wikidata知识条目,清洗解析以主-谓-宾三元组形式存储,并拆分、解析生成知识结构数据,同时根据...
【专利技术属性】
技术研发人员:毛彬,罗威,谭玉珊,罗准辰,田昌海,叶宇铭,宋宇,
申请(专利权)人:毛彬,中国人民解放军军事科学院军事科学信息研究中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。