【技术实现步骤摘要】
一种循环更新迭代的期刊文献知识图谱构建方法
本专利技术涉及自然语言处理和计算机信息处理
,尤其涉及一种循环更新迭代的期刊文献知识图谱构建方法。
技术介绍
现有知识图谱是以“语义网络”为骨架构建起来的巨型、网络化的知识系统,旨在描述客观世界的概念、实体、事件及其之间的关系。其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示。知识图谱的关键技术涉及自然语言处理、数据挖掘和信息检索等多个领域,主要分为知识驱动和数据驱动两类,随着大数据的发展到了广泛应用,如法律、社交网络、医疗知识图谱等。知识图谱构建的关键技术包括包括实体及关系抽取技术、知识融合技术、实体链接技术和知识推理技术,知识图谱构建包含从数据来源到应用等各个环节的相关技术。然而当前知识图谱构建主要侧重点在于实体关系抽取、语义分析等丰富和优化图谱内容环节,并没有在构建流程上进行深入探索。尤其是对于知识图谱的更新迭代和校准没有一个系统的规范,使其达到一个闭环,真正实现构建知识图谱智能化和自动化。
技术实现思路
为解决上述技术问题,本专 ...
【技术保护点】
1.一种循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述方法包括:/nA概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;/nB管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;/nC基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;/nD通过概念设计定义的本体结构并引入模板进行语料属性抽取;/nE对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;/nF识别结果存入知识图谱, ...
【技术特征摘要】
1.一种循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述方法包括:
A概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;
B管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;
C基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;
D通过概念设计定义的本体结构并引入模板进行语料属性抽取;
E对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;
F识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。
2.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤A中:
本体为对象或对象的集合;
本体的关系属性用于定义本体之间的关联关系;
本体内部的数据属性是本体自身的特征不存在关联关系。
3.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤B中:
主题词表定义了实体词的来源、领域与子领域属性;
关系词表定义了主题词表实体词之间的关系,并在文献期刊中对词关系定义了上下位、相似、反义与相关关系;
文本库是网络期刊文献和本地资源的集合库,主要存储文献数据;对文本库的期刊文献进行了预处理,形成了语句库;所述语句库中包含来自...
【专利技术属性】
技术研发人员:吕强,段飞虎,蔡陨,谢一鸣,胡磊,冯自强,张宏伟,
申请(专利权)人:同方知网北京技术有限公司,同方知网数字出版技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。