一种循环更新迭代的期刊文献知识图谱构建方法技术

技术编号:24331282 阅读:39 留言:0更新日期:2020-05-29 19:41
本发明专利技术公开了一种循环更新迭代的期刊文献知识图谱构建方法,包括概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;通过概念设计定义的本体结构并引入模板进行语料属性抽取;对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。

【技术实现步骤摘要】
一种循环更新迭代的期刊文献知识图谱构建方法
本专利技术涉及自然语言处理和计算机信息处理
,尤其涉及一种循环更新迭代的期刊文献知识图谱构建方法。
技术介绍
现有知识图谱是以“语义网络”为骨架构建起来的巨型、网络化的知识系统,旨在描述客观世界的概念、实体、事件及其之间的关系。其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示。知识图谱的关键技术涉及自然语言处理、数据挖掘和信息检索等多个领域,主要分为知识驱动和数据驱动两类,随着大数据的发展到了广泛应用,如法律、社交网络、医疗知识图谱等。知识图谱构建的关键技术包括包括实体及关系抽取技术、知识融合技术、实体链接技术和知识推理技术,知识图谱构建包含从数据来源到应用等各个环节的相关技术。然而当前知识图谱构建主要侧重点在于实体关系抽取、语义分析等丰富和优化图谱内容环节,并没有在构建流程上进行深入探索。尤其是对于知识图谱的更新迭代和校准没有一个系统的规范,使其达到一个闭环,真正实现构建知识图谱智能化和自动化。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种循环更新迭代的期刊文献知识图谱构建方法,该方法从自动化构建知识图谱的角度出发,以知网期刊文献库为数据来源,将概念设计、词典管理、语料管理、模型训练、知识元抽取、实体消歧等多个知识图谱构建模块有机结合,通过更新迭代和不断优化知识图谱和训练的准确性从而形成闭环真正实现智能化循环更新迭代构建期刊文献知识图谱。本专利技术的目的通过以下的技术方案来实现:一种循环更新迭代的期刊文献知识图谱构建方法,包括:A概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;B管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;C基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;D通过概念设计定义的本体结构并引入模板进行语料属性抽取;E对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;F识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:本专利技术对构建知识图谱提供一个规范流程参考,使构建知识图谱真正面向智能化,相对减少人力资源的浪费,提高知识图谱的易用性和实用性。附图说明图1是循环更新迭代的期刊文献知识图谱构建方法流程图;图2是主题词表结构图;图3是文本数据库结构图;图4是语句数据库结构图;图5是循环更新迭代的期刊文献知识图谱构建方法流程图;图6是实体识别更新迭代模型流程图;图7是关系识别更新迭代模型流程图;图8是属性抽取模型流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。如图1所示,为循环更新迭代的期刊文献知识图谱构建方法,包括步骤10概念模型设计,对知识图谱定义本体、数据属性和关系属性的规范。本体模型参考复用CIDOCCRM、EDM、FOAF、EVENT、FRBR等国际上应用较为广泛的本体模型或数据标准,并根据自身业务特征进行扩展和自定义,提高本体模型的可复用性与国际化程度。所述期刊文献知识图谱的本体构建包含了对期刊文献知识图谱的本体与数据模型层进行定义,其中包含以下:定义本体、定义本体的关系属性、定义本体内部的数据属性。所述的本体为对象或对象的集合,例如:文本、作者和机构等信息。本体的关系属性主要定义本体之间的关联关系,例如:作者和作者之间有合作关系、作者和机构之间有从属关系等。本体内部的数据属性是本体自身的特征不存在关联关系,例如:作者姓名、年龄和籍贯等。本专利技术为知识图谱定义了三元组规范:(E1,R,E2),(E,P,V)其中E代表本体,R代表关系属性,P代表数据属性,V代表属性值。在实体-关系-实体的联系中,实体的值域是本体。定义的期刊文献部分本体结构如下表:表1标识本体E1文本E2作者E3机构E4时间E5关系类型E6领域实体E7地区定义的期刊文献部分关系属性如下表:表2步骤20管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;期刊文献知识图谱的词表和语料库采用中图分类法的形式分成多个领域的数据。在词表在形式上分为主题词表和关系词表,主题词表定义了实体词的来源、领域、子领域等属性,关系词表定义了主题词表实体词之间的关系,在文献期刊中对词关系定义了上下位、相似、反义、相关等10种关系。语料库分为文本库和语句库,文本库是网络期刊文献和本地资源的集合库,主要存储文献数据。为了便于进行文本深度挖掘,对文本库的期刊文献进行了预处理,并形成了语句库。其中语句库包含了来自期刊文献的语句以及主题词表中实体词所在语句的位置。其中,主题词表结构如图2所示。其中content为实体词,English为英文翻译,catalog为中图分类,domain为词的来源等。关系词表如表3:表3其中orgid和tarid为实体词所在主题词表的索引id,reltype为词关系id。语料库中文本库和语句库如图3和图4所示。步骤30基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代。实体抽取的更新迭代:1、使用词典对语料集进行标注,对在语料中出现的实体词标注标签。2、选取实体识别算法对标注集进行训练。实体识别的算法由机器学习到深度学习经历了一个更新迭代的过程,例如:HMM,CRF,BILSTM+CRF,Bert+BILSTM+CRF等。本专利技术采取Bert+BILSTM+CRF的算法进行实体识别。3、使用训练好的标注模型继续对语料进行识别,并将识别结果进行校准将主题词典中未出现的新词保存到主题词典中。4、再次用更新后的词典进行标注,并再次训练更新模型和词典。实体抽取过程通过加入主题词典并以循环标注语料和训练模型的形式形成了更新迭代的闭环。使模型能够不断优化以提高实体识别的准确性。关系抽取的更新迭代:1、使用关系词典和已有的关系抽取模板对语句集进行标注,并形成训练模型。关系抽取涉及领域较广,传统的深度学习模型很难在关系抽取的训练上有较好的表现。因此,传统关系抽本文档来自技高网...

【技术保护点】
1.一种循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述方法包括:/nA概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;/nB管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;/nC基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;/nD通过概念设计定义的本体结构并引入模板进行语料属性抽取;/nE对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;/nF识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。/n

【技术特征摘要】
1.一种循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述方法包括:
A概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;
B管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;
C基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;
D通过概念设计定义的本体结构并引入模板进行语料属性抽取;
E对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;
F识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。


2.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤A中:
本体为对象或对象的集合;
本体的关系属性用于定义本体之间的关联关系;
本体内部的数据属性是本体自身的特征不存在关联关系。


3.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤B中:
主题词表定义了实体词的来源、领域与子领域属性;
关系词表定义了主题词表实体词之间的关系,并在文献期刊中对词关系定义了上下位、相似、反义与相关关系;
文本库是网络期刊文献和本地资源的集合库,主要存储文献数据;对文本库的期刊文献进行了预处理,形成了语句库;所述语句库中包含来自...

【专利技术属性】
技术研发人员:吕强段飞虎蔡陨谢一鸣胡磊冯自强张宏伟
申请(专利权)人:同方知网北京技术有限公司同方知网数字出版技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1