一种在线资源相关信息抽取的知识图谱生成方法技术

技术编号:27206439 阅读:38 留言:0更新日期:2021-01-31 12:30
本发明专利技术提供了一种在线资源相关信息抽取的知识图谱生成方法,属于自然语言处理信息抽取技术领域。所述方法包括:在输入的在线资源引用句子上枚举生成候选span,基于BERT编码器学习句子中的token表示进而得到每个候选span的表示,从而将实体抽取和关系抽取两个任务转化为基于span表示的分类计算问题,将两个任务的目标函数通过加权得到联合目标函数,进而利用多任务学习策略进行联合训练。通过将训练好的信息抽取模型应用在大规模的科技文献语料中,生成在线资源的知识图谱。该方法解决了实体和关系抽取对在线资源属性描述刻画不足的问题,减少了构建在线资源知识图谱的人工成本,提高了知识图谱生成效率。提高了知识图谱生成效率。提高了知识图谱生成效率。

【技术实现步骤摘要】
一种在线资源相关信息抽取的知识图谱生成方法


[0001]本专利技术涉及一种在线资源相关信息抽取的知识图谱生成方法,涉及自然语言处理中的信息抽取


技术介绍

[0002]目前,科技文献中的元数据信息抽取问题得到了越来越多的关注,然而除了普遍的关键词、文献引用、科技实体以及实体关系外,科技文献中的在线资源作为另外一种重要元数据信息,到目前为止还没有受到足够的重视。
[0003]伴随着科技文献规模的不断扩大,如今在文献中被引用的在线资源数量也正在迅速地增长,如何从海量的现有文献和不断产生的最新文献中发现、追踪并了解这些在线资源,已然成为了一个极富有挑战性的问题。从应用角度出发,对在线科技资源进行深入的分析和理解能够帮助科研人员快速掌握有关资源的基本信息,了解资源的种类、用途以及其他研究对于该资源的利用情况,从而帮助科研人员迅速定位到能够帮助解决其研究问题的在线资源,或对多个在线资源进行对比来选择最适合的资源,极大地加快了科研工作的进程和效率。此外,基于对在线科技资源的全面分析和深度理解,能够帮助开发出具备有效性和实用性的科学研究辅助工具,如在线科技资源百科知识库、在线科技资源搜索引擎和检索系统、在线科技资源个性化推荐系统等。
[0004]现有技术中,近几年来已有一些来自工业界的团队开发出专门面向在线资源的搜索、百科等系统工具,如谷歌数据集搜索引擎(Google Dataset Search)等。在该搜索引擎的开发过程中,核心问题是对数据集的相关信息进行深层次的理解与刻画。然而,现有的工业界应用仍旧主要面向“科研数据集”这一种在线科技资源,还有许多其他种类的在线科技资源,如科研问题、算法模型、工具软件、帮助文档等没有得到充分的关注。另外一些技术基于对有限数量的科技文献进行分析,并通过人工总结的方式构建规则,从而对科技文献文本中的在线资源名称、种类或功能等信息进行抽取。这类基于人工总结规则的方法需要消耗大量的人工成本,且总结得到的规则无法做到适用于全部科技文献,从而导致信息抽取的准确率和召回率难以保证。此外,现有的一些科技信息抽取技术大多从科技文献摘要中抽取一般的科技实体或关系,而在线资源分布在文献正文中,对资源的引用处上下文的内容和文本语义更加复杂,且在线资源的种类与一般实体的种类有很大不同,这使得现有的科技信息抽取技术难以适用于在线资源相关的信息抽取。

技术实现思路

[0005]本专利技术旨在解决使用现有实体和关系抽取技术对科技文献中的在线资源相关信息抽取准确度有限的问题,且相关技术对在线资源属性的描述刻画不足,以及通过人工方式构建在线资源知识图谱费时费力的问题,提出了一种在线资源相关信息抽取的知识图谱生成方法。
[0006]为达到上述目的,本专利技术采用如下技术方案:
[0007]所述在线资源相关信息抽取的知识图谱生成方法中涉及如下定义:
[0008]定义1:上下文句子s,其表达式为:{s=w1,w2,...,w
N
},含义为一个包含资源实体的科技文献句子,该句子中有N个单词w1,w2,...,w
N

[0009]其中,下标N为句子单词序列长度,w代表单词;
[0010]定义2:目标资源实体res,其表达式为:res=(r
s
,r
e
),含义为:给定科技文献句子的包含目标引用的单词序列
[0011]其中,r
s
和r
e
分别代表该起始单词索引和结束单词索引;
[0012]定义3:在线资源相关科技实体集合T,其表达式为T={(i,j,C
t
)|1≤i≤j≤n;j-i+1≤L},含义为:给定的在线资源所属关系组的属性描述,每个在线资源对应多个在线资源相关科技实体;
[0013]其中,i和j为序列中的单词索引,C
t
为在线资源相关科技实体的类别,L表示在线资源相关科技实体的最大长度;
[0014]定义4:资源-实体关系R:其表达式为R={(res,term,C
r
)∪(term,res,C
r
)|term∈T},含义为:T中的每个在线资源相关科技实体term,其与目标资源实体res之间的关系;
[0015]其中,C
r
为资源-实体关系R的类别,下标r代表资源;在线资源相关科技实体见定义3;
[0016]所述知识图谱生成方法,包括以下步骤:
[0017]步骤1)对于输入的包含有在线资源引用的科技文献句子,即上下文句子,由span生成器在科技文献句子上进行n-gram枚举得到候选span的集合;
[0018]其中,上下文句子的含义见定义1;
[0019]步骤2)基于BERT编码器对步骤1)中的科技文献句子进行单词token的文本表示,并输出token的文本表示以及整个句子的文本表示;
[0020]步骤3)在步骤2)基础上通过结合token的文本表示、span长度大小及整个句子的文本表示得到span集合中每个候选span的文本表示;
[0021]其中,token的文本表示为用向量表示的token文本,span长度大小为一个span包含的单词个数,整个句子的文本表示为用向量表示的整个句子;
[0022]步骤4)构建在线资源相关科技实体抽取任务的目标函数,该目标函数用于训练,训练目标为对每个候选span的文本表示进行分类,即判断每个span所属的实体类别或判断其为“非正确科技实体”;
[0023]步骤5)构建资源-实体关系抽取任务的目标函数,该目标函数用于训练,训练目标为基于输入的“在线资源引用的科技文献句子”中包含的目标资源实体判断span与目标资源实体之间的关系或判断其为“span与目标资源实体之间不存在关系”;
[0024]其中,目标资源实体见定义2;资源-实体关系见定义4;
[0025]步骤6)基于span的文本表示,以及步骤4)和步骤5)中构建出的在线资源相关科技实体抽取以及资源-实体关系抽取两个任务的目标函数,通过多任务学习,即通过使用共享span的文本表示并行训练两个任务,基于加权构建在线资源相关科技实体抽取任务和资源-实体关系抽取任务的联合目标函数,进行联合训练,学习两个任务之间的潜在影响关系,得到训练好的在线资源相关信息抽取模型;
[0026]步骤7)生成在线资源知识图谱,具体为:输入大量科技文献,基于步骤6)训练好的
在线资源相关信息抽取模型,抽取出科技文献中全部的在线资源相关科技实体和资源-实体关系,将每一种在线资源与科技实体之间的关系作为在线资源的一种属性,并对抽取出的信息进行整合形成自我中心网络,即生成在线资源知识图谱;
[0027]其中,自我中心网络,即ego network。
[0028]有益效果
[0029]本专利技术所述的一种在线资源相关信息抽取的知识图谱生成方法,与现有的实体关系抽取方法和以科技文献作为目标语料的科技信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线资源相关信息抽取的知识图谱生成方法,其特征在于:所述知识图谱生成方法中涉及如下定义:定义1:上下文句子s,其表达式为:{s=w1,w2,...,w
N
},含义为一个包含资源实体的科技文献句子,该句子中有N个单词w1,w2,...,w
N
;定义2:目标资源实体res,其表达式为:res=(r
s
,r
e
),含义为:给定科技文献句子的包含目标引用的单词序列定义3:在线资源相关科技实体集合T,其表达式为T={(i,j,C
t
)|1≤i≤j≤n;j-i+1≤L},含义为:给定的在线资源所属关系组的属性描述,每个在线资源对应多个在线资源相关科技实体;定义4:资源-实体关系R:其表达式为R={(res,term,C
r
)∪(term,res,C
r
)|term∈T},含义为:T中的每个在线资源相关科技实体term,其与目标资源实体res之间的关系;所述知识图谱生成方法,包括以下步骤:步骤1)对于输入的包含有在线资源引用的科技文献句子,即上下文句子,由span生成器在科技文献句子上进行n-gram枚举得到候选span的集合;步骤2)基于BERT编码器对步骤1)中的科技文献句子进行单词token的文本表示,并输出token的文本表示以及整个句子的文本表示;步骤3)在步骤2)基础上通过结合token的文本表示、span长度大小及整个句子的文本表示得到span集合中每个候选span的文本表示;步骤3)中,token的文本表示为用向量表示的token文本,span长度大小为一个span包含的单词个数,整个句子的文本表示为用向量表示的整个句子;步骤4)构建在线资源相关科技实体抽取任务的目标函数,该目标函数用于训练,训练目标为对每个候选span的文本表示进行分类,即判断每个span所属的实体类别或判断其为“非正确科技实体”;步骤5)构建资源-实体关系抽取任务的目标函数,该目标函数用于训练,训练目标为基于输入的“在线资源引用的科技文献句子”中包含的目标资源实体判断span与...

【专利技术属性】
技术研发人员:冯冲赵赫唐雨馨
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1