一种基于多视角规则增强的知识抽取方法技术

技术编号:38036007 阅读:6 留言:0更新日期:2023-06-30 11:02
本发明专利技术涉及一种基于多视角规则增强的知识抽取方法,属于人工智能信息抽取技术领域。本方法从语义角色标注、开放式信息抽取和实体识别多个视角,将神经网络和规则相结合,在基于神经网络的知识抽取基础上进行规则增强,从而更加准确地进行中英文知识抽取。本方法首先加载知识抽取模型,根据输入文本的语言类型使用不同的视角和增强规则进行知识抽取。对于中文输入,从语义角色标注视角进行规则增强,对于英文输入,从实体识别和开放式信息抽取视角进行规则增强。最后,使用文本和图数据库两种形式分别对知识三元组进行存储。本方法可以补全知识三元组抽取结果中的缺失内容,去除冗余三元组,解决知识抽取中知识缺失和冗余的问题。题。题。

【技术实现步骤摘要】
一种基于多视角规则增强的知识抽取方法


[0001]本专利技术涉及一种基于多视角规则增强的知识抽取方法,属于人工智能信息抽取


技术介绍

[0002]知识抽取是将蕴含于海量信息源中的知识经过理解、挖掘、归纳过程进行抽取,并存储所抽取的知识,进而形成知识库。知识抽取能够从海量非结构化数据中获取结构化知识,对智能搜索、问答系统、知识推理等下游任务具有重要意义。
[0003][0004]现有知识抽取方法是基于规则或者基于神经网络进行知识抽取,基于神经网络的知识抽取方法是目前的主流方法,然而,现有方法的知识抽取结果中存在知识冗余、知识缺失的问题,即从文本中抽取的多个知识元组存在交叉,并且部分知识元组缺失成分。本专利技术从语义角色标注、开放式信息抽取和实体识别多个视角,将神经网络和规则相结合,在基于神经网络的知识抽取基础上进行规则增强,从而更加准确地进行中英文知识抽取,解决知识抽取中知识冗余和缺失的问题。

技术实现思路

[0005]本专利技术的目的是为了解决知识抽取任务中知识冗余和缺失的技术问题,提出一种基于多视角规则增强的知识抽取方法。
[0006]该方法的特点是将神经网络方法和多视角规则增强相结合,并且可以进行中英文的知识抽取,多视角规则增强是从语义角色标注、开放式信息抽取和实体识别三个视角,制定对应的规则以增强知识抽取的准确性。
[0007]本专利技术采用的技术方案如下:
[0008]一种基于多视角规则增强的知识抽取方法,包括以下步骤:
[0009]步骤1:加载模型。
[0010]为了提高知识抽取效率,将LTP(Language Technology Plantform,语言技术平台)模型和Stanford CoreNLP(斯坦福自然语言处理)模型预加载至内存中,以执行后续步骤。LTP模型和Stanford CoreNLP模型为预训练的神经网络模型。
[0011]步骤2:输入文本,判断语言类型。
[0012]该方法的输入为非结构化文本,输入文本后,根据文本的Unicode(统一码)编码判断语言类型为中文或英文。除空格外,如果输入文本中有字符的Unicode编码位于中文Unicode编码“\u4e00”和“\u9fff”之间,则判断输入语言为中文,执行步骤3.1至步骤3.4;否则,判断输入语言为英文,执行步骤3.5至步骤3.8。
[0013]步骤3:对输入文本进行知识抽取。
[0014]步骤3.1:对中文文本进行分句和分组。
[0015]对输入文本进行中文知识抽取。根据非结构化文本中的标点符号,利用正则表达
式对输入的中文文本进行分句,对每条句子进行知识抽取。为了避免内存溢出,将所有句子进行分组,每组包含固定数量的句子,以组为单位进行中文知识抽取。
[0016]步骤3.2:对分组中的句子进行分词和语义角色标注。
[0017]通过对句子进行语义角色标注,能够从句子中获得多条语义角色标注结果,每条语义角色标注结果中包含句子中的谓语及其对应的论元,谓语会对应多个论元,以ArgN进行表示,取语义角色标注结果中的谓语、Arg0、Arg1、Arg2,其中,Arg0表示施事,Arg1表示受事,Arg2表示范围。以组为单位,使用LTP模型对句子进行分词和语义角色标注。
[0018]步骤3.3:从语义角色标注视角,进行规则增强,生成知识三元组。
[0019]根据分词和语义角色标注的结果,首先将语义角色标注结果中的谓语作为知识抽取结果中的谓语(pre)。从语义角色标注的视角,进行规则增强。
[0020]步骤3.3.1:对于每个语义角色标注结果,当Arg0和Arg1都存在时(即不为null),根据分词结果和语义角色标注的位置,确定Arg0为主体(sub),确定Arg1为客体(obj)。对于主体相同的多个三元组,若客体存在包含关系,则取长度较大的客体作为唯一客体。
[0021]sub=Arg0,obj=Arg1,when Arg0≠null,Arg1≠null.
[0022]步骤3.3.2:当没有出现Arg0,出现Arg1和Arg2时,确定Arg1为主体,确定Arg2为客体。
[0023]sub=Arg1,obj=Arg2,when Arg0=null,Arg1≠null,Arg2≠null.
[0024]步骤3.3.3:当没有出现Arg0和Arg2,出现Arg1时,在语义角色标注的多个结果中,从当前结果向前遍历,如果之前结果的主体不为空时,且存在Arg0和Arg1,则将Arg0作为主体;如果之前的主体为空,则向前遍历查找一个Arg0作为主体。
[0025][0026]when Arg0=null,Arg1≠null,Arg2=null.
[0027]经过规则增强后,以主体、谓语、客体的形式生成知识三元组。
[0028]步骤3.4:获得中文知识抽取结果。
[0029]去除步骤3.3中包含空值的三元组,获得所有非空三元组作为中文知识抽取结果。当未获得有效三元组时,则获得空值。
[0030]步骤3.5:对英文输入文本进行初步的开放式信息抽取。
[0031]使用Stanford CoreNLP中的openie(open information extraction,开放式信息抽取)模块对英文输入文本进行初步的开放式信息抽取,能够从句子中获得多条开放式信息抽取结果,得到多个元组,每个元组中包含句子中的谓词及对应的多个论元,所获得的多个元组中包含冗余和错误,在后续步骤中进行修正。
[0032]步骤3.6:对英文输入文本进行命名实体识别。
[0033]使用Stanford CoreNLP中的命名实体识别模块对英文输入文本进行命名实体识别,识别出句子中的多个实体。实体是构成知识三元组的重要元素,根据获得的实体信息对步骤3.5中获得的开放式信息抽取结果进行修正。
[0034]步骤3.7:从开放式信息抽取和命名实体识别视角,进行规则增强,生成知识三元组。
[0035]开放式信息抽取的结果中包含错误和冗余信息,利用实体识别结果,进行规则增强,生成更准确的知识三元组。将每个开放式信息抽取结果中的主体(sub)和实体识别结果中的每个实体(entity)进行比对,开放式信息抽取和命名实体识别视角的规则增强包括:
[0036]步骤3.7.1:对于每个开放式信息抽取结果,当主体sub与所识别实体entity相同时,对于每个实体识别结果,找到客体含有实体的所有三元组triples
e
,并在每组结果中取长度最长的三元组作为有效知识三元组triples
v
,max_len表示取长度最长的三元组,entity指通过实体识别得到的任一实体。
[0037]triples
v
=max_len(triples
e
),when sub=entity.
[0038]步骤3.7.2:当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多视角规则增强的知识抽取方法,其特征在于,包括以下步骤:步骤1:加载模型;步骤2:输入文本,判断语言类型;其中,输入文本后,根据文本的统一码Unicode编码判断语言类型为中文或英文。除空格外,如果输入文本中有字符的统一码Unicode编码位于中文统一码Unicode编码“\u4e00”和“\u9fff”之间,则判断输入语言为中文,否则判断输入语言为英文;步骤3:对输入文本进行知识抽取;步骤3.1:对中文文本进行分句和分组;步骤3.2:对分组中的句子进行分词和语义角色标注;步骤3.3:从语义角色标注视角,进行规则增强,生成知识三元组;步骤3.4:获得中文知识抽取结果;步骤3.5:对英文输入文本进行初步的开放式信息抽取;步骤3.6:对英文输入文本进行命名实体识别;步骤3.7:从开放式信息抽取和命名实体识别视角,进行规则增强,生成知识三元组;步骤3.8:获得英文知识抽取结果;步骤4:知识存储。2.如权利要求1所述的一种基于多视角规则增强的知识抽取方法,其特征在于,步骤3.3从语义角色标注视角进行规则增强包括:步骤3.3.1:对于每个语义角色标注结果,施事Arg0和受事Arg1都存在时,根据分词结果和语义角色标注的位置,确定Arg0为主体,确定Arg1为客体。对于主体相同的多个三元组,若客体存在包含关系,则取长度较大的客体作为唯一客体;步骤3.3.2:当没有出现Arg0,出现Arg1和Arg2时,确定Arg1为主体,确定Arg2为客体;步骤3.3.3:当没有出现Arg0和Arg2,出现Arg1时,在语义角色标注的多个结果中,从当前结果向前遍历,如果之前结果的主体不为空时,且存在Arg0和Arg1,则将Arg0作为主体;如果之前的主体为空,则向前遍历...

【专利技术属性】
技术研发人员:薛晓军张春霞王瞳徐天祥牛振东
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1