【技术实现步骤摘要】
一种基于多视角规则增强的知识抽取方法
[0001]本专利技术涉及一种基于多视角规则增强的知识抽取方法,属于人工智能信息抽取
技术介绍
[0002]知识抽取是将蕴含于海量信息源中的知识经过理解、挖掘、归纳过程进行抽取,并存储所抽取的知识,进而形成知识库。知识抽取能够从海量非结构化数据中获取结构化知识,对智能搜索、问答系统、知识推理等下游任务具有重要意义。
[0003][0004]现有知识抽取方法是基于规则或者基于神经网络进行知识抽取,基于神经网络的知识抽取方法是目前的主流方法,然而,现有方法的知识抽取结果中存在知识冗余、知识缺失的问题,即从文本中抽取的多个知识元组存在交叉,并且部分知识元组缺失成分。本专利技术从语义角色标注、开放式信息抽取和实体识别多个视角,将神经网络和规则相结合,在基于神经网络的知识抽取基础上进行规则增强,从而更加准确地进行中英文知识抽取,解决知识抽取中知识冗余和缺失的问题。
技术实现思路
[0005]本专利技术的目的是为了解决知识抽取任务中知识冗余和缺失的技术问题,提出一种 ...
【技术保护点】
【技术特征摘要】
1.一种基于多视角规则增强的知识抽取方法,其特征在于,包括以下步骤:步骤1:加载模型;步骤2:输入文本,判断语言类型;其中,输入文本后,根据文本的统一码Unicode编码判断语言类型为中文或英文。除空格外,如果输入文本中有字符的统一码Unicode编码位于中文统一码Unicode编码“\u4e00”和“\u9fff”之间,则判断输入语言为中文,否则判断输入语言为英文;步骤3:对输入文本进行知识抽取;步骤3.1:对中文文本进行分句和分组;步骤3.2:对分组中的句子进行分词和语义角色标注;步骤3.3:从语义角色标注视角,进行规则增强,生成知识三元组;步骤3.4:获得中文知识抽取结果;步骤3.5:对英文输入文本进行初步的开放式信息抽取;步骤3.6:对英文输入文本进行命名实体识别;步骤3.7:从开放式信息抽取和命名实体识别视角,进行规则增强,生成知识三元组;步骤3.8:获得英文知识抽取结果;步骤4:知识存储。2.如权利要求1所述的一种基于多视角规则增强的知识抽取方法,其特征在于,步骤3.3从语义角色标注视角进行规则增强包括:步骤3.3.1:对于每个语义角色标注结果,施事Arg0和受事Arg1都存在时,根据分词结果和语义角色标注的位置,确定Arg0为主体,确定Arg1为客体。对于主体相同的多个三元组,若客体存在包含关系,则取长度较大的客体作为唯一客体;步骤3.3.2:当没有出现Arg0,出现Arg1和Arg2时,确定Arg1为主体,确定Arg2为客体;步骤3.3.3:当没有出现Arg0和Arg2,出现Arg1时,在语义角色标注的多个结果中,从当前结果向前遍历,如果之前结果的主体不为空时,且存在Arg0和Arg1,则将Arg0作为主体;如果之前的主体为空,则向前遍历...
【专利技术属性】
技术研发人员:薛晓军,张春霞,王瞳,徐天祥,牛振东,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。