一种基于关系抽取的知识库融合方法技术

技术编号:34791734 阅读:58 留言:0更新日期:2022-09-03 19:55
一种基于关系抽取的知识库融合方法,本发明专利技术涉及基于关系抽取的知识库融合方法。本发明专利技术的目的是为了解决现有知识融合方法忽略了文本中不同表述方式而语义相同的潜在合并内容,无法将属于同一知识的不同实体进行有效合并的问题。一种基于关系抽取的知识库融合方法过程为:步骤1:文本数据预处理;步骤2:关系规则抽取,获取关系规则库;步骤3:使用步骤2获取的关系规则库作为数据驱动,抽取待抽取文本数据中的关系三元组,从而构建统一的知识库。本发明专利技术用于信息抽取领域。明用于信息抽取领域。明用于信息抽取领域。

【技术实现步骤摘要】
一种基于关系抽取的知识库融合方法


[0001]本专利技术属于信息抽取领域,具体涉及一种使用先验知识库作为驱动,通过开放式关系抽取方法对多个文本数据源中存在知识进行融合的方法。

技术介绍

[0002]随着互联网技术的飞速发展,其中蕴含的数据信息得到了爆炸式的增长,其中文本信息是受众最广泛的形式之一,该文本信息为各个领域的文本信息,比如生物医学领域、机械领域、航天领域、航海领域、通信领域等,在生物医学中,文本数据为生物医学数据,Leukemia(白血病)和Liver and Intrahepatic Biliary Tract Carcinoma(肝脏和肝内胆道癌)代表实体1和实体2,这两个实体以节点的形式进行展示,两个节点间存在一条边,由白血病指向肝脏和肝内胆道癌,边的名称是Affect(影响),这两个节点和这一条边所代表的含义为白血病影响肝脏和肝内胆道癌;三元组体现了疾病与疾病间的关系;在机械领域中,三元组为(锻件,拉,孔)和(锻件,钻,孔)等。
[0003]面对各个领域的海量文本信息,人们从中获取有意义的信息越来越困难,一种有效的方式是通过抽取各个领域的海量文本信息中的实体与实体间的关联关系快速汲取有效知识。实体关系抽取作为信息抽取的重要组成部分,旨在从非结构化以及半结构化的文本中检测和抽取实体之间的语言关系,从而获得各个领域的文本中的有效知识。这一任务不仅可以快速构建知识网络,帮助用户全面快速获取信息和知识资源,而且对社会网络分析、问答系统的自动构建具有十分重要的作用。
[0004]然而,不同来源的各个领域的文本由于存在环境、表述方式、侧重重点等方面的不同,常常其中对于相同知识具有不同的表达方式,从而导致其中抽取出的实体与关系均存在知识不一致的问题。因此产生了知识融合的现实需求,对不同数据源中知识进行整合,获取具有一致性的完整知识网络。有效的知识融合方法对于知识系统间共享、知识图谱构建扩展等问题的研究都具有重要帮助。现有知识融合方法通常通过图融合的形式存在,通过对知识图间拓扑结构的计算合并相似对象。这类方法更多关注于图结构而忽略了文本中不同表述方式而语义相同的潜在合并内容,因此无法将属于同一知识的不同实体进行有效合并。

技术实现思路

[0005]本专利技术的目的是为了解决现有知识融合方法忽略了文本中不同表述方式而语义相同的潜在合并内容,无法将属于同一知识的不同实体进行有效合并的问题,而提出一种基于关系抽取的知识库融合方法。
[0006]一种基于关系抽取的知识库融合方法具体过程为:
[0007]步骤1:文本数据预处理;
[0008]步骤2:关系规则抽取,获取关系规则库;
[0009]步骤3:使用步骤2获取的关系规则库作为数据驱动,抽取待抽取文本数据中的关
系三元组,从而构建统一的知识库。
[0010]优选地,所述步骤1中文本数据预处理;具体过程为:
[0011]步骤11:获取多个待融合数据,读取待融合数据中文本数据,使用 {。}{?}{!}{

}{.}{?}{!}断句字符以及特殊的引号{”}{

}{"}作为切分句子的标记,将文本数据切分为以句子为单位的独立单元;
[0012]步骤12:对切分后的每个句子进行词法分析;
[0013]步骤13:对词法分析后的每个句子进行句法分析。
[0014]优选地,所述步骤12中对切分后的每个句子进行词法分析;具体过程为:
[0015]对切分后的每个句子通过中文分词工具处理,获得每个句子的词序列;
[0016]对每个句子的词序列中的词语进行词性标注;
[0017]通过命名实体识别工具识别每个句子的词序列中的词语的命名实体并进行记录。
[0018]优选地,所述步骤13中对词法分析后的每个句子进行句法分析,具体过程为:
[0019]通过依存句法分析方法构建每个句子的依存句法树,将每个句子中的代词性指代进行指代消解处理,将代词替换为代词指代的词。
[0020]优选地,所述步骤2中关系规则抽取,获取关系规则库;具体过程为:
[0021]步骤21:采集文本数据源,人工标注文本数据的关系三元组,对人工标注后的文本数据进行文本数据预处理;
[0022]步骤22:中心词提取;
[0023]步骤23:依存路径提取;
[0024]步骤24:基于中心词提取和依存路径提取进行关系规则提取;获取关系规则库。
[0025]优选地,所述步骤22中中心词提取;具体过程为:
[0026]抽取标注关系三元组中实体1、关系和实体2的中心词;当实体或者关系由一个词语表示时,该词语就是实体或者关系的中心词,当实体或者关系由多个词语组成的词组表示时,需要从词组中抽取一个词作为中心词来表示实体或者关系。
[0027]优选地,所述步骤23中依存路径提取;具体过程为:
[0028]依存路径提取就是给定依存句法树中的任意两个节点,提取两个节点之间的最短依存路径;
[0029]使用依存句法分析工具判断分词之后的词语对之间的依存关系,并以树的结构将所有词语组织起来得到依存句法树;
[0030]树中的每个节点就是一个词语,词语之间依存关系的方向性由树中节点之间的父子关系表示;
[0031]通过构建的依存句法树,获取实体1中心词与关系中心词和实体2中心词与关系中心词两条依存路径。
[0032]优选地,所述步骤24中基于中心词提取和依存路径提取进行关系规则提取;具体过程为:
[0033]关系规则包含关系三元组“<实体1,关系,实体2>”中关系的构成以及构成关系词语的词性、实体1和实体2在句子中的先后位置关系、实体和关系之间的依存关系信息。
[0034]优选地,所述步骤3中使用步骤2获取的关系规则库作为数据驱动,抽取待抽取文本数据中的关系三元组,从而构建统一的知识库;
[0035]具体步骤如下:
[0036]步骤31:采集待抽取文本数据源,对待抽取文本数据源进行文本数据预处理;
[0037]步骤32:候选实体选取:
[0038]通过词语词性约束抽取句子中单个名词和名词性短语;
[0039]然后再根据词性和命名实体类型约束获得过滤后的单个名词和名词性短语作为候选实体;
[0040]所述名词性短语包括以名词、动词或者形容词为中心词的偏正短语、用名词构成的联合短语、复指短语;
[0041]步骤33:候选实体对选取:
[0042]首先,遍历句子中候选实体集中的每个元素,如果句子中包含多个命名实体类型,则将这些命名实体类型的词语两两组合,每个组合根据两个词语先后顺序不同可以表示两个候选实体对;
[0043]然后,将句子中候选实体集中的所有元素两两组合,每个组合根据元素先后顺序不同可以表示两个候选实体对;
[0044]最后,将句子中候选实体集中的元素与句子中名词性短语集中不属于候选实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系抽取的知识库融合方法,其特征在于:所述方法具体过程为:步骤1:文本数据预处理;步骤2:关系规则抽取,获取关系规则库;步骤3:使用步骤2获取的关系规则库作为数据驱动,抽取待抽取文本数据中的关系三元组,从而构建统一的知识库。2.根据权利要求1所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤1中文本数据预处理;具体过程为:步骤11:获取多个待融合数据,读取待融合数据中文本数据,使用{。}{?}{!}{

}{.}{?}{!}断句字符以及特殊的引号{”}{

}{"}作为切分句子的标记,将文本数据切分为以句子为单位的独立单元;步骤12:对切分后的每个句子进行词法分析;步骤13:对词法分析后的每个句子进行句法分析。3.根据权利要求2所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤12中对切分后的每个句子进行词法分析;具体过程为:对切分后的每个句子通过中文分词工具处理,获得每个句子的词序列;对每个句子的词序列中的词语进行词性标注;通过命名实体识别工具识别每个句子的词序列中的词语的命名实体并进行记录。4.根据权利要求3所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤13中对词法分析后的每个句子进行句法分析,具体过程为:通过依存句法分析方法构建每个句子的依存句法树,将每个句子中的代词性指代进行指代消解处理,将代词替换为代词指代的词。5.根据权利要求4所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤2中关系规则抽取,获取关系规则库;具体过程为:步骤21:采集文本数据源,人工标注文本数据的关系三元组,对人工标注后的文本数据进行文本数据预处理;步骤22:中心词提取;步骤23:依存路径提取;步骤24:基于中心词提取和依存路径提取进行关系规则提取;获取关系规则库。6.根据权利要求5所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤22中中心词提取;具体过程为:抽取标注关系三元组中实体1、关系和实体2的中心词;当实体或者关系由一个词语表示时,该词语就是实体或者关系的中心词,当实体或者关系由多个词语组成的词组表示时,需要从词组中抽取一个词作为中心词来表示实体或者关系。7.根据权利要求6所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤23中依存路径提取;具体过程为:依存路径提取就是给定依存句法树中的任意两个节点,提取两个节点之间的最短依存路径;使用依存句法分析工具判断分词之后的词语对之间的依存关系,并以树的结构将所有
词语组织起来得到依存句法树;树中的每个节点就是一个词语,词语之间依存关系的方向性由树中节点之间的父子关系表示;通过构建的依存句法树,获取实体1中心词与关系中心词和实体2中心词与关系中心词两条依存路径。8.根据权利要求7所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤24中基于中心词提取和依存路径提取进行关系规则提取;具体过程为:...

【专利技术属性】
技术研发人员:叶东肖岩李晖王日昆孙兆伟
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1