【技术实现步骤摘要】
一种基于关系抽取的知识库融合方法
[0001]本专利技术属于信息抽取领域,具体涉及一种使用先验知识库作为驱动,通过开放式关系抽取方法对多个文本数据源中存在知识进行融合的方法。
技术介绍
[0002]随着互联网技术的飞速发展,其中蕴含的数据信息得到了爆炸式的增长,其中文本信息是受众最广泛的形式之一,该文本信息为各个领域的文本信息,比如生物医学领域、机械领域、航天领域、航海领域、通信领域等,在生物医学中,文本数据为生物医学数据,Leukemia(白血病)和Liver and Intrahepatic Biliary Tract Carcinoma(肝脏和肝内胆道癌)代表实体1和实体2,这两个实体以节点的形式进行展示,两个节点间存在一条边,由白血病指向肝脏和肝内胆道癌,边的名称是Affect(影响),这两个节点和这一条边所代表的含义为白血病影响肝脏和肝内胆道癌;三元组体现了疾病与疾病间的关系;在机械领域中,三元组为(锻件,拉,孔)和(锻件,钻,孔)等。
[0003]面对各个领域的海量文本信息,人们从中获取有意义的信息越来越困难,一种有效的方式是通过抽取各个领域的海量文本信息中的实体与实体间的关联关系快速汲取有效知识。实体关系抽取作为信息抽取的重要组成部分,旨在从非结构化以及半结构化的文本中检测和抽取实体之间的语言关系,从而获得各个领域的文本中的有效知识。这一任务不仅可以快速构建知识网络,帮助用户全面快速获取信息和知识资源,而且对社会网络分析、问答系统的自动构建具有十分重要的作用。
[0004]然而,不同来源 ...
【技术保护点】
【技术特征摘要】
1.一种基于关系抽取的知识库融合方法,其特征在于:所述方法具体过程为:步骤1:文本数据预处理;步骤2:关系规则抽取,获取关系规则库;步骤3:使用步骤2获取的关系规则库作为数据驱动,抽取待抽取文本数据中的关系三元组,从而构建统一的知识库。2.根据权利要求1所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤1中文本数据预处理;具体过程为:步骤11:获取多个待融合数据,读取待融合数据中文本数据,使用{。}{?}{!}{
…
}{.}{?}{!}断句字符以及特殊的引号{”}{
’
}{"}作为切分句子的标记,将文本数据切分为以句子为单位的独立单元;步骤12:对切分后的每个句子进行词法分析;步骤13:对词法分析后的每个句子进行句法分析。3.根据权利要求2所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤12中对切分后的每个句子进行词法分析;具体过程为:对切分后的每个句子通过中文分词工具处理,获得每个句子的词序列;对每个句子的词序列中的词语进行词性标注;通过命名实体识别工具识别每个句子的词序列中的词语的命名实体并进行记录。4.根据权利要求3所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤13中对词法分析后的每个句子进行句法分析,具体过程为:通过依存句法分析方法构建每个句子的依存句法树,将每个句子中的代词性指代进行指代消解处理,将代词替换为代词指代的词。5.根据权利要求4所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤2中关系规则抽取,获取关系规则库;具体过程为:步骤21:采集文本数据源,人工标注文本数据的关系三元组,对人工标注后的文本数据进行文本数据预处理;步骤22:中心词提取;步骤23:依存路径提取;步骤24:基于中心词提取和依存路径提取进行关系规则提取;获取关系规则库。6.根据权利要求5所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤22中中心词提取;具体过程为:抽取标注关系三元组中实体1、关系和实体2的中心词;当实体或者关系由一个词语表示时,该词语就是实体或者关系的中心词,当实体或者关系由多个词语组成的词组表示时,需要从词组中抽取一个词作为中心词来表示实体或者关系。7.根据权利要求6所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤23中依存路径提取;具体过程为:依存路径提取就是给定依存句法树中的任意两个节点,提取两个节点之间的最短依存路径;使用依存句法分析工具判断分词之后的词语对之间的依存关系,并以树的结构将所有
词语组织起来得到依存句法树;树中的每个节点就是一个词语,词语之间依存关系的方向性由树中节点之间的父子关系表示;通过构建的依存句法树,获取实体1中心词与关系中心词和实体2中心词与关系中心词两条依存路径。8.根据权利要求7所述一种基于关系抽取的知识库融合方法,其特征在于:所述步骤24中基于中心词提取和依存路径提取进行关系规则提取;具体过程为:...
【专利技术属性】
技术研发人员:叶东,肖岩,李晖,王日昆,孙兆伟,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。