基于规则模型的实体抽取与关系挖掘构建知识图谱的方法技术

技术编号:15690971 阅读:127 留言:0更新日期:2017-06-24 03:47
本发明专利技术涉及一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。本发明专利技术将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,为用户展现出该领域的核心知识库,并提高优化搜索质量,实现了从简单字符串到实体理解的过程。

Method for constructing knowledge map based on rule model entity extraction and relation mining

The invention relates to a method for constructing knowledge map, mining entity extraction and relationship based on rule model step: climb data Wikipedia knowledge base the target field, and the definition of food, pesticide and nutrient and pest class dictionary, for rule mining; step two: go to the HTML label on Wikipedia the data acquisition Chinese text and get the URL link for subsequent processing; step three: by adding the attribute relationship between manual annotation, to obtain more complete entity attribute information; step four: the event of acquisition and mapping relationship established. The text information into the word vector mathematical information, then the vector similarity comparison, and according to the relationship between numbers, to mark the relationship between entities, to show the core knowledge base in the field for the user, and improve the quality of the search, the process from simple string to the real understanding.

【技术实现步骤摘要】
基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
本专利技术涉及一种知识图谱构建方法,具体涉及一种基于规则模型的实体提取与关系挖掘构建知识图谱的方法,属于自然语言处理中的数据挖掘的

技术介绍
近两年来,随着LinkingOpenData1等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(DocumentWeb)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(DataWeb)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为KnowledgeGraph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。正是由于巨大的数据量,无法知道这些数据之间的关系,以及主要是做什么的,知识图谱得以快速发展,最主要的是简化搜索问答,领域知识图谱能够快速带入你了解该领域,知识图谱上的推理,预测等,可以挖掘出潜在的信息价值。现有技术的实体识别以及关系抽取主要针对时间、地点、人物、机构等七大类抽取效果较好,准确率不是很高,构建图谱周期较长。对特定领域的实体抽取与关系挖掘起不到好的效果,本专利技术为了解决现有技术缺陷提出了基于规则模型的实体抽取与关系挖掘构建知识图谱的方法。能够快速构建特定领域的知识图谱,准确率高。
技术实现思路
本专利技术目的是提供一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,在拥有大量的文本信息后,通过构建一定规则能够快速、有效地建立该领域的知识图谱,进而有助于其它部门的下一步工作,如在图谱上的潜在信息挖掘。本专利技术的原理:构建知识图谱的过程分为四个阶段:第一个阶段:目标领域知识库获取。第二个阶段:对目标领域的实体进行定义,实体识别,实体抽取。具体步骤包括:对于第一阶段的知识库,进行实体识别,具体就是定义几种实体,目前大众的实体识别都是识别出文本的人名、地名、机构名等,本专利技术采用自定义字典规则的方法进行实体识别,并获取相应词向量,效果明显。第三个阶段:实体事件的获取,实体事件获取难度大,采用实体关系词对相关新闻进行抽取,进而提取事件名称,对识别出的实体进行特定关系的抽取,需要结合领域知识。对实体的属性打标签,进而获取目标实体的属性,目的是构建实体之间的关系网络形成图谱。第四步:实体融合主要就是简称与全称的融合,以及知识图谱的融合。本专利技术的一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,如图1所示,包括下列步骤:步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类等字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理。具体步骤如下:2.1.将文档转化成UTF-8编码;2.2.去除文档中的标点符号并正则解析,记录URL数;2.3.对文档进行分词处理;2.4.获得文档词的词向量;2.5.对获取的词向量进行相似计算,并绑定对应文档的URL集合、后续关系融合以及关系获取提供权值,取TOP3在通过word2vec的向量运算后,得到向量E1(w1,w2,w3,w4,…,wn),E2(w1,w2,w3,w4,…,wn),…,En(w1,w2,w3,w4,…,wn),其中Ei表示文档实体,wi表示向量所在维数的值,进而计算目标词与目标词文档中的其他词的相似度,该相似度用来表示目标词与目标词文档中的其他词具有相关性,并作为图谱中的连接关系,取TOP3,其中相似度的计算采用常用的N维向量相似度计算:公式说明:Distance(A,B):表示函数处理A,B两者之间的余弦夹角,返回夹角值,便于排序;A:表示当前文档的实体名,如处理西瓜文档时,当前A就表示西瓜的词向量;B:表示当前文档的其他词向量;Ai,Bi:表示对应词的词向量;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息,具体步骤如下:3.1.定义可能的关系信息,可能的关系信息越多则获取的属性信息有可能更多;3.2.关联过后进行部分人工较对;步骤四:对事件的获取以及图谱关系建立,具体步骤如下:4.1.假设实体词有{E1,E2,...,En},接下来进行相关事件的爬取工作,采用关键词爬取相关事件HTML,进行解析,获取事件。4.2对于实体属性图谱获取,以及事件获取,需要实体间的消岐以及融合,说明如下:4.2.1目前所做的是简称以及全称的实体融合(即实体名称的简称与全称建立映射关系)。在图谱中只存在一种实体名称(简称或全称),根据映射关系对图谱数据融合时,进行实体的消岐(即图谱中实体名称的统一)。外部访问时,通过关系映射,获取实体的图谱信息(意思就是外部不论输入简称还是全称,其返回的图谱是不变的,因为有映射关系的存在)例如:如西瓜的喷洒农药有:甲草胺,灭草胺,拉索,通过百科数据可知,灭草胺,拉索也是甲草胺,只是存在名称不一样;建立灭草胺,拉索、甲草胺的映射关系,图谱中只存在甲草胺,但外部即使访问到灭草胺,也能获得甲草胺的图谱信息。本专利技术的一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,其优点及功效在于:本专利技术旨在构造特定领域的知识图谱,将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,为用户展现出该领域的核心知识库,并提高优化搜索质量,实现了从简单字符串到实体理解的过程。附图说明图1所示为本专利技术方法的整体流程图。图2所示为本专利技术实施例步骤2.2中网页的文本信息存入到指定文档中的示意图。图3所示为本专利技术实施例步骤2.3中文档分词结果示意图。图4所示为本专利技术实施例步骤2.4中将训练文档中词的词向量保存成文本文件的示意图。图5所示为本专利技术实施例步骤2.5计算与西瓜实体词向量最相似的词作为西瓜的外链接的计算结果。图6所示为本专利技术实施例步骤三处理结果。图7所示为本专利技术实施例步骤4.1对进行实体与事件的抽取结果。图8所示为本专利技术实施例步骤4.2对获取与目标实体更近的实体的处理结果。图9所示为本专利技术实施例步骤4.3对实体的简称与全称的映射关系抽取结果。具体实施方式下面结合附图和具体实施例,对本专利技术的技术方案做进一步的说明。本专利技术一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,具体实施步骤如下(以食品安全知识图谱构建为例):步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类等字典,便于规则挖掘:(1)根据国家食品标准分类,农药分类、以及营养物质、果蔬所可能的病虫害,爬取相关百科数据以及人工参与来构建字典,并建立部分简称与全称的映射关系。(2)根据目标字典,定向爬取食品的实体百科数据,提供知识图谱数据支撑。步骤二:对百科类数据处理,获取中文文本信息并计算URL的个数,便于后续处理。具体步骤如下:2本文档来自技高网
...
基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

【技术保护点】
一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,特征在于:该方法包括下列步骤:步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。

【技术特征摘要】
1.一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,特征在于:该方法包括下列步骤:步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。2.根据权利要求1所述的基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,特征在于:其中所述步骤二具体如下:2.1.将文档转化成UTF-8编码;2.2.去除文档中的标点符号并正则解析,记录URL数;2.3.对文档进行分词处理;2.4.获得文档词的词向量;2.5.对获取的词向量进行相似计算,并绑定对应文档的URL集合、后续关系融合以及关系获取提供权值,取TOP3在通过word2vec的向量运算后,得到向量E1(w1,w2,w3,w4,…,wn),E2(w1,w2,w3,w4,…,wn),…,En(w1,w2,w3,w4,…,wn),其中Ei表示文档实体,wi表示向量所在维数的值,进而计算目标词与目标词文档中的其他词的相似度,该相似度用来表示目标词与目标词文档中的其他词具有相关性,并作为图谱中的连接关系,取TOP3,其中相似度的计算采用常用的N维向量相似度计算:

【专利技术属性】
技术研发人员:段大高赵宁韩忠明
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1