The invention relates to a method for constructing knowledge map, mining entity extraction and relationship based on rule model step: climb data Wikipedia knowledge base the target field, and the definition of food, pesticide and nutrient and pest class dictionary, for rule mining; step two: go to the HTML label on Wikipedia the data acquisition Chinese text and get the URL link for subsequent processing; step three: by adding the attribute relationship between manual annotation, to obtain more complete entity attribute information; step four: the event of acquisition and mapping relationship established. The text information into the word vector mathematical information, then the vector similarity comparison, and according to the relationship between numbers, to mark the relationship between entities, to show the core knowledge base in the field for the user, and improve the quality of the search, the process from simple string to the real understanding.
【技术实现步骤摘要】
基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
本专利技术涉及一种知识图谱构建方法,具体涉及一种基于规则模型的实体提取与关系挖掘构建知识图谱的方法,属于自然语言处理中的数据挖掘的
技术介绍
近两年来,随着LinkingOpenData1等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(DocumentWeb)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(DataWeb)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为KnowledgeGraph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。正是由于巨大的数据量,无法知道这些数据之间的关系,以及主要是做什么的,知识图谱得以快速发展,最主要的是简化搜索问答,领域知识图谱能够快速带入你了解该领域,知识图谱上的推理,预测等,可以挖掘出潜在的信息价值。现有技术的实体识别以及关系抽取主要针对时间、地点、人物、机构等七大类抽取效果较好,准确率不是很高,构建图谱周期较长。对特定领域的实体抽取与关系挖 ...
【技术保护点】
一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,特征在于:该方法包括下列步骤:步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。
【技术特征摘要】
1.一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,特征在于:该方法包括下列步骤:步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。2.根据权利要求1所述的基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,特征在于:其中所述步骤二具体如下:2.1.将文档转化成UTF-8编码;2.2.去除文档中的标点符号并正则解析,记录URL数;2.3.对文档进行分词处理;2.4.获得文档词的词向量;2.5.对获取的词向量进行相似计算,并绑定对应文档的URL集合、后续关系融合以及关系获取提供权值,取TOP3在通过word2vec的向量运算后,得到向量E1(w1,w2,w3,w4,…,wn),E2(w1,w2,w3,w4,…,wn),…,En(w1,w2,w3,w4,…,wn),其中Ei表示文档实体,wi表示向量所在维数的值,进而计算目标词与目标词文档中的其他词的相似度,该相似度用来表示目标词与目标词文档中的其他词具有相关性,并作为图谱中的连接关系,取TOP3,其中相似度的计算采用常用的N维向量相似度计算:
【专利技术属性】
技术研发人员:段大高,赵宁,韩忠明,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。