一种基于句法依赖的实体属性信息抽取方法及装置制造方法及图纸

技术编号:17796684 阅读:59 留言:0更新日期:2018-04-25 20:10
本发明专利技术公开了一种基于句法依赖的实体属性信息抽取方法及装置,该方法首先对待抽取文本进行预处理,得到待抽取文本实体;然后根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,根据词性关系得到待抽取文本实体的候选属性信息;搜索待抽取文本实体与候选属性信息的词语之间的最短路径,将最短路径上经过的词语组成关联信息词语集合;最后计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。本发明专利技术将自然语言处理技术和图论模型相结合,解决文本信息的歧义性,提高了文本抽取准确率;利用关键词的语义相似度,自动归纳抽象信息的属性,提高了抽取效率。

A method and device for extracting entity attribute information based on syntactic dependency

This invention discloses a method and device for extracting entity attribute information based on syntactic dependency. This method first treats the extracted text to be preprocessed and gets the text entity to be extracted. Then, according to the syntactic dependence and the word relationship of the text to be extracted, the undirected graph between words is set up, and the word relationship will be extracted. The shortest path between the words of the text entity and the candidate attribute information is searched by the search for the candidate attribute information of the text entity, and the words in the shortest path are composed of the association information words. Finally, the semantic similarity between each attribute in the attribute set and the set of related information words is calculated, and the entity belongs to the entity. Integration of entity, entity attributes and attribute information as final extraction results. The invention combines the Natural Language Processing technology and the graph theory model to solve the ambiguity of text information, improve the accuracy of text extraction, and use the semantic similarity of the key words to automatically induce the attribute of abstract information and improve the extraction efficiency.

【技术实现步骤摘要】
一种基于句法依赖的实体属性信息抽取方法及装置
本专利技术涉及自然语言处理
,特别涉及一种基于句法依赖的实体属性信息抽取方法及装置。
技术介绍
随着互联网应用的迅猛发展,网络上的蕴含的网页和文本数量也呈指数型增长,如何从这些海量的网页和文本中抽取有效实用的信息,成为目前工业界和学术界研究和开发的热点。目前,基于结构化文本的信息抽取已经取得了巨大的进展,并且得到了广泛的应用。然而,由于非结构化的自由文本的呈现形式复杂多变、杂乱无章,以及文本语义的多样性和歧义性,再加之文本中存在大量无效和干扰的文字图片等信息,进一步增加了自由文本信息抽取的难度,使得实体属性信息抽取效果不佳,且包含大量的错误,因此文本信息抽取仍然是一项具有挑战性的工作。现有文本信息抽取方法,主要分为以下两类:1、基于数据挖掘的信息抽取。该方法主要通过对海量数据进行统计,对文本信息进行分析处理,建立信息抽取模板,从而提取数据中的实体属性信息。但由于该方法需要事先配置大量的抽取模板,抽取效率较低,且缺乏对文本语义信息的理解,因此得到的结果中包含大量的错误信息,导致抽取结果的准确率不佳。2、基于自然语言处理的信息抽取。该方本文档来自技高网...
一种基于句法依赖的实体属性信息抽取方法及装置

【技术保护点】
一种基于句法依赖的实体属性信息抽取方法,其特征在于,包括以下过程:步骤1:根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。

【技术特征摘要】
1.一种基于句法依赖的实体属性信息抽取方法,其特征在于,包括以下过程:步骤1:根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。2.根据权利要求1所述的基于句法依赖的实体属性信息抽取方法,其特征在于,所述对待抽取文本进行预处理,得到待抽取文本实体,具体包括以下过程:步骤1.1:利用分词工具对待抽取文本进行处理,得到该文本分词后的词语集合;步骤1.2:对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;步骤1.3:依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体。3.根据权利要求2所述的基于句法依赖的实体属性信息抽取方法,其特征在于,所述步骤2具体包括以下过程:步骤2.1:根据待抽取文本的词语集合和词性集合,构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图;步骤2.2:根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息;步骤2.3:分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过最短路径算法得到长度最短的可达路径,并将其作为实体与属性信息的关联路径;步骤2.4:根据实体与属性信息的关联路径,对路径上经过的词语进行过滤处理,得到具有实际含义的关联信息词语集合。4.根据权利要求3所述的基于句法依赖的实体属性信息抽取方法,其特征在于,步骤3具体包括以下过程:步骤3.1:为实体与属性信息自定义一系列属性,形成属性集合,属性集合中的每个属性都包括若干个关键词;步骤3.2:依次计算每个属性与关联信息词语集合之间的相似度,公式为:其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,i表示关联词语集合Wr中任意一个词语,j表示属性Pk对应的任意一个关键词,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合中任意一个词语,Pkj表示任意一个属性中的任意一个词语,word2vec(*)表示使用Google开源的Word2Vec模型,可将任意词语转化为对应词向量;步骤3.3:从属性集合中选取与关联信息词语集合相似度最大的属性,作为待抽取文本实体与关联信息词语集合的候选实体属性;步骤3.4:将候选实体属性的相似度与预设阈值进行比较;低于预设阈值的候选实体属性,进行过滤;等于或高于预设阈值的候选实体属性,则为具有实...

【专利技术属性】
技术研发人员:郭建京彭建辉
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1