当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于知识库特征抽取的命名实体链接方法技术

技术编号:18497370 阅读:8 留言:0更新日期:2018-07-21 20:18
本发明专利技术公开了一种基于知识库特征抽取的命名实体链接方法。该方法包括如下步骤:(1)从Freebase data dump中抽取具有指定特征的三元组条目,形成关系数据表,存入知识库;(2)设计复杂的规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体;(3)采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对上述特征进行Embedding化;(4)将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。本发明专利技术结合了基于复杂规则的候选生成技术和基于统计学习的候选排序技术,针对特定类型的命名实体,建立了一套适用于实体链接的处理框架,方便用户使用批处理的方式获取实体链接的结果。

A named entity linking method based on knowledge base feature extraction

The invention discloses a named entity linking method based on knowledge base feature extraction. The method includes the following steps: (1) extracting three tuple items with specified features from Freebase data dump, forming relational data tables and storing knowledge base; (2) designing complex rules, searching for a number of Freebase Object which are closely related to entities in the knowledge base as candidate entities; (3) using statistics based parties. Method, design and extract the entity to refer to the features of its candidate entity, and Embedding the above features; (4) the Embedding of the extracted feature is used as the input of a multi-layer neural network to obtain the probability of each candidate entity as the target entity, and return the Freebase MID of the candidate entity with the highest probability. The invention combines the candidate generation technology based on complex rules and the candidate sorting technology based on statistical learning. A set of processing frameworks suitable for entity links is established for specific type named entities, so that users can use batch processing to obtain the results of entity links.

【技术实现步骤摘要】
一种基于知识库特征抽取的命名实体链接方法
本专利技术涉及自然语言处理,尤其涉及一种基于知识库特征抽取的命名实体链接方法。
技术介绍
自然语言处理(NatureLanguageProcessing,简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体链接(NamedEntityLinking,简称NEL)是自然语言处理中的一项基本任务,旨在对文本中具有歧义的提及(mention)进行消歧,并链接到知识库中。随着信息抽取和大数据概念的兴起,命名实体链接任务日益受到人们重视,已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地链接到目标实体,逐渐成为了学术界和工业界关注的热点问题。传统的非协同方法在衡量候选实体与提及上下文间的匹配程度方面,做法不一,已经有许多种不同的尝试。这些方法一般都是在内容方面比较提及上下文和知识库中对候选实体的文本描述,认为如果候选实体的文本描述与提及上下文在内容方面越吻合,该实体是目标实体的可能性也就越大。这种方法的缺陷在于只考虑了文章间的相似度,而没有考虑其他方面的信息,结果的准确率比较低。还有一些协同的方法,需要根据知识库计算实体间的相关性,将所有实体和提及构建一个无向图,然后利用PageRank的方法得到目标实体。这种方法考虑了全局的信息,但需要进行大量的计算,运行时间比较久。近年来深度学习方法流行,其在自然语言处理领域的应用也取得了不少的成果。面对传统方法的不足,通过手动提取少量重要的特征,然后通过多层的神经网络对实体和提及的匹配程度打分,在大量数据的训练下已经取得了很好的效果。
技术实现思路
本专利技术的目的是为了对自然文本中的提及进行消歧,并将其链接到知识库中,以得到有效的文本信息,提出一种基于知识库特征抽取的命名实体链接方法。基于知识库特征抽取的命名实体链接方法,包括以下步骤:S1:从Freebasedatadump中抽取具有目标特征的三元组条目,形成关系数据表,存入知识库;S2:设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体;S3:采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对抽取到的特征进行Embedding化;S4:将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的FreebaseMID。上述各步骤可具体采用如下实现方式:S1中所述的从Freebasedatadump中抽取具有目标特征的三元组条目,形成关系数据表,存入知识库的步骤如下:S11:根据不同谓词抽取实体类型、实体名称、实体ID以及实体重定向信息,分别形成关系表ObjectType、ObjectName、WikiID和WikiRedirect并存入MySQL数据库中;S12:抽取主体和客体均为MID的三元组,并统计每个MID出现的次数,形成关系表NodeHot存入MySQL数据库中;S13:利用关系表ObjectType,将实体提及类型和FreebaseObject类型建立一对多的映射关系,根据实体提及PER、ORG、GPE、LOC以及FAC的五种类型,形成PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType五张关系表并存入MySQL数据库中。S2中所述的设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体的步骤如下:S21:将实体提及的名称进行查询扩展,使用的扩展包括字符子串扩展、缩略词扩展、中英文扩展、国家民族扩展、指代扩展和中文繁简扩展;S22:读取实体提及的类型,在关系表PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType的约束下,在MySQL数据库中对实体提及的扩展查询词进行全词匹配式检索,并将查询所得的MID加入到候选实体列表中;S23:在重定向关系表WikiRedirect中,对实体提及的扩展查询词进行检索,将查询所得的MID加入到候选实体列表中;S24:对实体提及进行消歧扩展,利用Wikipedia消歧目录资源,将消歧所得的MID加入到候选实体列表中;S25:对Wikipedia各页面的标题、首段、上下文分别建立Lucene索引,利用Wikipedia标题和首段的Lucene索引,对实体提及进行模糊检索,将相似度前10的MID直接加入候选实体列表,并取相似度前100的MID聚成集合E1;利用Wikipedia上下文的Lucene索引,对实体提及所在的上下文进行模糊检索,将相似度前100的MID形成集合E2,最后将E1∩E2加入到候选实体列表;S26:将S22~S25获得的提及的候选实体列表记为{e1,e1,...,eK},K为候选实体个数。S3中所述的采用基于统计的方法,设计并抽取实体提及与其候选实体的特征并对上述特征进行Embedding化包含以下步骤::S31:实体提及与候选实体的Embedding化:以Wikipediadatadump作为语料库,整理获得词表V,采用word2vec方法训练并获得均为100维的字向量列表,则实体提及和其候选实体的词向量为所有字向量的平均向量;S32:实体提及类型与候选实体类型的特征提取:基于关系表ObjectType,获取候选实体的FreebaseObject类型,并根据S13所建立的五张提及类型映射关系表,得到该候选实体所属的提及类型,然后分别用一个5维向量表示实体提及和候选实体的类型特征,每一维根据是否包含该类型用1或者0表示;S33:实体热度的Embedding化:基于关系表NodeHot,对表内的热度值进行归一化处理,并将数值离散化为10维的向量表示;S34:文档相似度计算:采用基于TF-IDF的词袋模型计算实体提及所处的上下文与候选实体所关联的Wikipedia页面的相似度,每个字的TF-IDF值具体计算如下:其中,N为文档总数,nw表示字w在文章中出现的总次数。在基于TF-IDF的词袋模型中,每篇文章表示为向量vdoc=[v1,v2,...,v|V|],其中向量的每一维表示一个字的TF-IDF值,|V|表示每篇文章的字总数;两篇文章的相似度计算的公式如下:最后,计算结果经离散化处理,得到一个10维向量。S4中所述的将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的FreebaseMID包含以下步骤:S41:将S3中抽取特征的Embedding拼接成一体,并作为输入,记为x,x∈R230;S42:将x作为三层全连接神经网络的输入进行计算,每一层的计算公式依次如下所示:h1=reLU(W1x)h2=reLU(W2h1)s=W3h2+b其中,h1、h2、s分别是第一层、第二层、第三层神经网络的输出;W1∈R256×230,W2∈R128×256,W3∈R1×128分别是第一层、第二层、第三层神经网络的权重参数,b为常数,b∈R;reLU为几率函数;S43:将S42中神经网络输出的结果即每个候本文档来自技高网
...

【技术保护点】
1.一种基于知识库特征抽取的命名实体链接方法,其特征在于包括以下步骤:S1:从Freebase data dump中抽取具有目标特征的三元组条目,形成关系数据表,存入知识库;S2:设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体;S3:采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对抽取到的特征进行Embedding化;S4:将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。

【技术特征摘要】
1.一种基于知识库特征抽取的命名实体链接方法,其特征在于包括以下步骤:S1:从Freebasedatadump中抽取具有目标特征的三元组条目,形成关系数据表,存入知识库;S2:设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体;S3:采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对抽取到的特征进行Embedding化;S4:将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的FreebaseMID。2.根据权利要求1所述的一种基于知识库特征抽取的命名实体链接方法,其特征在于S1中所述的从Freebasedatadump中抽取具有目标特征的三元组条目,形成关系数据表,存入知识库的步骤如下:S11:根据不同谓词抽取实体类型、实体名称、实体ID以及实体重定向信息,分别形成关系表ObjectType、ObjectName、WikiID和WikiRedirect并存入MySQL数据库中;S12:抽取主体和客体均为MID的三元组,并统计每个MID出现的次数,形成关系表NodeHot存入MySQL数据库中;S13:利用关系表ObjectType,将实体提及类型和FreebaseObject类型建立一对多的映射关系,根据实体提及PER、ORG、GPE、LOC以及FAC的五种类型,形成PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType五张关系表并存入MySQL数据库中。3.根据权利要求1所述的一种基于知识库特征抽取的命名实体链接方法,其特征在于S2中所述的设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体的步骤如下:S21:将实体提及的名称进行查询扩展,使用的扩展包括字符子串扩展、缩略词扩展、中英文扩展、国家民族扩展、指代扩展和中文繁简扩展;S22:读取实体提及的类型,在关系表PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType的约束下,在MySQL数据库中对实体提及的扩展查询词进行全词匹配式检索,并将查询所得的MID加入到候选实体列表中;S23:在重定向关系表WikiRedirect中,对实体提及的扩展查询词进行检索,将查询所得的MID加入到候选实体列表中;S24:对实体提及进行消歧扩展,利用Wikipedia消歧目录资源,将消歧所得的MID加入到候选实体列表中;S25:对Wikipedia各页面的标题、首段、上下文分别建立Lucene索引,利用Wikipedia标题和首段的Lucene索引,对实体提及进行模糊检索,将相似度前10的MID直接加入候选实体列表,并取相似度前100的MID聚成集合E1;利用Wikipedia上下文的Lucene索引,...

【专利技术属性】
技术研发人员:汤斯亮杨希远林升陈博吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1