一种基于知识库特征抽取的命名实体链接方法技术

技术编号：18497370 阅读：58 留言：0更新日期：2018-07-21 20:18

本发明专利技术公开了一种基于知识库特征抽取的命名实体链接方法。该方法包括如下步骤：(1)从Freebase data dump中抽取具有指定特征的三元组条目，形成关系数据表，存入知识库；(2)设计复杂的规则，在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体；(3)采用基于统计的方法，设计并抽取实体提及与其候选实体的特征，并对上述特征进行Embedding化；(4)将抽取特征的Embedding作为一个多层的神经网络的输入，获取每个候选实体为目标实体的概率，并返回概率最高的候选实体的Freebase MID。本发明专利技术结合了基于复杂规则的候选生成技术和基于统计学习的候选排序技术，针对特定类型的命名实体，建立了一套适用于实体链接的处理框架，方便用户使用批处理的方式获取实体链接的结果。

A named entity linking method based on knowledge base feature extraction

The invention discloses a named entity linking method based on knowledge base feature extraction. The method includes the following steps: (1) extracting three tuple items with specified features from Freebase data dump, forming relational data tables and storing knowledge base; (2) designing complex rules, searching for a number of Freebase Object which are closely related to entities in the knowledge base as candidate entities; (3) using statistics based parties. Method, design and extract the entity to refer to the features of its candidate entity, and Embedding the above features; (4) the Embedding of the extracted feature is used as the input of a multi-layer neural network to obtain the probability of each candidate entity as the target entity, and return the Freebase MID of the candidate entity with the highest probability. The invention combines the candidate generation technology based on complex rules and the candidate sorting technology based on statistical learning. A set of processing frameworks suitable for entity links is established for specific type named entities, so that users can use batch processing to obtain the results of entity links.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识库特征抽取的命名实体链接方法
本专利技术涉及自然语言处理，尤其涉及一种基于知识库特征抽取的命名实体链接方法。
技术介绍
自然语言处理(NatureLanguageProcessing，简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体链接(NamedEntityLinking，简称NEL)是自然语言处理中的一项基本任务，旨在对文本中具有歧义的提及(mention)进行消歧，并链接到知识库中。随着信息抽取和大数据概念的兴起，命名实体链接任务日益受到人们重视，已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地链接到目标实体，逐渐成为了学术界和工业界关注的热点问题。传统的非协同方法在衡量候选实体与提及上下文间的匹配程度方面，做法不一，已经有许多种不同的尝试。这些方法一般都是在内容方面比较提及上下文和知识库中对候选实体的文本描述，认为如果候选实体的文本描述与提及上下文在内容方面越吻合，该实体是目标实体的可能性也就越大。这种方法的缺陷在于只考虑了文章间的相似度，而没有考虑其他方面的信息，结果的准确率比较低。还有一些协同的方法，需要根据知识库计算实体间的相关性，将所有实体和提及构建一个无向图，然后利用PageRank的方法得到目标实体。这种方法考虑了全局的信息，但需要进行大量的计算，运行时间比较久。近年来深度学习方法流行，其在自然语言处理领域的应用也取得了不少的成果。面对传统方法的不足，通过手动提取少量重要的特征，然后通过多层的神经网络对实体和提及的匹配程度打分，在大量数据...

【技术保护点】
1.一种基于知识库特征抽取的命名实体链接方法，其特征在于包括以下步骤：S1：从Freebase data dump中抽取具有目标特征的三元组条目，形成关系数据表，存入知识库；S2：设计搜寻规则，在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体；S3：采用基于统计的方法，设计并抽取实体提及与其候选实体的特征，并对抽取到的特征进行Embedding化；S4：将抽取特征的Embedding作为一个多层的神经网络的输入，获取每个候选实体为目标实体的概率，并返回概率最高的候选实体的Freebase MID。

【技术特征摘要】
1.一种基于知识库特征抽取的命名实体链接方法，其特征在于包括以下步骤：S1：从Freebasedatadump中抽取具有目标特征的三元组条目，形成关系数据表，存入知识库；S2：设计搜寻规则，在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体；S3：采用基于统计的方法，设计并抽取实体提及与其候选实体的特征，并对抽取到的特征进行Embedding化；S4：将抽取特征的Embedding作为一个多层的神经网络的输入，获取每个候选实体为目标实体的概率，并返回概率最高的候选实体的FreebaseMID。2.根据权利要求1所述的一种基于知识库特征抽取的命名实体链接方法，其特征在于S1中所述的从Freebasedatadump中抽取具有目标特征的三元组条目，形成关系数据表，存入知识库的步骤如下：S11：根据不同谓词抽取实体类型、实体名称、实体ID以及实体重定向信息，分别形成关系表ObjectType、ObjectName、WikiID和WikiRedirect并存入MySQL数据库中；S12：抽取主体和客体均为MID的三元组，并统计每个MID出现的次数，形成关系表NodeHot存入MySQL数据库中；S13：利用关系表ObjectType，将实体提及类型和FreebaseObject类型建立一对多的映射关系，根据实体提及PER、ORG、GPE、LOC以及FAC的五种类型，形成PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType五张关系表并存入MySQL数据库中。3.根据权利要求1所述的一种基于知识库特征抽取的命名实体链接方法，其特征在于S2中所述的设计搜寻规则，在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体的步骤如下：S21：将实体提及的名称进行查询扩展，使用的扩展包括字符子串扩展、缩略词扩展、中英文扩展、国家民族扩展、指代扩展和中文繁简扩展；S22：读取实体提及的类型，在关系表PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType的约束下，在MySQL数据库中对实体提及的扩展查询词进行全词匹配式检索，并将查询所得的MID加入到候选实体列表中；S23：在重定向关系表WikiRedirect中，对实体提及的扩展查询词进行检索，将查询所得的MID加入到候选实体列表中；S24：对实体提及进行消歧扩展，利用Wikipedia消歧目录资源，将消歧所得的MID加入到候选实体列表中；S25：对Wikipedia各页面的标题、首段、上下文分别建立Lucene索引，利用Wikipedia标题和首段的Lucene索引，对实体提及进行模糊检索，将相似度前10的MID直接加入候选实体列表，并取相似度前100的MID聚成集合E1；利用Wikipedia上下文的Lucene索引，...

【专利技术属性】
技术研发人员：汤斯亮，杨希远，林升，陈博，吴飞，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人