一种基于知识库和深度学习的实体名称提取方法技术

技术编号:23149934 阅读:20 留言:0更新日期:2020-01-18 13:47
本发明专利技术涉及一种基于知识库和深度学习的实体名称提取方法,包括获得对待匹配实体进行描述的文本,将描述文本、外部知识库及两者的结合作为训练词和实体嵌入的文本集;使用词嵌入工具得到各个词和实体的嵌入式表达。建立深度学习网络,将嵌入式表达和外部现有知识库的文本表达作为输入,输出词m对应待匹配实体的概率,采集训练数据输入到建立好的深度学习网络中对深度学习网络模型进行训练,对待匹配文本,通过计算词w和实体之间的余弦相似度得到多个匹配候选项,最后将词w和匹配候选项输入到深度学习网络中,得到匹配概率。本发明专利技术较现有技术,可以基本实现端到端的自动化匹配,具有更好的匹配准确度和效率。

An entity name extraction method based on knowledge base and deep learning

【技术实现步骤摘要】
一种基于知识库和深度学习的实体名称提取方法
本专利技术涉及自然语言处理领域,尤其涉及一种基于知识库和深度学习的实体名称提取方法。
技术介绍
通常在新闻中提及某个实体时,描述文字与实体的标准名称会有一定相似性,某些时候使用标准名称的缩写,因此多数时候可以采用特定的相似度度量(如编辑距离等)去计算提及文字和实体名称之间的相似性,这是相对比较简单的情况。但某些情况下描述文字可能和多个不同实体对应,这就存在一个消除歧义的问题,经常需要用到上下文的语义,再结合备选实体本身的流行度进行可能性判断。最复杂的情况是文字提及和实体名称没有任何文字上的相似性,如我们经常在新闻中看到的“滴滴”,实际指代的企业主体名称为“北京小桔科技有限公司”,这需要有更多的上下文知识让二者关联起来。现有的技术方案主要包括:方案一:在正文中仅使用实体全名进行精确匹配,只有实体名称的完整出现才作为新闻中的提及标注。该技术方案存在不足是当实体名称足够长时,完整匹配基本可以保证100%的准确率,但由于大多数情况下新闻中都不会出现完整的全名,这种方法的召回率极低。方案二:采用手工标注,或者半自动生成加人工筛选的方式生成实体名称的常见简称,只要匹配完整名称或其中某个简称均视为对该实体的提及。该方案的缺点是召回率比第一种方法高,但生成简称的工作量极大,不管是采用手工或者半手工的方式。对于匹配简称的场景,不能保证100%的准确率,而且可能会出现多个类似实体有相同简称的情况。方案三:使用外部知识库建立实体的文档模型,将正文中的每个词作为关键词对这些实体组成的文本集进行检索,使用基本的向量空间模型、概率模型、主题模型等,将最相似的实体作为匹配对象。相对前两种方法更灵活,根据使用信息检索模型的不同,匹配的准确率和召回率也不一样。但一般来说,这种方法还是只能解决提及文本和实体知识库中有较多的重复关键词的情况,而且不能保证在有多个备选实体前提下正确进行消歧。正文中的每个词都这样进行匹配的计算复杂度较高,而且不容易划分提及和不提及实体文本的界限。如何提高实体的匹配准确率和效率成为自然语言处理领域亟需解决的问题。
技术实现思路
针对现有技术之不足,本专利技术提出一种基于深度学习的实体名称提取方法,其特征在于,所述方法包括:步骤1:对于待匹配实体E,在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本;步骤2:从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表,将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式,所述表示方式作为训练词和实体嵌入的文本集;步骤3:对所述文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达,再加上待匹配实体E的嵌入式表达作为其输入,输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率;步骤5:采集训练数据,包括带标注的公开数据集和采用人工标注的新闻文本集,取至少300个(m,E1)对,包括至少100个匹配的正样本,至少100个是实体提及但不匹配的负样本,至少100个不是实体提及的负样本;步骤6:将采集的训练数据输入到建立好的深度学习网络中进行训练,将其损失函数定义为交叉熵,使用随机梯度下降或Adam优化方法进行深度学习网络的训练,并设定神经网络训练的网络参数,得到训练好的深度学习模型;步骤7:对于从网络上获取的未标注文本集,首先对所述未标注文本集采用切词工具进行切分后得到词w,并获得词w的嵌入表达,将所述词w与每个实体E的嵌入表达计算余弦相似度:其中和分别为词w和实体E的嵌入向量表达,分子为两个同维度向量的内积,计算词w与每个实体E的相似度后,取至少6个相似度最高的(m,E)对作为匹配候选项,若最大相似度低于匹配阈值,则判定w不匹配任何实体,未标注文本集中的每一个词w都进行一轮匹配。步骤8:将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中,计算得到概率值最大且超过匹配阈值的实体作为所述描述文本对应的实体。根据一种优选的实施方式,步骤4建立深度学习网络的方法包括:步骤41:对于所述单词m,分别取其左边长度c的连续窗口[wlc,wlc-1,…,wl2,wl1,m]和右边长度c的连续窗口[m,wr1,wr2,…,wrc-1,wrc],作为其正向上下文数据和逆向上下文数据;步骤42:将所述正向上下文数据[wlc,wlc-1,…,wl2,wl1,m]输入一个采用长短时记忆单元的循环神经网络,序列长度为c+1,从左到右进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;步骤43:将所述逆向上下文数据[m,wr1,wr2,…,wrc-1,wrc]输入一个使用长短时记忆单元的循环神经网络,序列长度为c+1,从右到左进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;步骤44:取所述知识库中对于所述待匹配实体E的文本描述前n个词作为输入,输入一个采用长短时记忆单元的循环神经网络,序列长度为n,从左到右进行处理,每个时间点的输出采用最大池化方法提取其显著特征;步骤45:将步骤44输出的显著特征和所述待匹配实体E在步骤3中训练得到的嵌入式表达连接,作为所述待匹配实体E的向量化表征;步骤44的输出为一个向量,嵌入式表达也是一个向量,两个向量直接拼接在一起作为待匹配实体的向量化表征,比如一个30维向量和一个40维向量合并,得到一个70维向量。步骤46:基于所述向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制,并生成一个和为1的注意力向量,分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度,数值越大,相关度越高,以找到与所述待匹配实体E最相关的文字。步骤47:将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接,连接后输入多层全连接网络,最后用一个sigmoid函数输出所述词m对应所述待匹配实体E的概率。所述概率值在0-1之间;分值越大相关性越大。本专利技术的有益效果在于:1、本专利技术通过对外部实体知识库的合理利用,在统一的嵌入空间上建立了词和实体的嵌入向量,并采用双向LSTM网络、注意力机制结合的深度学习模型,有效利用新闻中的上下文和知识库中的实体描述信息,提高了实体名称提取的准确度。2、本专利技术技术方案除了部分训练集标注的工作需要人工完成外,整个深度学习模型的训练、优化和标注可以实现端到端自动化完成,并能获得比传统方法更好的效果,尤其是对于文中描述和实体名称没有文字重叠的情况。附图说明图1是本专利技术技术方案的方法原理图;和图2是建立深度学习网络的原理示意图。<本文档来自技高网
...

【技术保护点】
1.一种基于知识库和深度学习的实体名称提取方法,其特征在于,所述方法包括:/n步骤1:对于待匹配实体E,在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本;/n步骤2:从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表,将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式,所述表示方式作为训练词和实体嵌入的文本集;/n步骤3:对所述文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;/n步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达,再加上待匹配实体E的嵌入式表达作为其输入,输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率;/n步骤5:采集训练数据,包括带标注的公开数据集和采用人工标注的新闻文本集,取至少300个(m,E1)对,包括至少100个匹配的正样本,至少100个是实体提及但不匹配的负样本,至少100个不是实体提及的负样本;/n步骤6:将采集的训练数据输入到建立好的深度学习网络中进行训练,将其损失函数定义为交叉熵,使用随机梯度下降或Adam优化方法进行深度学习网络的训练,并设定神经网络训练的网络参数,得到训练好的深度学习模型;/n步骤7:对于从网络上获取的未标注文本集,首先对所述未标注文本集采用切词工具进行切分后得到词w,并获得词w的嵌入表达,将所述词w与每个待匹配实体E的嵌入表达计算余弦相似度:/n...

【技术特征摘要】
1.一种基于知识库和深度学习的实体名称提取方法,其特征在于,所述方法包括:
步骤1:对于待匹配实体E,在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本;
步骤2:从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表,将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式,所述表示方式作为训练词和实体嵌入的文本集;
步骤3:对所述文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;
步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达,再加上待匹配实体E的嵌入式表达作为其输入,输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率;
步骤5:采集训练数据,包括带标注的公开数据集和采用人工标注的新闻文本集,取至少300个(m,E1)对,包括至少100个匹配的正样本,至少100个是实体提及但不匹配的负样本,至少100个不是实体提及的负样本;
步骤6:将采集的训练数据输入到建立好的深度学习网络中进行训练,将其损失函数定义为交叉熵,使用随机梯度下降或Adam优化方法进行深度学习网络的训练,并设定神经网络训练的网络参数,得到训练好的深度学习模型;
步骤7:对于从网络上获取的未标注文本集,首先对所述未标注文本集采用切词工具进行切分后得到词w,并获得词w的嵌入表达,将所述词w与每个待匹配实体E的嵌入表达计算余弦相似度:



其中和分别为词w和待匹配实体E的嵌入向量表达,分子为两个同维度向量的内积,计算词w与每个实体E的相似度后,取至少6个相似度最高的(m,E)对作为匹配候选项,若最大相似度低于匹配阈值,则判定w不匹配任何实体,未标注文本集中的每一个词w都进行一轮匹配;
步骤8:将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中,计算得到概率值最大且超过匹配阈值的实体作为所述描述文本对应的实体。...

【专利技术属性】
技术研发人员:冯翱陈郑淏吴锡
申请(专利权)人:成都信息工程大学成都智睿通拓科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1