一种基于实体上下文语义交互的实体链接方法技术

技术编号:24938982 阅读:34 留言:0更新日期:2020-07-17 21:08
本发明专利技术涉及数据处理技术领域,本发明专利技术公开了一种基于实体上下文语义交互的实体链接方法,结合待链接实体的上下文信息和知识库实体的属性描述信息,采用Transformer结构编码知识库实体文本,采用LSTM网络编码查询实体文本,并对知识库实体文本和查询实体文本的语义编码采用细粒度词级注意力交互来捕捉文本局部相似信息。本发明专利技术在利用LSTM和Transformer网络分别编码两段文本的基础上,增加了词级别细粒度语义特征交互,丰富了文本的细节语义特征,在验证集和测试集上达到了89.1%和88.5%的准确率,分别超过了目前主流的实体链接编码模型CNN和LSTM网络2.1%和1.7%,表明了本发明专利技术的实体链接方法的有效性。

【技术实现步骤摘要】
一种基于实体上下文语义交互的实体链接方法
本专利技术涉及数据处理
,尤其涉及一种基于实体上下文语义交互的实体链接方法。
技术介绍
实体链接是将自然语言中的实体指称映射到知识库中正确的候选实体的过程。非结构化的自然语言表述往往存在大量模糊和不规范的表达,在医疗领域,这种多样性和歧义性更为常见。比如,“丁香蓼”既可指治疗肺热咳嗽等病的中药,也可指柳叶菜科的植物,作为植物,也被称为“小石榴树”、“小石榴叶”、“小疗药”等。准确理解文本中指称所指代的具体实体并将实体和已有知识库实体正确链接可极大提高信息检索、基于知识库的问答等任务的效果。传统实体链接方法主要有基于字串匹配方法和基于相似特征分类或排序的方法,这两种方法只能提取文本表面的浅层特征,不能表示实体指称真正的语义信息,效果不佳,还耗费人力。特别是针对同名实体消歧,利用字面相似特征根本无法找到同名实体的不同指称,对于这类同名实体,往往还需要结合上下文语义信息来综合判断。基于深度学习的实体链接方法则是利用文本语义信息来判断。将实体指称和候选实体上下文转换成向量的形式,利用神经网络训练并本文档来自技高网...

【技术保护点】
1.一种基于实体上下文语义交互的实体链接方法,其特征在于,结合待链接实体的上下文信息和知识库实体的属性描述信息,采用Transformer结构编码知识库实体文本,采用LSTM网络编码查询实体文本,并对知识库实体文本和查询实体文本的语义编码采用细粒度词级注意力交互来捕捉文本局部相似信息。/n

【技术特征摘要】
1.一种基于实体上下文语义交互的实体链接方法,其特征在于,结合待链接实体的上下文信息和知识库实体的属性描述信息,采用Transformer结构编码知识库实体文本,采用LSTM网络编码查询实体文本,并对知识库实体文本和查询实体文本的语义编码采用细粒度词级注意力交互来捕捉文本局部相似信息。


2.根据权利要求1所述的一种基于实体上下文语义交互的实体链接方法,其特征在于,在对知识库实体文本和查询实体文本编码前,预先生成候选实体,包括以下步骤:
在训练阶段,候选实体通过与知识库中实体精确匹配生成,所有候选实体为查询实体的同名实体;
在数据预处理阶段,将知识库中所有实体名字、别称以及对应的库名称以字典形式存储,以便于查询实体查找候选实体对应的库名称;
在预测阶段,若查询实体在知识库中没有同名实体,则将整个知识库实体作为候选实体。


3.根据权利要求2所述的一种基于实体上下文语义交互的实体链接方法,其特征在于,查询文本为q,查询文本长度为lq,查询文本中待链接实体,即查询实体记为m,将查询实体和查询文本拼接融合后文本表示记为链接文本qM,知识库中的候选实体文本为e。


4.根据权利要求3所述的一种基于实体上下文语义交互的实体链接方法,其特征在于,采用LSTM网络编码查询实体文本包括以下步骤:
采用双向LSTM网络对查询文本进行编码:



用one-hot编码标识查询实体的位置,将编码后的查询文本和查询实体m进行拼接,将qM用一个过滤器大小为3的一维卷积进行编码融合:





5.根据权利要求4所述的一种基于实体上下文语义交互的实体链接方法,其特征在于,采用Transformer结构编码知识库实体文本包括以下步骤:
将知识库中候选实体的所有属性及描述信息连接起来作为候选实体的文本信息,采用Transformer网络中的encoder部分对候选实体文本编码:



其中,le为候选实体文本长度,为编码后的候选实体文本。


6.根据权利要求5所述的一种基于实体上下文语义交互的实体链接方法,其特征在于,Transformer网络由多个块组成,每个块包括多头注意力子模块和前馈神经网络子模块,每部分...

【专利技术属性】
技术研发人员:王伟许峻峰张焱刘刚孙成胜敖佳
申请(专利权)人:中国电子科技网络信息安全有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1