System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种实体链接方法、系统及计算机存储介质技术方案_技高网
当前位置: 首页 > 专利查询>三峡大学专利>正文

一种实体链接方法、系统及计算机存储介质技术方案

技术编号:40424669 阅读:7 留言:0更新日期:2024-02-20 22:44
本发明专利技术公开了一种实体链接方法、系统及计算机存储介质,方法包括以下步骤:首先,使用TF‑IDF、BM25、编辑距离和Jaccard等方式计算相似度,依据相似度分数从知识库中获取候选集;其次,通过改进的预训练模型感知原始术语、标准实体、来自于候选集的候选实体的关键字信息,并构成图结构。经过图神经网络聚合周围节点的语义信息增强语句的向量表示;最后,利用更新后的向量表示计算余弦相似度,预测中原始术语蕴含标准实体的数量,基于数量预测结果按照相似度分数顺序选取对应标准实体。本发明专利技术实现了中文实体链接的精准识别,在相同批次大小的情况下,减少了参数量和占用资源,为高效中文医疗实体链接提供参考,而且较一般预训练模型提高了实体链接的准确率。

【技术实现步骤摘要】

本专利技术涉及命名实体链接,具体地指一种实体链接方法、系统及计算机存储介质


技术介绍

1、实体链接作为自然语言处理基本任务之一,在信息挖掘领域中有着至关重要的作用,其目的是将给定文本中的原始术语映射到知识库中的标准实体,如icd-9或icd-10(international classification of diseases,icd)。

2、在生物医学领域,实体链接大致分为三种方法:基于规则、机器学习和深度学习。基于规则方法早期被广泛使用,主要思想为直接排序,如启发式规则算法、字符串匹配等。基于规则的方法需要根据不同的场景设定不同的规则,依赖大量专家人工标注,且只能在特定的数据集上达到满意的效果。随着机器学习的出现,支持向量机(svm)、k-近邻、矩阵分解均在以往的研究中被采用。基于机器学习的方法虽然在一定程度上缓解了人工消耗,但由于缺乏语义信息的局限性且不能考虑上下文信息,面对更加复杂的医学术语标准化任务显得有些乏力。近年来,基于深度学习的模型已经解决字符串匹配模型的局限性并且具有强大的表征能力,能够学习到词语的上下文关系和重要词语的信息。深度学习的引入和发展使实体链接的准确率得到了很大的提升。

3、然而当知识库较大时,传统的深度学习显然无法满足庞大数据量的标准化工作。实体链接的语句结构是复杂多变的,文本特征和语义信息缺乏规律性,因此对于本领域技术人员来说,如何利用文本特征和语句内部语义信息,快速高效地从知识库中准确获取链接标准实体,使得语义理解更加精准,是自然语言处理进入全面化应用的关键。


技术实现思路

1、本专利技术的目的就是解决上述背景中中文实体链接的精准识别,在相同批次大小的情况下,减少参数量以及占用资源,提高实体链接的准确率等问题,本专利技术提出一种实体链接方法,包括以下步骤:

2、s1、获取目标原始术语的候选实体,从知识库中的所有标准实体中计算相似度选出部分词语;

3、s2、对目标原始术语以及候选实体的各个字符进行编码,得到所述字符的向量表示;

4、s3、对字符的向量表示采用基于关键字感知机制和图神经网络融合关键字信息与内部语义信息的实体链接模型处理得到目标原始术语的融合向量表示,计算余弦相似度得到第一相似度分数;

5、s4、通过目标原始术语的融合向量表示对目标术语进行多分类得到数量预测的概率值;

6、s5、对目标原始术语的融合向量表示采用攻击对抗策略,得到增强样本表示,计算余弦相似度得到第二相似度分数;

7、s6、将第一相似度分数与第二相似度分数相加,联合数量预测的概率值按照顺序选取所述目标实体链接的知识库中标准实体。

8、优选的方案中,步骤s2中计算相似度的方法包括:tf-idf、bm25、编辑距离和jaccard。

9、优选的方案中,采用实体链接模型将目标链接到知识库的步骤包括:

10、s11、基于目标语句的向量表示通过关键字感知得到关键字表示,然后经过图神经网络聚合周围节点得到融合向量表示,融合关键字信息和语句内部信息;

11、s22、利用目标原始术语的融合向量表示进行可能链接到知识库中各个实体的数量预测;

12、s33、利用目标原始术语的融合向量表示进行攻击对抗策略,增强部分少样本和零样本的目标语句向量表示,得到增强样本表示;

13、s44、利用目标语句的融合向量表示和增强样本表示,联合数量预测结果进行目标语句链接到的知识库中标准实体预测。

14、优选的方案中,实体链接模型包括预处理层、编码层、融合信息层和预测层;

15、预处理层负责计算相似度,从知识库中选取部分词语作为目标的候选实体;

16、编码层负责使用预训练语言模型bert作为编码器,对目标原始术语和候选实体进行编码,产生包含上下文的字的向量表示;

17、融合信息层中第一阶段利用关键字感知机制得到关键字表示;第二阶段将关键字表示经过图神经网络更新节点表示融合语句内部信息,计算余弦相似度得到第一相似度分数;

18、预测层中第一阶段利用融合向量表示预测目标原始术语的链接数量;第二阶段利用攻击对抗策略增强部分样本的向量表示,计算第二相似度分数;最后联合两种相似度分数与预测数量来选取目标原始术语的链接实体。

19、优选的方案中,候选实体的方法为:

20、

21、

22、

23、

24、

25、其中mi表示目标原始术语,tf表示字词wj出现的频率,idf表示逆向文件频率,n(wj)表示wj在mi中出现的次数,w表示mi中分词数量,|e|表示知识库中的标准实体总数,t(wj)表示知识库中含有wj的标准实体数量;n表示文档总数,wj表示mi的某个分词,n(wj)表示包含该分词的文档数,e表示搜索结果文档,f(wj,e)表示wj在e中出现的频率,avgdl表示所有文档的平均长度,k1、b为调节因子;dist(x,y)表示欧氏距离,x和y表示两个实体。j(a,b)表示jaccard相似度,a和b表示两个字符串。

26、优选的方案中,融合信息的表达式为:

27、

28、hp=fnn(avg(cls,ps,pt))

29、

30、

31、其中,q、k、v分别表示查询、键、值,dk表示向量维度,mask表示掩码矩阵,headi表示多头注意力机制,cls表示预训练模型的令牌,ps表示部位信息令牌,pt表示实体类型信息令牌,fnn表示前馈神经网络。hp表示得到的关键字向量表示;h表示由hp拼接的矩阵,σ表示激活函数,表示对角矩阵,w(l)是一个d(l-1)×d(l)的权重矩阵,l表示图神经网络层数,h(l)表示经过图神经网络的融合向量表示。

32、优选的方案中,利用融合向量表示预测目标原始术语能够链接到知识库标准实体的数量表达式为:

33、

34、havg=concat(h1,...hn)wo

35、scorenumber=softmax(ffnn(havg))

36、其中,wo表示模型的可训练参数,hcls和havg表示融合信息后的向量表示,concat表示向量拼接操作,ffnn表示前馈神经网络,scorenumber表示数量预测分数。

37、优选的方案中,基于关键字感知和图神经网络得到的融合信息表示,通过计算相似度排序和预测链接个数来进行实体链接。

38、本专利技术还提出一种实体链接系统,包括数据获取模块、编码模块、第一相似度模块、第二相似度模块和预测模块;

39、数据获取模块负责获取目标原始术语的候选实体;

40、编码模块负责对所述目标原始术语和对应的候选实体进行编码,得到所述目标原始术语和候选实体的向量表示;

41、第一相似度模块负责对所述原始术语和候选实体的向量表本文档来自技高网...

【技术保护点】

1.一种实体链接方法,其特征是:包括以下步骤:

2.根据权利要求1所述一种实体链接方法,其特征是:步骤S2中计算相似度的方法包括:TF-IDF、BM25、编辑距离和Jaccard。

3.根据权利要求1所述一种实体链接方法,其特征是:采用实体链接模型将目标链接到知识库的步骤包括:

4.根据权利要求1所述一种实体链接方法,其特征是:实体链接模型包括预处理层、编码层、融合信息层和预测层;

5.根据权利要求2所述一种实体链接方法,其特征是:候选实体的方法为:

6.根据权利要求3所述一种实体链接方法,其特征是:基于关键字感知和图神经网络得到的融合信息表示,通过计算相似度排序和预测链接个数来进行实体链接。

7.根据权利要求1所述一种实体链接方法,其特征是:融合信息的表达式为:

8.根据权利要求6所述一种实体链接方法,其特征是:利用融合向量表示预测目标原始术语能够链接到知识库标准实体的数量表达式为:

9.一种实体链接系统,其特征是:包括数据获取模块、编码模块、第一相似度模块、第二相似度模块和预测模块

10.一种计算机存储介质,其特征在于,存储有计算机程序,计算机程序被处理器执行时实现如权利要求1-8中任意一项所述的一种实体链接方法的步骤。

...

【技术特征摘要】

1.一种实体链接方法,其特征是:包括以下步骤:

2.根据权利要求1所述一种实体链接方法,其特征是:步骤s2中计算相似度的方法包括:tf-idf、bm25、编辑距离和jaccard。

3.根据权利要求1所述一种实体链接方法,其特征是:采用实体链接模型将目标链接到知识库的步骤包括:

4.根据权利要求1所述一种实体链接方法,其特征是:实体链接模型包括预处理层、编码层、融合信息层和预测层;

5.根据权利要求2所述一种实体链接方法,其特征是:候选实体的方法为:

6.根据权利要求3所述一种实体链接方法,其特征是:基于关键字...

【专利技术属性】
技术研发人员:吴义熔岳崇浩华晟
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1