System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语义增强预训练孪生网络的中文实体链接方法和系统技术方案_技高网

基于语义增强预训练孪生网络的中文实体链接方法和系统技术方案

技术编号:40360085 阅读:15 留言:0更新日期:2024-02-09 14:46
本发明专利技术公开了一种基于语义增强预训练孪生网络的中文实体链接方法和系统。通过将短文本的实体指代在知识库中匹配出候选实体集合及各候选实体的实体描述信息,将短文本、候选实体前后分别用第一标记分界后,与候选实体描述信息输入BERT,以分别提取整体特征、实体指代特征、候选实体及其实体描述特征,分别对实体指代特征和候选实体及其实体描述特征进行最大池化,再借助多层感知机分别提取第一向量和第二向量,用多层感知机从整体特征获取第三向量,拼接各向量及其之间的运算向量,进行维度固定后以此进行激活、全连接,得到预测值;链接预测值为1的候选实体到短文本。本发明专利技术模型结构简单,链接准确率高。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其是一种基于语义增强预训练孪生网络的中文实体链接方法和系统


技术介绍

1、随着大数据技术的发展,网络信息呈现出多源异构、规模庞大、内容多样等特点,在知识图谱构建和问答过程中为了准确获取目标信息,往往需要处理大量的冗余信息和噪声信息,原因是自然语言表达的多样性。例如针对文本中出现的单词拼写会根据语境的不同会导致相同的单词有着不同的语义、不同单词在特定情况下会拥有相同语义。即一词多义以及多词同义现象。为解决以上难题,实体链接旨在将自然语言表达中产生歧义的词或短语链接到知识库中相应实体来进行实体消歧,从而帮助自然语言理解。例如,作为构建知识图谱的重要环节,实体链接可以用于更新实体和实体间的关系,保证实体的一致性和完整性的同时推动形成以实体为核心的信息网络,从而扩充知识图谱。在问答系统中,实体链接可以更准确地处理文本中实体的语义,将查询中有歧义的模糊实体与知识库中义项链接,形成答案路径子图,从而有效改善问答结果的质量。

2、cn116821292a公开了一种知识库问答中基于抽象语义表示的实体和关系链接方法,其引入维基百科中的实体及其描述作为外部知识,使用双编码器对知识库中的海量实体进行初步筛选,再使用交叉编码器对问题中的实体提及排序打分,从而确定对应的知识库实体。实验表明该算法的效果优于将候选实体描述和实体指代进行独立特征相似度计算方法。该方法的不足是只通过bert(bidirectional encoder representation fromtransformers,双向编码器表示自转换模型)交叉编码器获取特征,没有近一步细化和优化提取的特征表示来应对分类任务,模型的泛化能力有待提高。

3、cn112989832a公开了一种应用在网络安全领域的实体链接方法,其利用实体查询引用表生成安全候选实体;对实体提及对应的待链接安全文本进行分词,并得到第一联合嵌入向量;对安全候选实体对应的来的安全文本进行分词,并得到第二联合嵌入向量;依次将第一联合嵌入向量、第二联合嵌入向量输入到bilstm(双向长短期记忆网络)模型、cnn(卷积神经网络)模型中,分别得到安全文本的第一特征信息和第二特征信息;在特征信息中均引入神经网络的attention(注意力)机制,增强相应的安全文本特征;对增强后的安全文本向量进行余弦相似度计算,将得分最高的候选实体链接到实体提及中去,从而实现网络安全领域的实体链接。该方法有效的提升了网络安全领域的实体链接系统性能。不足是这可能导致模型结构比较复杂。

4、cn113111136a公开了一种基于ucl知识空间的实体消歧方法及装置,其首先构建基础知识库,完成ucl知识空间的构建;随后从ucl知识空间中获取待消歧实体相关的候选实体集合,利用词向量表示方法生成候选实体和待消歧实体的嵌入表示;接着抽取待消歧实体及其上下文的概念特征,抽取候选实体上下文的特征;最后利用之前生成的四个向量表示作为输入,采用基于深度结构化语义匹配模型dssm的自注意力匹配网络,获得匹配度;根据匹配结果的排序得到最终消歧结果,完成文本中实体与ucl知识空间中实体的实体链接。该方法既能够解决短文本中实体相关信息较少的问题,还能提高实体消歧的准确度。不足之处是模型使用词向量表示特征,无法捕捉复杂的语言特性以及上下文信息,并且模型早期没有获取待消歧实体和候选实体的交互信息,而是四个特征各自独立,丢失些许重要信息,没有将特征进行交叉,从而降低准确度。


技术实现思路

1、本专利技术的专利技术目的在于:针对上述存在的全部或部分问题,提供一种基于语义增强预训练孪生网络的中文实体链接方法和系统,以较为简单的模型结构,更加准确的对中文短文本和实体进行链接。

2、本专利技术采用的技术方案如下:

3、一种基于语义增强预训练孪生网络的中文实体链接方法,该方法包括:

4、对预链接的短文本进行预处理,得到至少一个预处理字段,每个预处理字段包括短文本的实体指代、与实体指代相匹配的候选实体、该候选实体的实体描述信息;分别将各所述预处理字段输入中文实体链接网络,以所述中文实体链接网络输出的链接概率预测值对应于应当链接的候选实体与该预链接的短文本进行链接;

5、所述中文实体链接网络,依据以下方法,使用训练数据集中的短文本和其链接的候选实体,以最小化链接概率预测值和实际值的差距为目的训练得到:

6、获取对训练数据集中的短文本进行预处理得到的预处理字段,使用预训练模块bert得到第一特征,在所述第一特征中划分出实体指代特征、候选实体特征,以及候选实体描述特征;

7、将所述实体指代特征池化后输入到多层感知机,得到第一向量;

8、将所述候选实体特征和候选实体描述特征拼接、池化后,输入到多层感知机,得到第二向量;

9、将所述第一特征输入多层感知机,得到第三向量;

10、在所述第一向量、第二向量和第三向量之间进行预定运算,并将运算结果与所述第一向量、第二向量和第三向量拼接,得到第四向量;

11、对所述第四向量激活、全连接得到候选实体的链接概率预测值。

12、进一步的,所述第一特征所使用的多层感知机,独立于所述实体指代特征、所述候选实体特征和候选实体描述特征所使用的多层感知机。

13、进一步的,所述多层感知机为双层感知机。

14、进一步的,预处理的方法包括:

15、根据短文本识别出实体指代;依据预构建的词典从知识库中查找出与所述实体指代相匹配的所有候选实体,对于每个候选实体:

16、从知识库中检索出该候选实体的实体描述信息,并与该候选实体拼接为第一字段;将第一字段与所述短文本拼接为第二字段,并在所述第二字段中,在所述实体指代和所述候选实体的前后均添加第一标记,得到预处理字段。

17、进一步的,在所述第一特征中划分出实体指代特征、候选实体特征,以及候选实体描述特征,包括:

18、在所述第一特征中定位所述第一标记的特征,以定位的第一标记的特征为边界,从所述第一特征中划分出实体指代特征、候选实体特征,以及候选实体描述特征。

19、进一步的,在所述第一向量、第二向量和第三向量之间进行预定运算,包括以下至少一种运算:

20、所述第一向量与所述第二向量之间的相减;

21、所述第二向量与所述第三向量之间的相减;

22、所述第三向量与所述第一向量之间的相减。

23、进一步的,在得到所述第四向量之后,还对所述第四向量进行维度固定。

24、进一步的,所述候选实体的实体描述信息,包括该候选实体的属性信息,和/或与该候选实体存在链接关系的其他候选实体。

25、本专利技术还提供了一种基于语义增强预训练孪生网络的中文实体链接系统,该系统执行上述的基于语义增强预训练孪生网络的中文实体链接方法。

26、本专利技术还提供了另一种基于语义增强预训练孪生网络的中文实体链接系统,该系统包本文档来自技高网...

【技术保护点】

1.一种基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,包括:

2.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,所述第一特征所使用的多层感知机,独立于所述实体指代特征、所述候选实体特征和候选实体描述特征所使用的多层感知机。

3.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,所述多层感知机为双层感知机。

4.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,预处理的方法包括:

5.如权利要求4所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,在所述第一特征中划分出实体指代特征、候选实体特征,以及候选实体描述特征,包括:

6.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,在所述第一向量、第二向量和第三向量之间进行预定运算,包括以下至少一种运算:

7.如权利要求6所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,在得到所述第四向量之后,还对所述第四向量进行维度固定。

8.如权利要求4所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,所述候选实体的实体描述信息,包括该候选实体的属性信息,和/或与该候选实体存在链接关系的其他候选实体。

9.一种基于语义增强预训练孪生网络的中文实体链接系统,其特征在于,所述系统执行如权利要求1-8任一所述的基于语义增强预训练孪生网络的中文实体链接方法。

10.一种基于语义增强预训练孪生网络的中文实体链接系统,其特征在于,包括计算机可读存储介质,该计算机可读存储介质存储有计算机程序,运行该计算机程序可执行如权利要求1-8任一所述的基于语义增强预训练孪生网络的中文实体链接方法。

...

【技术特征摘要】

1.一种基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,包括:

2.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,所述第一特征所使用的多层感知机,独立于所述实体指代特征、所述候选实体特征和候选实体描述特征所使用的多层感知机。

3.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,所述多层感知机为双层感知机。

4.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,预处理的方法包括:

5.如权利要求4所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,在所述第一特征中划分出实体指代特征、候选实体特征,以及候选实体描述特征,包括:

6.如权利要求1所述的基于语义增强预训练孪生网络的中文实体链接方法,其特征在于,在所述第一向量、第二向...

【专利技术属性】
技术研发人员:刘大威李瑞徐悦甡李婵马寅汝刘寄甲
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1