对实体链接模型的实体嵌入的强化及多义词歧义消除方法技术

技术编号：38751593 阅读：16 留言：0更新日期：2023-09-09 11:18

本发明专利技术公开了一种对实体链接模型的实体嵌入的强化及多义词歧义消除方法，其包括以下步骤：获取实体链接模型中待强化的实体嵌入；根据实体嵌入得到对应的实体类别列表；通过文本嵌入模型将类别名称转换为嵌入表示；统计每个类别在所有实体类别列表中的出现频次；根据出现频次对同一实体类别进行处理得到显著性系数；根据显著性系数对嵌入表示进行聚合得到更新后的实体嵌入；通过适配器网络对更新后的实体嵌入进行调整，得到强化后的实体嵌入；更新实体链接模型；基于更新后的实体链接模型进行多义词歧义消除。本发明专利技术通过完善实体嵌入的语义表达，提升相似实体的特异性，增加区分度，减少误判情况，降低实体链接的难度，提升实体链接的结果准确性。链接的结果准确性。链接的结果准确性。

全部详细技术资料下载

【技术实现步骤摘要】
对实体链接模型的实体嵌入的强化及多义词歧义消除方法

[0001]本专利技术涉及语义识别
，具体涉及对实体链接模型的实体嵌入的强化方法及多义词歧义消除方法。

技术介绍

[0002]实体链接旨在将文本序列中的实体提及映射至已有知识库中唯一实体，本质上是利用文本的上下文环境来消除多义词的歧义。为了能将实体与文本环境建立关联，需要将知识库中的实体编码成含有语义信息的实体嵌入。与普通文本嵌入相比，实体嵌入拥有更加丰富且精准的预料信息，因此如何有效的利用知识库中实体的元数据构建实体嵌入会直接关系到实体链接的效果。
[0003]在过去的研究中，通常将实体描述文本直接利用编码来表示实体的语义。根据具体的实现方法主要分为两类，一是词向量化实体描述，并将词向量序列通过诸如拼接聚合的手段来得到实体嵌入。另一种方法则是通过特定模型，例如Bert模型直接将实体描述文本输出成实体嵌入，相较于前者，此类方法会对输入的长度进行限制。
[0004]上述两种方法，前者会因为长描述情况下，文本中的关键语义会被其他次要语义稀释。而后者会对长输入进行截断操作，从而丢失部分实体语义。这两种情况下，尤其是在相似实体中，都会降低实体嵌入语义的特异性，从而增加了实体链接的难度，导致多义词歧义消除难。

技术实现思路

[0005]针对现有技术中的上述不足，本专利技术提供的对实体链接模型的实体嵌入的强化方法及多义词歧义消除方法解决了现有技术会降低实体嵌入语义的特异性，从而导致难以消除歧义以及实体链接效果不好的问题。
[0006...

【技术保护点】

【技术特征摘要】
1.一种对实体链接模型的实体嵌入的强化及多义词歧义消除方法，其特征在于：包括以下步骤：S1、获取实体链接模型中待强化的实体嵌入；根据实体名称获取实体对应知识库中的元数据并对其进行解析，得到对应的实体类别列表；S2、通过文本嵌入模型将实体类别列表中的类别名称转换为与实体嵌入编码长度一致的嵌入表示；统计每个类别在所有实体类别列表中的出现频次；S3、根据出现频次对同一实体类别列表的类别进行处理得到显著性系数；根据显著性系数将嵌入表示聚合至对应的实体类别列表中对应的实体嵌入表示处，得到更新后的实体嵌入；S4、通过适配器网络对更新后的实体嵌入进行调整，得到调整后的实体嵌入并将其作为强化后的实体嵌入；S5、将强化后的实体嵌入替换至实体链接模型，得到更新后的实体链接模型；S6、基于更新后的实体链接模型进行多义词歧义消除。2.根据权利要求1所述的对实体链接模型的实体嵌入的强化及多义词歧义消除方法，其特征在于：所述步骤S1中知识库采用Wikipedia维基百科作为目标知识库和强化信息的来源。3.根据权利要求1所述的对实体链接模型的实体嵌入的强化及多义词歧义消除方法，其特征在于：所述实体链接模型采用mulrel
‑
nel模型。4.根据权利要求1所述的对实体链接模型的实体嵌入的强化及多义词歧义消除方法，其特征在于：所述步骤S2采用GloVe模型作为文本嵌入模型。5.根据权利要求1所述的对实体链接模型的实体嵌入的强化及多义词歧义消除方法：所述步骤S2中嵌入表示的公式为：所述步骤S2中嵌入表示的公式为：其中，i表示第i个类别，j表示第j个实体，C
ij
表示第j个实体对应的第i个类别字面文本，表示第j个实体对应的类别列表中第i个类别的嵌入表示，k表示第k个分词，w
ikj
表示第j个实体对应的类别列表中第i个类别的第k个分词，c
ikj
表示w
ikj
对应的嵌入编码，GloVe(
·
)表示GloVe模型，MaxPooling(
·
)表示最大池化层，R表示实数，n表示嵌入向量的长度。6.根据权利要求1所述的对实体链接模型的实体嵌入的强化及多义词歧义消除方法，其特征在于：所述步骤S3中更新后的实体嵌入的公式为：其特征在于：所述步骤S3中更新后的实体嵌入的公式为：其特征在于：所述步骤S3中更新后的实体嵌入的公式为：
其中，i表示第i个类别，j表示第j个实体，k表示第k个分词，表示第j个实体对应的类别列表中第i个类别的嵌入表示，表示第j个实体对应的第k个类别字面文本，C
ij
表示第j个实体对应的第i个类别字面文本，表示C
ij

【专利技术属性】
技术研发人员：张栗粽，惠孛，田玲，尹晓宇，黄嘉豪，杨筠，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人