实体链接模型的训练方法、实体链接方法、电子设备及介质技术

技术编号:40091401 阅读:22 留言:0更新日期:2024-01-23 16:16
本申请提供了实体链接模型的训练方法、实体链接方法、电子设备及介质,模型训练方法包括,从用户生成内容(UGC)中获取待测实体的信息,所述实体信息包括所述待测实体的名称、所述待测实体的类别特征、所述用户生成内容的标题以及所述用户生成内容的标签;从实体库中获取候选实体的信息,所述候选实体的信息包括所述候选实体的名称,所述候选实体的描述信息和所述候选实体的类别特征;使用所述待测实体的信息和所述候选实体的信息训练所述实体链接模型。该方法可以提高短文本的实体链接准确性。

【技术实现步骤摘要】

本专利技术涉及实体识别和实体链接领域,特别涉及一种实体链接模型的训练方法、实体链接方法、电子设备及介质


技术介绍

1、实体识别是自然语言处理的基础识别任务,可以判断是否关联到某一实体。在相关技术中通常从正常文本中通过ner(named entity recognition)技术进行实体识别,以及结合知识库进行实体链接el(entity linking)。

2、在用户生成内容(user generated content,ugc)场景中,非常规的简短文本中缺乏足够丰富的语义信息,会对ner和el技术带来很大的挑战。


技术实现思路

1、本申请提供了一种实体链接模型的训练方法、实体链接方法、电子设备及介质,可以提高短文本的实体链接准确性。

2、本申请的第一方面公开了一种实体链接方法,用于电子设备,所述方法包括,从用户生成内容(ugc)中获取待测实体的信息,所述实体信息包括所述待测实体的名称、所述待测实体的类别特征、所述用户生成内容的标题以及所述用户生成内容的标签;从实体库中获取候选实体的信本文档来自技高网...

【技术保护点】

1.一种实体链接模型的训练方法,应用于电子设备,其特征在于,所述方法包括,

2.根据权利要求1所述的实体链接模型的训练方法,其特征在于,获取所述待测实体的名称包括,提取所述待测实体出现的位置片段前后N个字符的文本并拼接,当所述待测实体前后字符小于N时,则对所述待测实体出现的位置补充信息。

3.根据权利要求2所述的实体链接模型的训练方法,其特征在于,所述方法包括根据所述待测实体的上下文获取所述待测实体的类别特征。

4.根据权利要求1所述的实体链接模型的训练方法,其特征在于,所述方法包括对所述候选实体的名称,所述候选实体的描述信息和所述候选实体的类别特征进...

【技术特征摘要】

1.一种实体链接模型的训练方法,应用于电子设备,其特征在于,所述方法包括,

2.根据权利要求1所述的实体链接模型的训练方法,其特征在于,获取所述待测实体的名称包括,提取所述待测实体出现的位置片段前后n个字符的文本并拼接,当所述待测实体前后字符小于n时,则对所述待测实体出现的位置补充信息。

3.根据权利要求2所述的实体链接模型的训练方法,其特征在于,所述方法包括根据所述待测实体的上下文获取所述待测实体的类别特征。

4.根据权利要求1所述的实体链接模型的训练方法,其特征在于,所述方法包括对所述候选实体的名称,所述候选实体的描述信息和所述候选实体的类别特征进行拼接。

5.根据权利要求1所述的实体链接模型的训练方法,其特征在于,所述方法包括在所述待测实体信息的前后和所述候选实体信息的前后加入显式标识符号,并在所述待测实体信息和所述候选实体信息中间插入分割符拼接。

6.根据权利要求1所述的实体链接模型的训练方法,其特征在于,获取待测实体的...

【专利技术属性】
技术研发人员:郅波王沛雨张鹏涛
申请(专利权)人:行吟信息科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1