【技术实现步骤摘要】
一种实体链接方法、装置、计算机设备和存储介质
[0001]本申请涉及计算机
,具体涉及一种实体链接方法、装置、计算机设备和存储介质。
技术介绍
[0002]实体链接可以指将文本内容中的指称文本内容对应至知识库中的目标实体内容。例如,对于文本内容“这个苹果又大又甜”中的指称内容“苹果”应该链接到水果这个目标实体内容,而不应该链接到公司这个目标实体内容。实体链接已经应用到了多个领域中,但是,对于一些专业领域,由于知识库信息不全,会降低实体链接的准确性。例如,对于生物医学和化学等专业领域,其知识库的信息量会较少,从而导致对这些专业领域的指称文本内容进行实体链接时,会存在准确性不高的问题。
技术实现思路
[0003]本申请实施例提出了一种实体链接方法、装置、计算机设备和存储介质,可以提高实体链接的准确性。
[0004]本申请实施例提供了一种实体链接方法,包括:
[0005]获取文本内容,其中,所述文本内容包括指称文本内容和对所述指称文本内容进行说明的描述文本内容;
[0006]根据所述指 ...
【技术保护点】
【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:获取文本内容,其中,所述文本内容包括指称文本内容和对所述指称文本内容进行说明的描述文本内容;根据所述指称文本内容的描述文本内容,对至少一个预设实体内容进行检索处理,得到所述指称文本内容对应的至少一个候选实体内容;根据所述指称文本内容对预设筛选模板内容进行内容填充处理,得到目标筛选模板内容;将所述描述文本内容、所述至少一个候选实体内容和所述目标筛选模板内容进行内容融合处理,得到融合后文本内容;根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理,得到所述指称文本内容对应的目标实体内容。2.根据权利要求1所述的方法,其特征在于,所述指称文本内容携带指称文本标识,所述描述文本内容携带描述文本标识;所述根据所述指称文本内容的描述文本内容,对至少一个预设实体内容进行检索处理,得到所述指称文本内容对应的至少一个候选实体内容,包括:根据所述指称文本标识和所述描述文本标识分别对所述指称文本内容和所述描述文本内容进行编码处理,得到所述指称文本内容对应的指称文本编码信息和所述描述文本内容对应的描述文本编码信息;根据所述描述文本编码信息对所述指称文本编码信息进行特征挖掘处理,得到所述指称文本编码信息的特征挖掘信息;根据所述文本编码信息的特征挖掘信息,对至少一个预设实体内容进行检索处理,得到所述指称文本内容对应的至少一个候选实体内容。3.根据权利要求1所述的方法,其特征在于,所述将所述描述文本内容、所述至少一个候选实体内容和所述目标筛选模板内容进行内容融合处理,得到融合后文本内容,包括:分别为所述至少一个候选实体内容生成实体内容标识;分别将候选实体内容和候选实体内容对应的实体内容标识进行拼接处理,得到至少一个拼接后实体内容;对所述目标筛选模板内容进行遮盖处理,得到遮盖后筛选模板内容;根据预设拼接格式将所述描述文本内容、所述至少一个拼接后实体内容和所述遮盖后筛选模板内容进行拼接处理,得到所述融合后文本内容。4.根据权利要求1所述的方法,其特征在于,所述根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理,得到所述指称文本内容对应的目标实体内容,包括:对所述融合后文本内容进行编码处理,得到所述融合后文本内容对应的融合编码信息;对所述融合后文本内容对应的融合编码信息进行特征挖掘,得到所述融合后文本内容对应的特征挖掘信息;基于所述融合后文本内容对应的特征挖掘信息,对所述融合后文本内容中的遮盖信息进行预测处理,得到所述目标实体内容。5.根据权利要求1所述的方法,其特征在于,所述根据所述指称文本内容的描述文本内
容,对至少一个预设实体内容进行检索处理,得到所述指称文本内容对应的至少一个候选实体内容,包括:根据所述指称文本内容的描述文本内容,利用预设检索模型对至少一个预设实体内容进行检索处理,得到所述指称文本内容对应的至少一个候选实体内容;所述根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理,得到所述指称文本内容对应的目标实体内容,包括:利用预设消歧模型根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理,得到所述指称文本内容对应的目标实体内容。6.根据权利要求5所述的方法,其特征在于,所述利用预设消歧模型根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理,得到所述指称文本内容对应的目标实体内容之前,所述方法还包括:获取待训练消歧模型、文本内容样本和至少一个实体内容样本;对所述至少一个实体内容样本进行信息增强处理,得到增强后实体内容样本;利用所述增强后实体内容样本对所述待训练消歧模型进行训练处理,得到初始训练后消歧模型;利用所述文本内容样本对所述初始训练后消歧模型进行训练处理,得到所述预设消歧模型。7.根据权利要求6所述的方法,其特征在于,所述对所述至少一个实体内容样本进行信息增强处理,得到增强后实体内容样本,包括:对所述至少一个实体内容样本进行关联识别处理,得到具有关联关系的多个实体内容样本;对所述具有关联关系的多个实体内容样本进行划分处理,得到第一...
【专利技术属性】
技术研发人员:徐朕燃,陈昱霖,户保田,单子非,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。