【技术实现步骤摘要】
实体消歧方法、装置、设备及存储介质
[0001]本申请涉及AI
,尤其涉及一种实体消歧方法、装置、设备及存储介质。
技术介绍
[0002]随着互联网的发展,在人工智能领域中,为了满足人们对信息获取的需求,越来越多的用户开始通过互联网的搜索功能获取自己所需要的信息。
[0003]实体链接技术就是将一段文本中的某些字符串映射到知识库中对应的实体上,但是由于常存在同名异实体或者同实体异名的现象,导致现有的实体消歧技术存在实体边界不清楚且存在歧义的问题。
技术实现思路
[0004]本申请提供了一种实体消歧方法、装置、设备及存储介质,通过将待消歧实体的实体边界信息和候选实体的子项信息结合起来,对预训练的语言模型进行训练,得到具有准确确定文本相似度的模型,进而可以更精准的得到待消歧实体的链接实体。
[0005]第一方面,本申请提供了一种实体消歧方法,包括:
[0006]获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
[0007]根据所述待消歧实体的实体边 ...
【技术保护点】
【技术特征摘要】
1.一种实体消歧方法,其特征在于,所述方法包括:获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,将匹配的词实体作为所述待消歧实体的候选实体,确定所述候选实体的子项信息;其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述待消歧实体中各实体的链接实体。2.根据权利要求1所述的实体消歧方法,其特征在于,所述获取待消歧实体,包括:基于命名实体识别算法,从包含有待消歧实体的目标文本中标记出所述待消歧实体。3.根据权利要求2所述的实体消歧方法,其特征在于,所述命名实体识别算法包括序列标注法,所述基于命名实体识别算法,从包含有待消歧实体的文本中标记出所述待消歧实体,包括:基于所述序列标注法,确定所述目标文本中的提及词;分别以预设符号标记所述提及词,根据标记的所述提及词之间的位置关系,确定所述待消歧实体。4.根据权利要求1至3任一项所述的实体消歧方法,其特征在于,所述基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息,包括:根据所述待消歧实体,生成消歧序列,所述消歧序列中包括多个依次排列的字符,每个字符分别代表所述待消歧实体中的特征词;提取所述消歧序列中每个字符对应的特征词,得到特征向量组;将所述特征向量组中的每个特征向量映射为二维向量,其中,二维向量包括第一维值和第二维值;根据所述第一维值和所述第二维值确定各个所述待消歧实体的词边界;将所述词边界以预设字符插入所述待消歧实体中,形成所述待消歧实体的实体边界信息。5.根据权利要求1所述的实体消歧方法,其特征在于,所述将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,包括:将所述至少一个词实体与预先确定的实体知识图谱中所有词实体进行相似性匹配,得到匹配度大于预设匹配度的词实体,以匹配度大于预设匹配值的词实体作为候选实体;获取各候选实体...
【专利技术属性】
技术研发人员:门玉玲,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。