【技术实现步骤摘要】
一种面向社会综合治理的实体消歧方法、装置及设备
[0001]本专利技术涉及自然语言处理领域,具体涉及一种面向社会综合治理的实体消歧方法、装置及设备。
技术介绍
[0002]实体消歧任务旨在把文本中的命名实体与知识库中的特定条目绑定,从而实现同一种实体在不同场景下的消歧。尤其在综合治理领域,同一个地点、组织、人物、事件往往会存在多种不同的表示方式,具有很高的消歧难度。
[0003]而现有的实体消歧方法往往关注与知识库中条目名称完全匹配的实体的消歧,但缺乏对实体模糊消歧的能力。
技术实现思路
[0004]因此,本专利技术要解决的技术问题在于克服现有技术中仅能实现与知识库中条目名称完全匹配的实体进行消歧的缺陷,从而提供一种面向社会综合治理的实体消歧方法、装置及设备。
[0005]第一方面,本专利技术提供了一种面向社会综合治理的实体消歧方法,包括:
[0006]获取目标实体的第一隐向量、目标实体的第一词向量,目标实体的第一字符串,与多个条目中的每一个条目分别对应的第二词向量,以及与多个条目中的 ...
【技术保护点】
【技术特征摘要】
1.一种面向社会综合治理的实体消歧方法,其特征在于,包括:获取目标实体的第一隐向量、所述目标实体的第一词向量,所述目标实体的第一字符串,与多个条目中的每一个所述条目分别对应的第二词向量,以及与多个条目中的每一个所述条目分别对应的第二字符串;基于所述第一隐向量、所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串确定所述目标实体的第二隐向量;基于多个所述条目和所述第二隐向量,从多个所述条目中确定出一个目标条目,并将所述目标条目与所述目标实体进行绑定。2.根据权利要求1所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所述第一隐向量、所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串确定所述目标实体的第二隐向量,包括:基于所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串,从多个所述条目中筛选出至少一个候选条目;基于所述至少一个候选条目以及所述第一隐向量确定所述第二隐向量。3.根据权利要求2所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串,从多个所述条目中筛选出至少一个候选条目,包括:基于所述第一词向量、多个所述第二词向量确定多个所述条目中的每一个条目与所述目标实体之间的余弦距离;基于所述第一字符串、多个所述第二字符串确定多个所述条目中的每一个条目与所述目标实体之间的编辑距离;基于所有的所述余弦距离和所有的编辑距离,从多个所述条目中筛选出至少一个所述候选条目。4.根据权利要求3所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所有的所述余弦距离和所有的编辑距离,从多个所述条目中筛选出至少一个所述候选条目,包括:对所有的所述余弦距离进行排序,根据排序的结果,从多个所述条目中筛选出第一预设数量的条目作为第一组候选条目;对所有的所述编辑距离进行排序,根据排序的结果,从多个所述条目中筛选出第二预设数量的条目作为第二组候选条目;所述候选条目包括所述第一组候选条目和所述第二组候选条目。5.根据权利要求2所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所述至少一个...
【专利技术属性】
技术研发人员:肖刚,宋彦,吴振刚,田元贺,陈伟东,孔凡尘,姜国晨,
申请(专利权)人:高创安邦北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。