同名人物的识别处理方法及处理装置制造方法及图纸

技术编号:24939101 阅读:46 留言:0更新日期:2020-07-17 21:10
本发明专利技术公开了一种同名人物的识别处理方法及处理装置。其中,该方法包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。本发明专利技术解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确的技术问题。

【技术实现步骤摘要】
同名人物的识别处理方法及处理装置
本专利技术涉及人物分类领域,具体而言,涉及一种同名人物的识别处理方法及处理装置。
技术介绍
知识图谱又称为科学知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,在各个领域得到了广泛的应用,尤其在同名人物识别领域,往往利用原有的知识图谱进行人物的相似度判断,但这种方法往往忽略了时间变迁导致的人物属性的表更对人物相似度的影响,进而在判断同名人物是够指代同一实体时,存在识别不准确的问题。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种同名人物的识别处理方法及处理装置,以至少解决由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确的技术问题。根据本专利技术实施例的一个方面,提供了一种同名人物的识别处理方法,包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。可选地,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,包括:从知识图谱数据库中提取具有相同姓名的人物集合,以及每个任务集合中获取每一个人物的描述信息。可选地,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度;基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体。可选地,目标关系相似度通过以下方式确定:对任意两个人物的亲属关系相似度与社交关系相似度进行加权求和,得到目标关系相似度;其中,亲属关系相似度权重系数人物的社交关系相似度。可选地,基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体,包括:对属性相似度、事件信息相似度和目标关系相似度进行加权求和,得到目标相似度;比较目标相似度与设定阈值,若目标相似度大于或等于设定阈值,则确定任意两个人物属于同一实体。可选地,获取任意两个人物在目标人物所在的知识图谱中的目标关系相似度之前,还包括:获取现有的每个人物的关系列表其中,rsubject表示关系主体,rname表示关系名,robject表示关系客体。可选地,从描述信息中提取包含时间上下文的人物属性和事件信息,包括:对于人物pi,采用时间正则表达式提取描述信息中的时间序列将人物pi描述信息按时间序列Ti分段,得到分段文本序列W={W1,W2,...Wn},其中分段文本bk表示文本、表示时间标签,k=1,2,3,…,n。可选地,采用时间正则表达式提取描述信息中的时间序列将描述信息按时间序列Ti分段,得分段文本序列W={W1,W2,...Wn},方法包括:对分段文本依据字典库和依存句法分析提取人物关系集合其中表示按照分段文本提取的人物关系集合;对人物所有分段文本进行人物关系的提取,得到利用提取的人物关系集合补充人物pi的关系集合得到人物关系知识图谱从人物关系知识图谱获取任意两个人物的亲属关系相似度与社交关系相似度。可选地,采用时间正则表达式提取描述信息中的时间序列将描述信息按时间序列Ti分段,得分段文本序列W={W1,W2,...Wn}之后,方法还包括:对分段文本依据字典库和依存句法分析算法提取人物属性集合其中a,b,λ表示不同的人物属性,人物属性表示时间标签和表示属性值;提取事件的主体S、客体O以及谓语动词V,得到事件集合Ek={Ek1,Ek2,...Ekem},其中,即每一个事件Ekl,包含一个事件的主体S、一个客体O、一个谓语动词V,以及事件发生的时间其中,l≤l≤em。可选地,人物属性集合和人物事件序列通过以下方法获取:对人物pi所有分段文本Wk进行提取,得到含时间上下文的人物属性集合其中人物事件序列均小于等于n;可选地,对指代相同实体的同名人物进行合并,输出新的列表,其中,每个新的列表中的同名人物指代同一实体。根据本申请的另一方面,还提供了一种同名人物的识别处理方法,包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算目标人物与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物;至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物。根据本申请的另一方面,还提供了一种同名人物的识别处理装置,包括:获取模块,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;提取模块,从描述信息中提取包含时间上下文的人物属性和事件信息;计算模块,计算人物集合中任意两个人物的属性相似度和事件信息相似度;确定模块,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。根据本申请的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任一种的同名人物的识别处理方法。根据本申请的另一方面,还提供了一种处理器,处理器用于运行存储介质所存储的程序,其中,程序运行时执行任一种同名人物的识别处理方法。在本专利技术实施例中,采用构建和比较知识图谱的方式,通过构造随时间序列变化的人物属性值列表对人物属性是否相同进行判断,达到了对同名人物是否指代同一实体进行识别的目的,从而实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本申请实施例的一种同名人物的识别处理方法的流程示意图;图2是根据本申请实施例的另一种同名人物的识别处理方法的流程示意图;图3是根据本申请实施例的一种同名人物的识别处理装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的人物,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他本文档来自技高网
...

【技术保护点】
1.一种同名人物的识别处理方法,其特征在于,包括:/n获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;/n从所述描述信息中提取包含时间上下文的人物属性和事件信息;/n计算所述人物集合中任意两个人物的属性相似度和事件信息相似度;/n至少基于所述属性相似度和事件信息相似度确定所述人物集合中所述任意两个人物是否为同一人物。/n

【技术特征摘要】
1.一种同名人物的识别处理方法,其特征在于,包括:
获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
从所述描述信息中提取包含时间上下文的人物属性和事件信息;
计算所述人物集合中任意两个人物的属性相似度和事件信息相似度;
至少基于所述属性相似度和事件信息相似度确定所述人物集合中所述任意两个人物是否为同一人物。


2.根据权利要求1所述的识别处理方法,其特征在于,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,包括:
从人物知识图谱数据库中提取具有相同姓名的人物集合,以及从每个人物集合中获取所述每一个人物的描述信息。


3.根据权利要求1所述的识别处理方法,其特征在于,至少基于所述属性相似度和事件信息相似度确定所述人物集合中所述任意两个人物是否为同一人物,包括:
获取所述目标人物所在的知识图谱中的目标关系相似度;
基于所述属性相似度、所述事件信息相似度和所述目标关系相似度确定所述人物集合中所述任意两个人物是否为同一实体。


4.根据权利要求3所述的识别处理方法,其特征在于,所述目标关系相似度通过以下方式确定:
对所述任意两个人物的亲属关系相似度与社交关系相似度进行加权求和,得到所述目标关系相似度;
其中,所述亲属关系相似度权重系数大于社交关系相似度。


5.根据权利要求3所述的识别处理方法,其特征在于,基于所述属性相似度、所述事件信息相似度和所述目标关系相似度确定所述人物集合中所述任意两个人物是否为同一实体,包括:
对所述属性相似度、所述事件信息相似度和所述目标关系相似度进行加权求和,得到目标相似度;
比较所述目标相似度与设定阈值,若所述目标相似度大于或等于所述设定阈值,则确定所述任意两个人物属于同一实体。


6.根据权利要求3所述的识别处理方法,其特征在于,获取所述任意两个人物在所述目标人物所在的知识图谱中的目标关系相似度之前,还包括:
获取现有的每个人物的关系列表其中,rsubject表示关系主体,rname表示关系名,robject表示关系客体。


7.根据权利要求1所述的识别处理方法,其特征在于,从所述描述信息中提取包含时间上下文的人物属性和事件信息,包括:
对于人物pi,采用时间正则表达式提取描述信息中的时间序列将人物pi描述信息按所述时间序列Ti分段,得到分段文本序列W={W1,W2,...Wn},其中分段文本bk表示文本、表示时间标签,k=1,2,3,…,n。


8.根据权利要求7所述的识别处理方法,其特征在于,采用时间正则表达式提取描述信息中的时间序列将描述信息按所述时间序列Ti分段,得分段文本序列W={W1,W2,...Wn}之后,所述方法包括:
对分段文本依据字典库和依存句法分析工具或关系抽取工...

【专利技术属性】
技术研发人员:吴信东刘古刘李磊
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1