一种人物关系图谱的生成方法及装置制造方法及图纸

技术编号:13638432 阅读:34 留言:0更新日期:2016-09-03 03:36
本发明专利技术公开了一种人物关系图谱的生成方法及装置。所述方法包括:获取搜索请求,所述搜索请求包括目标人物;确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。如此自动生成人物关系图谱的方案,有助于提高图谱生成过程中涉及的人物关系统计效率以及准确性。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体地,涉及一种人物关系图谱的生成方法及装置
技术介绍
随着互联网技术的不断发展,海量互联网数据的统计分析成为一项重要的技术发展方向。人群的划分、人物间的关系等是社会关系的必要因素,当针对人物A报道了事件A之后,人们可能还会关心人物A与哪些人物具有关联关系,或者事件A还涉及了哪些人物,等等,这就需要对人与人之间的关联关系进行归纳整理。目前,大多通过人工方式获取人与人之间的关联关系。例如,人工浏览与人物A相关的报道,统计出与人物A相关的关联人物,如此人工操作的方式,操作过程繁琐,统计效率低下;且受人为因素的影响,准确率相对较低,统计覆盖的范围有限,关联人物的统计不全面。另外,某些互联网引擎可以提供了类似的人物关系统计功能,但是,这种统计方式主要依赖于人工标记实现,统计效率相对较低,维护成本较高,且受人工标记的影响,也可能会出现统计不全面的问题。
技术实现思路
本专利技术的目的是提供一种人物关系图谱的生成方法及装置,用以自动生成人物关系图谱,提高人物关系的统计效率以及准确性。本专利技术实施例提供了一种人物关系图谱的生成方法,所述方法包括:获取搜索请求,所述搜索请求包括目标人物;确定文件集合,所述文件集合中
包括至少一个用于搜索所述目标人物对应的关联人物的文件;利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。可选地,所述搜索请求还包括目标事件,所述确定文件集合,包括:根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。可选地,从所述文件集合中提取所述关联人物的方式为:通过自然语言技术从所述文件集合中提取所述关联人物。可选地,从所述文件集合中提取所述关系紧密度的方式为:利用第一紧密度和/或第二紧密度,确定所述关系紧密度;所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定;所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。可选地,如果利用所述第一紧密度确定所述关系紧密度,则所述关联关系为所述目标人物与所述关联人物在文件中分布的位置关系;或者,所述关联关系为所述目标人物与所述关联人物之间的人际关系。可选地,所述方法还包括:获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物;响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。本专利技术实施例提供了一种人物关系图谱的生成装置,所述装置包括:请求获取单元,用于获取搜索请求,所述搜索请求包括目标人物;集合确定单元,用于确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;图谱生成单元,用于利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。可选地,所述搜索请求还包括目标事件,所述集合确定单元,用于根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。可选地,从所述文件集合中提取所述关联人物的方式为:通过自然语言技术从所述文件集合中提取所述关联人物。可选地,所述装置还包括:关系紧密度确定单元,用于利用第一紧密度和/或第二紧密度,确定所述关系紧密度;所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定;所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。可选地,如果利用所述第一紧密度确定所述关系紧密度,则所述关联关系为所述目标人物与所述关联人物在文件中分布的位置关系;或者,所述关联关系为所述目标人物与所述关联人物之间的人际关系。可选地,所述装置还包括:二次搜索请求获取单元,用于获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物;二次搜索请求响应单元,用于响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。本专利技术技术方案中,获得搜索请求之后,即可被触发自动地从搜索请求中提取目标人物;然后可以根据目标人物,自动地确定出用于搜索关联人物的文件集合;接着,可以基于文件集合包括的文件,获取到与目标人物有关联关系的关联人物、以及目标人物与关联人物之间的关系紧密度;最后,便可根据关联人物以及关系紧密度,生成目标人物的关系图谱。图谱生成过程不受人为因素的影响,有助于提高图谱生成过程中的人物关系统计效率以及准确性。本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:图1是本专利技术人物关系图谱的生成方法实施例1的流程图;图2是本专利技术中关系图谱的一种示意图;图3是本专利技术人物关系图谱的生成方法实施例2的流程图;图4是本专利技术人物关系图谱的生成装置的结构示意图。具体实施方式以下结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。参见图1,示出了本专利技术人物关系图谱的生成方法实施例1的流程图,可以包括:S101,获取搜索请求,所述搜索请求包括目标人物。本专利技术的图谱生成方法,可以在获得搜索请求之后,被触发从搜索请求中提取目标人物,进而自动地为建立目标人物的关系图谱,确定出匹配的文件集合,以及自动地从文件集合中提取出关联人物和关系紧密度,并据此生成目标人物的关系图谱。作为一种示例,本专利技术的搜索请求可以由使用者输入,例如,搜索请求可以为“搜索人物A”,针对于此,可以通过自然语言技术从搜索请求中提取目标人物。具体地,可以利用分词器对搜索请求中的文字,进行词语分割以及词语识别,实现目标人物的自动提取。如上述示例中,可以提取出“人物A”作为目标人物。作为一种示例,使用者可以通过文本方式输入搜索请求;或者,使用者
还可以通过语音方式输入搜索请求,对应于此,可以将语音格式转换为文本格式后,再从中提取目标人物。本专利技术对此可不做具体限定。需要说明的是,本专利技术所说目标人物指的是,目标人物的姓名信息。S102,确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件。为了准确全面的建立目标人物的关系图谱,在提取到目标人物之后,可以自动为该目标人物确定一个匹配的文件集合,以便从文件集合包括的文件中提取关联人物以及关系紧密度,为生成关系图谱做好技术准备。作为一种示例,本专利技术至少可以通过以下三种方式确定文件集合。方式一,可以根据目标人物,从能够获取到的所有文件中确定文件集合,也就是说,文件集合中的文件均与目标人物相关。举例来说,能够获取到的所有文件为1万篇,其中,与人物A相关的文件为1千篇,则通过本方式确定出的文件集合包括1千篇文件。方式二,如果搜索请求中还包括目标事件,例如,搜索请求为“搜索人物A的事件A”,则可以根据目标人物和目标事件,从能够获取到的所有文件中确定文件集合,也就是说,文件集合中的文件既与目标人物相关,又与目标事件相关。举例来说,能够获取到的所有文件为1万篇本文档来自技高网
...

【技术保护点】
一种人物关系图谱的生成方法,其特征在于,所述方法包括:获取搜索请求,所述搜索请求包括目标人物;确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。

【技术特征摘要】
1.一种人物关系图谱的生成方法,其特征在于,所述方法包括:获取搜索请求,所述搜索请求包括目标人物;确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。2.根据权利要求1所述的方法,其特征在于,所述搜索请求还包括目标事件,所述确定文件集合,包括:根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。3.根据权利要求1所述的方法,其特征在于,从所述文件集合中提取所述关联人物的方式为:通过自然语言技术从所述文件集合中提取所述关联人物。4.根据权利要求1所述的方法,其特征在于,从所述文件集合中提取所述关系紧密度的方式为:利用第一紧密度和/或第二紧密度,确定所述关系紧密度;所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定;所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。5.根据权利要求4所述的方法,其特征在于,如果利用所述第一紧密
\t度确定所述关系紧密度,则所述关联关系为所述目标人物与所述关联人物在文件中分布的位置关系;或者,所述关联关系为所述目标人物与所述关联人物之间的人际关系。6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:获取基于所述目标人物的关系图谱发起的二次搜索...

【专利技术属性】
技术研发人员:麦涛张旭王磊朱志华张腾
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1