一种人名匹配方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27976706 阅读:28 留言:0更新日期:2021-04-06 14:11
本申请提供了一种人名匹配方法、装置、电子设备及存储介质,涉及人名匹配技术领域。首先对待检测文章进行分词与词频分析,以获取待检测文章的目标人名及与目标人名对应的目标关键词,然后将目标人名与目标关键词输入向量空间模型,以获取目标人名对应的目标特征向量,再确定目标特征向量与预存储的特征向量的相似度,最后当相似度大于阈值时,确定目标特征向量与预存储的特征向量匹配。本申请提供的人名匹配方法、装置、电子设备及存储介质具有匹配的人名误差更小的效果。

【技术实现步骤摘要】
一种人名匹配方法、装置、电子设备及存储介质
本申请涉及人名匹配
,具体而言,涉及一种人名匹配方法、装置、电子设备及存储介质。
技术介绍
目前,为了筛选出包含人名的文章,一般需要进行文章进行人名筛选。然而,现有技术中在进行人名筛选时,仅能简单的识别文章中的人名,而无法确定该文章介绍的人名是否与需要筛选的人名匹配,例如,当需要查找演员“张三”时,现有技术中可能筛选出画家“张三”,人名匹配存在误差。综上,现有技术中在进行人名筛选时,存在匹配误差较大的问题。
技术实现思路
本申请的目的在于提供一种人名匹配方法、装置、电子设备及存储介质,以解决现有技术中在进行人名筛选时,存在匹配误差较大的问题。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请提供了一种人名匹配方法,所述方法包括:对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;确定所述目标特征向量与预存储的特征向量的相似度;当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。第二方面,本申请还提供了一种人名匹配装置,所述装置包括:信息获取单元,用于对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;特征向量获取单元,用于将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;相似度确定单元,用于确定所述目标特征向量与预存储的特征向量的相似度;匹配确定单元,用于当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。第三方面,本申请提供了一种电子设备,包括:存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现上述的人名匹配方法。第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的人名匹配方法。相对于现有技术,本申请具有以下有益效果:本申请提供了一种人名匹配方法、装置、电子设备及存储介质,首先对待检测文章进行分词与词频分析,以获取待检测文章的目标人名及与目标人名对应的目标关键词,然后将目标人名与目标关键词输入向量空间模型,以获取目标人名对应的目标特征向量,再确定目标特征向量与预存储的特征向量的相似度,最后当相似度大于阈值时,确定目标特征向量与预存储的特征向量匹配。由于本申请在进行人名匹配时,会基于人名与关键词进行匹配,且关键词基于整个待检测文章确认出,因此从该待检测文章中匹配的人名误差更小。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。图1为本申请实施例提供的电子设备的模块示意图。图2为本申请实施例提供的人名匹配方法的一种示例性流程图。图3为本申请实施例提供的人名匹配方法的另一种示例性流程图。图4为本本申请实施例提供的人名匹配装置的模块示意图。图中:100-电子设备;101-处理器;102-存储器;103-通信接口;200-人名匹配装置;210-信息获取单元;220-特征向量获取单元;230-相似度确定单元;240-匹配确定单元。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。正如
技术介绍
中所述,目前,具有社会影响力的人名,往往在内容风控方面需要特别的关注,例如一些影星或歌星等在主流内容分发平台,各大新闻网站,各政府自媒体平台的相关新闻。因此,在查找相关文章时,需要进行人名匹配,然而,在进行人名匹配时,可能存在人名相同的情况。现有的人名识别算法由于仅找出文本中的人名,因此误差可能较大。例如,当需要筛选歌手“张三”的相关文章时,现有技术可能会同时匹配出演员“张三”、画家“张三”、教师“张三”等,其存在较大误差。有鉴于此,为了解决上述问题,本申请提供了一种人名匹配方法,通过利用人名与关键词确定目标特征向量的方式,使得最终匹配的人名更加精确。需要说明的是,本申请提供的人名匹配方法可以应用于电子设备100中,图1示出本申请实施例提供的电子设备100的一种示意性结构框图,电子设备100包括存储器102、处理器101和通信接口103,该存储器102、处理器101和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器102可用于存储软件程序及模块,如本申请实施例提供的人名匹配装置对应的程序指令或模块,处理器101通过执行存储在存储器102内的软件程序及模块,从而执行各种功能应用以及数据处理,进而执行本申请实施例提供的人名匹配方法的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。其中,存储器102可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除可编程只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。处理器101可以是一种集成电路芯片,具有信号处理能力。该处理器101可以是通用处理器,包括中央处理器(Cen本文档来自技高网
...

【技术保护点】
1.一种人名匹配方法,其特征在于,所述方法包括:/n对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;/n将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;/n确定所述目标特征向量与预存储的特征向量的相似度;/n当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。/n

【技术特征摘要】
1.一种人名匹配方法,其特征在于,所述方法包括:
对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;
将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;
确定所述目标特征向量与预存储的特征向量的相似度;
当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。


2.如权利要求1所述的人名匹配方法,其特征在于,在所述确定所述目标特征向量与预存储的特征向量的相似度的步骤之前,所述方法还包括:
获取预设定的人名介绍信息;
对所述人名介绍信息进行分词与词频分析,以获取所述人名介绍信息中的人名及与所述人名对应的关键词;
将所述人名与所述关键词输入向量空间模型,以获取所述预存储的特征向量。


3.如权利要求1所述的人名匹配方法,其特征在于,所述确定所述目标特征向量与预存储的特征向量的相似度的步骤包括:
利用余弦相似度或K最近邻分类算法确定所述目标特征向量与预存储的特征向量的相似度。


4.如权利要求1所述的人名匹配方法,其特征在于,所述余弦相似度满足公式:



其中,Ai表示目标特征向量的各分量,Bi表示预存储的特征向量的各分量。


5.一种人名匹配装置,其特征在于,所述装置包括:
信息获取单元,用于对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键...

【专利技术属性】
技术研发人员:黄建颖
申请(专利权)人:成都颜创启新信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1