一种基于专利数据库的企业人员姓名消歧方法及相关设备技术

技术编号:36354641 阅读:10 留言:0更新日期:2023-01-14 18:10
本申请提供一种基于专利数据库的企业人员姓名消歧方法及相关设备,涉及数据处理领域,其中方法包括:从专利数据库中获取目标企业人员姓名对应的全部专利;基于专利的IPC分类号对全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各专利集合对应的行业类型;获取各专利集合中的发明专利技术人姓名,将出现频次大于所设阈值的发明专利技术人姓名分别确定为共同发明专利技术人姓名;将行业类型与共同发明专利技术人姓名作为专利数据库中目标企业人员姓名对应的标签。通过划分详细的行业类型标签并确定共同发明专利技术人标签,能够精确指向具体的目标企业人员实体,能够有效提高企业数据中同名消歧的准确性。性。性。

【技术实现步骤摘要】
一种基于专利数据库的企业人员姓名消歧方法及相关设备


[0001]本申请涉及数据处理领域,具体涉及一种基于专利数据库的企业人员姓名消歧方法及相关设备。

技术介绍

[0002]随着知识产权行业的发展,全国各类企业的专利数据大量涌入专利数据库,在海量的专利数据中,往往会出现企业人员姓名相同的情况,导致在检索某个企业人员相关的专利时,会出现检索不准确的情况。而为了提高检索的准确性,则需要对企业人员重名情况进行处理以消歧。传统技术对于企业人员重名情况的处理方式通常是通过对拥有相同姓名的企业人员附加不同的地域标签以及行业标签来进行区分,以此来消除相同姓名造成的歧义。现有的地域标签通常是以省级或市级为基准进行划分的,但由于我国人口基数大,相同省级或市级往往还是存在同名同行业的情况,同时行业标签通常是根据企业的经营范围进行确定的,而企业的经营范围通常涉及的业务较广,导致所确定的行业标签也较为宽泛,因此使用现有的地域标签和行业标签对专利数据库中同名消歧的效果不够理想,消歧的准确性较低。

技术实现思路

[0003]本申请提供一种基于专利数据库的企业人员姓名消歧方法及相关设备,通过专利的IPC分类号划分专利集合得到细分的行业类型,同时获取共同专利技术人中出现频次较高的专利技术人姓名,将行业类型与出现频次较高的专利技术人姓名作为数据库中区别企业人员姓名的标签,与现有的地域标签与行业标签相比,为专利数据中的相同的企业人员姓名添加更详细的标签,能够更精确地区分专利数据中的同名数据,从而能够更加准确地实现同名消歧。
[0004]第一方面,本申请提供了一种基于专利数据库的企业人员姓名消歧方法,所述方法包括:从专利数据库中获取目标企业人员姓名对应的全部专利;基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似
的专利集合,并获取各所述专利集合对应的行业类型;获取各所述专利集合中的专利技术人姓名,将出现频次大于所设阈值的专利技术人姓名分别确定为所述目标企业人员姓名对应的共同专利技术人姓名;将所述行业类型与所述共同专利技术人姓名作为所述专利数据库中对应所述目标企业人员姓名的标签。
[0005]通过上述技术方案,使用IPC分类号对专利数据库中的同名专利进行划分,IPC分类号所代表的
是比较详细且准确的,因此所划分的相似
的专利对应的行业类型较为精确可靠,同时与目标企业人员姓名一起出现的专利技术人绑定作为标签,使得同名人员具有独特的辨识标签,能够更加准确地实现同名消歧。
[0006]可选的,所述基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似

的专利集合,包括:基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似
的专利集合。
[0007]通过采用上述技术方案,按IPC分类号的五大类作为划分的邻域半径,同时确定邻域密度的阈值,能够依据IPC分类号逐渐缩小
的范围,从同名的全部专利 中划分出相似
的专利集合,能够简单快速的对大量的同名专利进行归类处理。
[0008]可选的,所述基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似
的专利集合,包括:以IPC分类号的部为邻域半径对所述全部专利进行划分,得到部对应的多个类型的第一专利集合;获取各所述第一专利集合的邻域密度;判断各所述第一专利集合的邻域密度是否都大于所设第一邻域密度阈值;若各所述第一专利集合的邻域密度都大于所设第一邻域密度阈值,则将各所述第一专利集合作为至少一个相似
的专利集合;若各所述第一专利集合的邻域密度不都大于所设第一邻域密度阈值,则以IPC分类号的大类为邻域半径对所述全部专利进行划分,得到大类对应的多个类型的第二专利集合,并按照上述方式对多个第二专利集合进行判断,直至以IPC分类号的小组为邻域半径对所述全部专利进行划分得到的专利集合判断完成为止。
[0009]通过采用上述技术方案,按IPC分类号的大小顺序逐渐缩小相似
的大小,先按IPC分类号中的部为分类依据,计算得到划分的专利集合中的邻域密度,由于以部为分类依据涵盖的专利数量较多,邻域半径较大,因而邻域密度是小于第一邻域密度阈值的,在以IPC大类为分类依据后,邻域半径较大,划分出的专利集合也相对较多,因而邻域密度逐渐增大,直至大于第一邻域密度阈值得到专利集合的划分结果,通过IPC分类号
广度由大到小的顺序,能够快速获取到合适的专利集合划分结果。
[0010]可选的,所述获取各所述第一专利集合的邻域密度之后,还包括:若所述第一专利集合的邻域密度小于所述第二邻域密度阈值,则获取所述第一专利集合内的专利数量;若所述第一专利集合内的专利数量小于数量阈值,则将所述第一专利集合清除。
[0011]通过上述技术方案,若划分出的专利集合的邻域密度低且专利集合类的专利数量少,则说明此专利集合无参考价值,无法准确指向目标企业人员实体,避免对后续对于专利集合的划分产生影响。
[0012]可选的,所述将出现频次大于所设阈值的所述专利技术人姓名确定为共同专利技术人姓名,包括:若所述专利集合中出现频次大于所设阈值的专利技术人姓名数量为多个,分别获取所述多个出现频次大于所设阈值的专利技术人姓名对应的专利的申请人;若所述申请人相同,则将所述多个出现频次大于所设阈值的专利技术人姓名确定为并列的共同专利技术人姓名。
[0013]通过采用上述技术方案,在同一专利集合中,当与目标企业人员姓名同时出现的共同专利技术人多次出现时,判断这些多次出现的共同专利技术人的申请人是否相同,相同则说明
这些共同专利技术人与目标企业人员姓名具有相同联系,因此可将这些共同专利技术人一起并列为目标企业人员姓名的标签,以明确的共同专利技术人姓名指向目标企业人员姓名。
[0014]通过采用上述技术方案,若专利集合中出现频次大于所设阈值的专利技术人姓名只有一个,则说明此专利技术人姓名与目标企业人员姓名的联系较大,因此将其确定为共同专利技术人姓名则比较准确。
[0015]可选的,所述将所述行业类型与所述共同专利技术人姓名作为所述专利数据库中对应所述目标企业人员姓名的标签之后,还包括:在专利数据库中基于各所述专利集合的邻域密度对所述目标企业人员姓名对应的标签进行排序;显示所述目标企业人员姓名对应的标签的排序结果。
[0016]通过采用上述技术方案,专利集合的邻域密度说明,目标企业人员姓名对应的某个
的专利数量多、消歧效果好,同时将专利样本少、消歧效果差的目标企业人员姓名对应的标签排在后面,提高专利数据库中检索到目标企业人员姓名对应标签的速度。
[0017]可选的,所述获取各所述专利集合对应的行业类型,包括:将所述专利的IPC分类号与国民经济行业分类代码表进行匹配,得到所述专利的IPC分类号与行业类型的对应关系;基于所述专利的IPC分类号与行业类型的对应关系,获取各所述专利集合对应的行业类型。
[0018]通过采用上述技术方案,将IPC分类号与国民经济分类代码表进行匹配,能够根据I本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于专利数据库的企业人员姓名消歧方法,其特征在于,所述方法包括:从专利数据库中获取目标企业人员姓名对应的全部专利;基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各所述专利集合对应的行业类型;获取各所述专利集合中的发明人姓名,将出现频次大于所设阈值的所述发明人姓名分别确定为共同发明人姓名;将所述行业类型与所述共同发明人姓名作为所述专利数据库中所述目标企业人员姓名对应的标签。2.根据权利要求1所述的方法,其特征在于,所述基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,包括:基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似技术领域的专利集合。3.根据权利要求2所述的方法,其特征在于,所述基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,包括:以IPC分类号的部为邻域半径对所述全部专利进行划分,得到部对应的多个类型的第一专利集合;获取各所述第一专利集合的邻域密度;判断各所述第一专利集合的邻域密度是否都大于所设第一邻域密度阈值;若各所述第一专利集合的邻域密度都大于所设第一邻域密度阈值,则将各所述第一专利集合作为至少一个相似技术领域的专利集合;若各所述第一专利集合的邻域密度不都大于所设第一邻域密度阈值,则以IPC分类号的大类为邻域半径对所述全部专利进行划分,得到大类对应的多个类型的第二专利集合,并按照上述方式对多个第二专利集合进行判断,直至以IPC分类号的小组为邻域半径对所述全部专利进行划分得到的专利集合判断完成为止。4.根据权利要求3所述的方法,其特征在于,所述获取各所述第一专利集合的邻域密度之后,还包括:若所述第一专利集合的邻域密度小于所述第二邻域密度阈值,则获取所述第一专利集合内的专利数量;若所述第一专利集合内的专利数量小于数量阈值,则将所述第一专利集合清除。5.根据权利要求1所述的方法,其特征在于,将出现频次大于所设阈值的发明人...

【专利技术属性】
技术研发人员:权利要求书二页说明书一一页附图八页
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1