一种用于专利数据中发明人姓名消歧的方法技术

技术编号:29675054 阅读:40 留言:0更新日期:2021-08-13 21:57
本发明专利技术提供了一种用于专利数据中发明专利技术人姓名消歧的方法,属于信息处理领域,包括:提取专利数据中的发明专利技术人姓名集合、合作者集合、所在申请单位集合及知识分类号集合;对发明专利技术人姓名集合进行初步过滤;计算发明专利技术人姓名集合中各发明专利技术人间知识分类号相似程度,若发明专利技术人间知识分类号相似度大于设定的阈值a,则将该姓名对加入潜在相似集合Pi;对潜在相似集合Pi中的数据采用遍历方法提取集合元素,计算两个元素间的姓名相似度;采用随机森林算法对结果数据数据进一步进行判别;将结果数据以可视化界面操作的方式展示给用户选择,用户选择是否需要变更、修改,用户提交后对结果集中的数据进行替代。该方法可以快速筛选出大部分无用数据,减小计算量。

【技术实现步骤摘要】
一种用于专利数据中专利技术人姓名消歧的方法
本专利技术属于信息处理领域,具体涉及一种用于专利数据中专利技术人姓名消歧的方法。
技术介绍
专利技术人姓名消歧主要用于处理专利数据中由于输入或者编码错误导致的专利技术人姓名歧义。如在专利数据中申请人为张明与张日月,实际上其为同一个专利技术人,但是由于在数据输入时的错误导致申请人被区分为两个人,这类错误会影响专利数据中以专利技术人为研究对象的网络分析。因此需要使用专利技术人姓名消歧算法对这类错误进行处理。现有同一公司的专利数据中专利技术人消歧技术主要是由美国加州大学Fleming教授团队开发的贝叶斯消歧模型完成,即利用先验概率和后验概率评估姓名发生错误的概率,根据概率阈值或置信区间判断专利技术人姓名是否产生歧义。但该模型所包含的技术主要针对非汉字专利技术人姓名,即只能识别和纠正英文字母类姓名错误。由于汉字有其特殊性,以汉字为基础的专利技术人姓名消歧需要设计新的算法,原算法应用上存在局限性。因此,本申请提出一种用于专利数据中专利技术人姓名消歧的方法。r>
技术实现思路
...

【技术保护点】
1.一种用于专利数据中专利技术人姓名消歧的方法,其特征在于,包括以下步骤:/n步骤1、提取专利数据中的专利技术人姓名集合、专利技术人的合作者集合、专利技术人所在申请单位集合及知识分类号集合;/n步骤2、如果专利数据中不重复的专利技术人姓名集合的元素数量大于10000,则对专利技术人姓名集合进行初步过滤;计算专利技术人姓名集合中各专利技术人拥有的知识分类号相似程度,若专利技术人间知识分类号相似度大于设定的阈值a,则将该姓名对加入潜在相似集合Pi/n步骤3、对潜在相似集合Pi中的数据采用遍历方法提取集合元素,计算相似集合Pi中两个姓名元素间的相似度;/n步骤4、采用随机森林算法对步骤3计算的相似度...

【技术特征摘要】
1.一种用于专利数据中发明人姓名消歧的方法,其特征在于,包括以下步骤:
步骤1、提取专利数据中的发明人姓名集合、发明人的合作者集合、发明人所在申请单位集合及知识分类号集合;
步骤2、如果专利数据中不重复的发明人姓名集合的元素数量大于10000,则对发明人姓名集合进行初步过滤;计算发明人姓名集合中各发明人拥有的知识分类号相似程度,若发明人间知识分类号相似度大于设定的阈值a,则将该姓名对加入潜在相似集合Pi
步骤3、对潜在相似集合Pi中的数据采用遍历方法提取集合元素,计算相似集合Pi中两个姓名元素间的相似度;
步骤4、采用随机森林算法对步骤3计算的相似度数据进一步进行判别,获得结果集R',防止过拟合;
步骤5、将结果集R'以可视化界面操作的方式展示给用户选择,用户选择是否需要变更、修改,用户提交后对结果集中的数据进行替代。


2.根据权利要求1所述的用于专利数据中发明人姓名消歧的方法,其特征在于,所述步骤3中,所述合作者相似度的计算如下:









S_Coo=Mean{S_Coo1,S_Coo2,S_Coo3}(4)
其中Aai表示的是研发者i在其申请的专利中,研发者对应的专利合作者集合;Baj表示的是研发者j在其申请的专利中,研发者对应的专利合作者;S_Coo1,S_Coo2,S_Coo3分别表示其合作者相似度的计算方法,最后S_Coo取三者的均值作为研发者合作者相似度。


3.根据权利要求2所述的用于专利数据中发明人姓名消歧的方法,其特征在于,所述步骤3中,所述专利分类号相似度计算如下:









S_Pcn=Mean{S_Pcn1,S_Pcn2,S_Pcn3}(8)
其中,Abi表示的是研发者i在其申请的专利中,研发者i的专利对应的专利分类号;Bbj表示的是研发者j在其申请的专利中,研发者j的专利对应的专利分类号;
S_Pcn1,S_Pcn2,S_Pcn3分别表示其专利分类号相似度的计算方法,最后S_Pcn取三者的均值作为研发者合作者相似度。


4.根据权利要求3所述的用于专利...

【专利技术属性】
技术研发人员:孙笑明熊旺王雅兰马浩智刘斌
申请(专利权)人:西安循数信息科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1