System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于IPC标签共现的规则检核方法及系统技术方案_技高网

一种基于IPC标签共现的规则检核方法及系统技术方案

技术编号:40486672 阅读:6 留言:0更新日期:2024-02-26 19:18
本发明专利技术公开了一种基于IPC标签共现的规则检核方法及系统,采用的IPC标签频繁模式,通过IPC规则检核算法得到满足设定置信度阈值的预测结果,提升了IPC多标签分类结果的置信度。本发明专利技术采用了IPC标签上下文模型,利用了共享同一篇专利的多个IPC标签之间具有相似性、顺序性的特点,提升预测结果的准确率。基于IPC树状层次语义关系设计父子IPC标签竞选算法,考虑了IPC体系全局的层级语义关系,有利于IPC规则检核提升IPC多标签分类结果的质量。

【技术实现步骤摘要】

本专利技术涉及文本图形分类处理,具体涉及一种基于ipc标签共现的规则检核方法及系统。


技术介绍

1、专利文献申请时需要依据其
技术实现思路
进行国际专利分类划分。人工方式划分给专利审查员带来了巨大的工作量。一种基于sbert的中文专利ipc分类方法(公开号为cn115758244a的中国专利公开文本)采用具有孪生结构的sbert作为中文专利自动分类的框架,将专利文本和ipc分类表中的分类术语描述为两路数据输入sbert,通过bert实现对两路文本的向量化编码,然后由得到的两路向量相近程度来判断真实专利的类别,还能够给出多个ipc分类号。一种专利文本多标签分类方法(公开号为cn113849655b的中国专利公开文本),首先将ipc标签文本描述向量化来表示ipc标签向量,将训练集中的ipc标签共现关系矩阵作为标签之间的关联矩阵,再基于上述矩阵得到融合标签关联关系的ipc标签表示矩阵,最后将专利文本的不同角度的特征表示融合后得到文本特征矩阵与ipc标签矩阵相乘得到标签分数矩阵,通过激活层归一化得到各个标签的概率。一种基于知识图谱的专利ipc分类号推荐方法及装置(公开号为cn114357086a的中国专利文本)构建专利知识图谱,利用transe模型对图谱中的实体进行向量化表示,得到专利技术名称的向量化表示;利用专利技术名称的向量化表示计算查询专利与数据库中各专利之间的相似度,将于查询专利相似度最高的m件专利作为推荐的类似专利;将类似专利中出现次数数量高的n个ipc分类号作为推荐的ipc分类号。

2、面对每年数量巨大的专利申请量,需要采用新的技术方案,以提高ipc分类效率和准确率。


技术实现思路

1、鉴于此,本专利技术提供的一种基于ipc标签共现的规则检核方法及系统,以提高ipc分类效率和准确率。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、本专利技术一方面提供了一种基于ipc标签共现的规则检核方法,包括:

4、ipc国际专利分类标签频繁模式挖掘;ipc标签上下文模式挖掘;ipc规则检核;其中,

5、所述ipc国际专利分类标签频繁模式挖掘,包括如下步骤:

6、抽取预先准备的样本库专利文献库中的ipc标签,构建专利ipc标签数据库,计算所有ipc项的ipc支持度计数;对大于支持度计数阈值的所有ipc项按照降序排序,得到的ipc项有序列表;并构建ipc项频繁模式树;遍历并从ipc项频繁模式树获取,有序列表中所有ipc项的条件模式基,构建频繁ipc项集;

7、遍历所述频繁ipc项集,挖掘ipc标签频繁模式关联规则,汇总所有规则形成ipc项频繁模式关联规则集;

8、所述ipc标签上下文模式挖掘包括如下步骤:

9、构建用于模型训练的数据集;

10、基于ipc标签上下文模型实现ipc标签上下文模式挖掘:

11、采用所述用于模型训练的数据集,迭代更新模型参数,进行训练,得到训练好的ipc标签上下文模型;

12、利用当前待加工专利文献的前n个ipc多标签分类结果,构建模型应用数据集;

13、将所构建的模型应用数据集输入训练好的ipc标签上下文模型;将模型预测出的当前待加工专利文献的所有前一个ipc标签和后一个ipc标签,整理并去重得到一个ipc标签集合,用于ipc规则检核;

14、所述ipc规则检核,包括如下步骤:

15、输入待加工专利文献的前n个ipc多标签分类结果、所述ipc标签频繁模式关联规则集、所述ipc标签上下文模型预测的上下文ipc标签集合;

16、将所述n个ipc多标签分类结果,与所述ipc标签上下文模型预测的上下文ipc标签集合,求并集;构建ipc标签对列表;

17、判断当前ipc标签对是否存在对应的ipc规则且满足设定的置信度阈值,如存在则将当前ipc标签对保存到已验证的ipc标签对列表;

18、展开所述已验证的ipc标签对列表所有ipc标签并去重,得到ipc多标签分类结果;

19、依据ipc标签的层级关系构建父标签查询字典进行筛选;

20、遍历父子ipc标签列表,进行轮盘赌竞选,得到获胜ipc标签列表;

21、将得到ipc多标签分类结果中去除父子ipc标签后的所有ipc标签,所得到的获胜ipc标签列表,计算并集,得到ipc标签列表。

22、更适宜地,所述ipc标签上下文模型包括:输入层,隐藏层,层次化softmax和输出层;输入层实现对待预测标签和引导标签分别经映射矩阵后的两个输入向量进行拼接;隐藏层实现对输入层拼接的两个输入向量利用神经网络进行计算,得到隐藏层向量;层次化softmax利用二叉树表示小组层级展开的ipc体系中的所有ipc标签,并优化对隐藏层向量到输出层的计算过程;输出层计算得到待预测标签的前一个ipc标签和后一个ipc标签。

23、本专利技术另一方面,本专利技术提供一种引入ipc规则检核的专利ipc分类方法,包括:

24、步骤一:专利图文多模态双曲模型训练,并应用模型得到图文对的双曲嵌入表示;

25、步骤二:ipc多标签分类模型训练,并应用模型预测前n个ipc多标签分类结果;

26、步骤三:利用ipc标签频繁模式挖掘模块,从样本库专利文献的共现ipc标签中,得到ipc标签频繁模式关联规则集;

27、步骤四:ipc标签上下文模式挖掘,利用样本库专利文献的共现ipc标签构建训练集,训练ipc标签上下文模型,利用模型输入第二步的前n个多标签分类结果,得到前一个和后一个标签构成的上下文标签集合;

28、步骤五:步骤二的前n个多标签分类结果和步骤四的上下文标签集合,计算并集,利用步骤二得到的ipc标签频繁模式关联规则集,对并集执行ipc规则检核;

29、通过ipc规则检核的ipc标签汇总得到最终ipc分类结果。

30、本专利技术再一方面,还提供了一种基于ipc标签共现的规则的检核系统,包括:ipc国际专利分类标签频繁模式挖掘模块;ipc标签上下文模式挖掘模块;ipc规则检核模块;分别用于执行前述基于ipc标签共现的规则检核方法的各步骤。

31、本专利技术实施例还提供一种引入ipc规则检核的专利ipc分类系统,采用前述的基于ipc标签共现的规则检核方法,该系统包括:

32、第一训练模块,用于专利图文多模态双曲模型训练,并应用模型得到图文对的双曲嵌入表示;

33、第二训练模块,用于ipc多标签分类模型训练,并应用模型预测前n个ipc多标签分类结果;

34、第一处理模块,利用ipc标签频繁模式挖掘模块,从样本库专利文献的共现ipc标签中,得到ipc标签频繁模式关联规则集;

35、第二处理模块,用于ipc标签上下文模式挖掘,利用样本库专利文献的共现ipc标签构建训练集,训练ipc标签上下文模型,利用模型输入第二训练模块输出的前n个多标签分本文档来自技高网...

【技术保护点】

1.一种基于IPC标签共现的规则检核方法,其特征在于,包括:IPC国际专利分类标签频繁模式挖掘;IPC标签上下文模式挖掘;IPC规则检核;其中,

2.如权利要求1所述的基于IPC标签共现的规则检核方法,其特征在于,所述频繁IPC项集通过下述步骤构建:

3.如权利要求1所述的基于IPC标签共现的规则检核方法,其特征在于,所述IPC标签上下文模型包括:输入层、隐藏层、层次化Softmax和输出层;输入层实现对待预测标签和引导标签分别经映射矩阵后的两个输入向量进行拼接;隐藏层实现对输入层拼接的两个输入向量利用神经网络进行计算,得到隐藏层向量;层次化Softmax利用二叉树表示小组层级展开的IPC体系中的所有IPC标签,并优化对隐藏层向量到输出层的计算过程;输出层计算得到待预测标签的前一个IPC标签和后一个IPC标签。

4.如权利要求1所述的基于IPC标签共现的规则检核方法,其特征在于,所述IPC标签上下文模式挖掘中,所述构建用于模型训练的数据集,构建流程如下:

5.一种引入IPC规则检核的专利IPC分类方法,其特征在于,包括:

>6.如权利要求5所述的专利IPC分类方法,其特征在于,所述前N个IPC多标签分类结果,是通过下述方法得到的:

7.一种基于IPC标签共现的规则检核系统,其特征在于,包括:IPC国际专利分类标签频繁模式挖掘模块;IPC标签上下文模式挖掘模块;IPC规则检核模块;其中,

8.一种引入IPC规则检核的专利IPC分类系统,其特征在于,采用如权利要求1所述的基于IPC标签共现的规则检核方法,包括:

9.如权利要求8所述引入IPC规则检核的专利IPC分类系统,其特征在于,所述前N个IPC多标签分类结果是通过下述方法得到:

10.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;

11.计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被执行如权利要求1-4中任一项所述的方法。

...

【技术特征摘要】

1.一种基于ipc标签共现的规则检核方法,其特征在于,包括:ipc国际专利分类标签频繁模式挖掘;ipc标签上下文模式挖掘;ipc规则检核;其中,

2.如权利要求1所述的基于ipc标签共现的规则检核方法,其特征在于,所述频繁ipc项集通过下述步骤构建:

3.如权利要求1所述的基于ipc标签共现的规则检核方法,其特征在于,所述ipc标签上下文模型包括:输入层、隐藏层、层次化softmax和输出层;输入层实现对待预测标签和引导标签分别经映射矩阵后的两个输入向量进行拼接;隐藏层实现对输入层拼接的两个输入向量利用神经网络进行计算,得到隐藏层向量;层次化softmax利用二叉树表示小组层级展开的ipc体系中的所有ipc标签,并优化对隐藏层向量到输出层的计算过程;输出层计算得到待预测标签的前一个ipc标签和后一个ipc标签。

4.如权利要求1所述的基于ipc标签共现的规则检核方法,其特征在于,所述ipc标签上下文模式挖掘中,所述构建用于模型训练的数据集,构建流程如下:

【专利技术属性】
技术研发人员:冯好国范娥媚徐青伟严长春裴非
申请(专利权)人:知呱呱天津大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1