基于图注意力机制的专利多层级分类方法及计算机设备技术

技术编号：37052874 阅读：26 留言：0更新日期：2023-03-29 19:30

本申请公开了一种基于图注意力机制的专利多层级分类方法及计算机设备。该方法首先通过专利文本片段分割以及标签定义提取，生成专利文本树形结构和标签定义树形结构；然后通过节点文本相似度计算，查找相似向量，在对应节点之间添加边；再利用注意力机制得到节点的编码向量；最后，把编码向量输入到神经网络中，得到预测结果。本申请充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识，以图注意力机制的模式编码文本和标签之间的交互关系，解决了现有技术的缺乏精细化信息利用的缺陷，提升了专利标签分类的准确率，达到解放人力、降本增效的目的。降本增效的目的。降本增效的目的。

全部详细技术资料下载

【技术实现步骤摘要】
基于图注意力机制的专利多层级分类方法及计算机设备

[0001]本申请属于文献分类
，具体涉及一种参考规范标准（如IPC分类等）对专利文献进行自动分类的方法。

技术介绍

[0002]专利作为衡量国家创新能力的重要文献，是发现先进技术的重要途径。中国在知识产权的保护力度上取得巨大进步，显著体现在专利数量的迅速增长。根据国家知识产权局公布的数据，2021年全年共授权专利技术专利69.6万件，每万人口高价值专利技术专利拥有量达到7.5件。在世界知识产权组织发布的《2021年全球创新指数报告》中，中国排名位居全球第12位，连续9年稳步提升。专利文献数量的快速增长大大加重了人工分类的工作量，小规模机器学习的分类方法的准确性也很难满足当前需求。因此，如何从快速准确地从大量专利申请中识别出专利所属技术类别成为目前的一项重要研究内容。
[0003]目前常见的专利分类方法一般基于专利文本实现，有些结合标签、专利技术人网络、权利人网络等专利节点特征实现，例如中国专利文献CN113468291A公开了一种基于专利网络表示学习的专利自动分类方法，其利用专利的文本内容、专利技术人信息与专利权人信息各自构造语义视图网络、专利技术人视图网络与专利权人视图网络，结合不同视图网络之间的相关性对专利节点表征向量进行增强，再通过注意力机制将增强后的三个视图网络的专利节点表征向量进行融合，将融合结果作为最终的专利节点表征向量并进行分类预测，以提升专利分类结果的准确率。然而，这类优化的分类方法，在专利领域专业性强、结构关系复杂场景下的自动分类效果...

【技术保护点】

【技术特征摘要】
1.基于图注意力机制的专利多层级分类方法，其特征在于，包括：步骤S1、获取待分类专利文本，根据专利文本的格式规范分割篇章及段落，再将各段落内部文本拆分为句子，根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构；步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构，构建统一的图结构，并通过相似度计算，将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记；所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到，每一层级的每个分类号分别作为一个标签；步骤S3、图注意力机制编码：基于所述统一的图结构的邻接关系，应用注意力机制对节点进行统一编码，得到节点的特征向量；步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中，输出专利分类的预测结果。2.根据权利要求1所述的基于图注意力机制的专利多层级分类方法，其特征在于，所述标签定义树形数据结构的构建方法包括：获取专利分类标准规范文档；读取文档，得到标签以及对应的定义；对各个标签的定义文本进行清洗、转换、补全和/或合并处理；根据标签定义的层次化关系生成标签定义树形数据结构。3.根据权利要求1所述的基于图注意力机制的专利多层级分类方法，其特征在于，所述专利分类标准规范为国际专利分类、欧洲专利分类、美国专利分类或日本专利分类。4.根据权利要求1所述的基于图注意力机制的专利多层级分类方法，其特征在于，记专利文本树形数据结构为，其中表示专利文本树形数据结构的顶点集合，表示专利文本树形数据结构的边集合；记标签定义树形数据结构为，其中为标签定义树形数据结构的顶点集合，为标签定义树形数据结构的边集合；则步骤S2具体包括：将和合并为图，其中，表示图的顶点集合，表示图的边集合；计算图中节点所对应的文本相似度，如果图中专利文本树形数据结构的节点与标签定义树形数据结构的节点所对应的文本相似度超过设定阈值，则通过在这两个节点之间添加一条边实现所述关联标记。5.根据权利要求4所述的基于图注意力机制的专利多层级分类方法，其特征在于，所述计算图中节点所对应的文本相似度包括分别基于VSM的相似度计算和基于Bert预训练模型的相似度计算，只要VSM和Bert预训练模型任一计算出的相似度大于0.9，则在对应节点之间添加一条边。6.根据权利要求5所述的基于图注意力机制的专利多层级分类方法，其特征在于，所述基于VSM的相似度计算，具体包括：下载并安装python的jieba包，使用jieba包中的cut函数对文本进行分词，从
nltk.corpus包加载中文停用词表，删除文本中的停用词，得到文本的特征项序列，其中m为词向量的维度；对于每个特征词，计算其在文本中出现的频率、在文档集中出现的逆频率；计算特...

【专利技术属性】
技术研发人员：徐青伟，严长春，裴非，范娥媚，蔡明睿，
申请(专利权)人：知呱呱天津大数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人