基于图注意力机制的专利多层级分类方法及计算机设备技术

技术编号:37052874 阅读:26 留言:0更新日期:2023-03-29 19:30
本申请公开了一种基于图注意力机制的专利多层级分类方法及计算机设备。该方法首先通过专利文本片段分割以及标签定义提取,生成专利文本树形结构和标签定义树形结构;然后通过节点文本相似度计算,查找相似向量,在对应节点之间添加边;再利用注意力机制得到节点的编码向量;最后,把编码向量输入到神经网络中,得到预测结果。本申请充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式编码文本和标签之间的交互关系,解决了现有技术的缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率,达到解放人力、降本增效的目的。降本增效的目的。降本增效的目的。

【技术实现步骤摘要】
基于图注意力机制的专利多层级分类方法及计算机设备


[0001]本申请属于文献分类
,具体涉及一种参考规范标准(如IPC分类等)对专利文献进行自动分类的方法。

技术介绍

[0002]专利作为衡量国家创新能力的重要文献,是发现先进技术的重要途径。中国在知识产权的保护力度上取得巨大进步,显著体现在专利数量的迅速增长。根据国家知识产权局公布的数据,2021年全年共授权专利技术专利69.6万件,每万人口高价值专利技术专利拥有量达到7.5件。在世界知识产权组织发布的《2021年全球创新指数报告》中,中国排名位居全球第12位,连续9年稳步提升。专利文献数量的快速增长大大加重了人工分类的工作量,小规模机器学习的分类方法的准确性也很难满足当前需求。因此,如何从快速准确地从大量专利申请中识别出专利所属技术类别成为目前的一项重要研究内容。
[0003]目前常见的专利分类方法一般基于专利文本实现,有些结合标签、专利技术人网络、权利人网络等专利节点特征实现,例如中国专利文献CN113468291A公开了一种基于专利网络表示学习的专利自动分类方法,其利用专利的文本内容、专利技术人信息与专利权人信息各自构造语义视图网络、专利技术人视图网络与专利权人视图网络,结合不同视图网络之间的相关性对专利节点表征向量进行增强,再通过注意力机制将增强后的三个视图网络的专利节点表征向量进行融合,将融合结果作为最终的专利节点表征向量并进行分类预测,以提升专利分类结果的准确率。然而,这类优化的分类方法,在专利领域专业性强、结构关系复杂场景下的自动分类效果并不理想。
[0004]专利技术人认识到,现有技术没有充分利用专利文本和标签的内部组成部分及关联结构信息,导致专利分类准确率整体不高。具体来说:
[0005]现有专利分类方法是将文本作为一个整体进行模型训练和预测,没有充分利用专利中已有的标题、摘要、权利要求书、说明书及其内部组成部分之间的固有结构知识,缺乏对于标签定义的层次化结构及其与专利文本各部分之间的关联关系的有效使用(例如前述文献CN113468291A介绍的结合外部专利技术人网络、权利人网络等外部结构信息的专利分类方法,就没有深入挖掘和充分利用专利和标签本身的内部结构和关联关系),导致专利领域专业性强、结构关系复杂场景下的自动分类效果不佳。

技术实现思路

[0006]本申请提供了一种基于图注意力机制的专利多层级分类方法及计算机设备,解决了现有技术缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率。
[0007]为了实现以上目的,本申请给出以下解决方案:
[0008]基于图注意力机制的专利多层级分类方法,包括:
[0009]步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形
数据结构;
[0010]步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
[0011]步骤S3、图注意力机制编码:基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
[0012]步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
[0013]可选地,所述标签定义树形数据结构的构建方法包括:
[0014]获取专利分类标准规范文档;
[0015]读取文档,得到标签以及对应的定义;
[0016]对各个标签的定义文本进行清洗、转换、补全和/或合并处理;
[0017]根据标签定义的层次化关系生成标签定义树形数据结构。
[0018]可选地,所述专利分类标准规范为国际专利分类(IPC)、欧洲专利分类(ECLA)、美国专利分类(CCL)或日本专利分类(FI/F

term)。
[0019]可选地,记专利文本树形数据结构为,其中表示专利文本树形数据结构的顶点集合,表示专利文本树形数据结构的边集合;记标签定义树形数据结构为,其中为标签定义树形数据结构的顶点集合,为标签定义树形数据结构的边集合;则步骤S2具体包括:
[0020]将和合并为图,其中,表示图的顶点集合,表示图的边集合;
[0021]计算图中节点所对应的文本相似度,如果图中专利文本树形数据结构的节点(专利文本的每一篇章、每一段落及每一句子分别对应图中的一个节点)与标签定义树形数据结构的节点(专利分类标准规范每一层级的每个分类号分别对应图中的一个节点)所对应的文本相似度超过设定阈值,则通过在这两个节点之间添加一条边(连线)实现所述关联标记。
[0022]可选地,所述计算图中节点所对应的文本相似度包括分别基于VSM的相似度计算和基于Bert预训练模型的相似度计算,只要VSM和Bert预训练模型任一计算出的相似度大于0.9,则在对应节点之间添加一条边。其中,VSM用于计算语法相似度,Bert用于计算语义相似度,结合两者能够覆盖语法和语义两种情况。
[0023]可选地,所述基于VSM的相似度计算,具体包括:
[0024]下载并安装python的jieba包,使用jieba包中的cut函数对文本进行分词,从nltk.corpus包加载中文停用词表,删除文本中的停用词,得到文本的特征项序列,其中m为词向量的维度;
[0025]对于每个特征词,计算其在文本中出现的频率、在
文档集中出现的逆频率;
[0026]计算特征词的权重,其中tf
i
为该特征词在文本中出现的频率,idf
i
为该特征词在文档集中出现的逆频率;得到权重向量;
[0027]使用余弦相似度计算权重向量的相似度,作为文本的相似度。
[0028]可选地,所述基于Bert预训练模型的相似度计算,具体包括:
[0029]使用Bert预训练模型对两个节点的文本进行编码表示,得到相应的句向量 和 ,其中l为句向量的维度;再使用余弦相似度,计算句向量之间的相似度,作为文本的相似度。
[0030]可选地,步骤S3中,图注意力机制编码的输入为步骤S2中基于Bert预训练模型得到的节点句向量,输出为图注意力机制编码后得到的特征向量,具体计算过程如下:
[0031]设为节点特征的集合,其中N为节点数目,为节点i编码所得的句向量,F为每个节点的特征数目,即句向量的维度;对特征作线性变换,其中线性变换的权重矩阵为,,为输出特征向量的维度;随机初始化;通过注意力机制,计算得到节点j对节点i的重要性;其中,为单层前馈神经网络,使用LeakyReLU作为激活函数,神经网络的参数向量为,那么,其中表示转置操作,||表示连接操作;为了保留图的结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图注意力机制的专利多层级分类方法,其特征在于,包括:步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;步骤S3、图注意力机制编码:基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。2.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述标签定义树形数据结构的构建方法包括:获取专利分类标准规范文档;读取文档,得到标签以及对应的定义;对各个标签的定义文本进行清洗、转换、补全和/或合并处理;根据标签定义的层次化关系生成标签定义树形数据结构。3.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述专利分类标准规范为国际专利分类、欧洲专利分类、美国专利分类或日本专利分类。4.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,记专利文本树形数据结构为,其中表示专利文本树形数据结构的顶点集合,表示专利文本树形数据结构的边集合;记标签定义树形数据结构为,其中为标签定义树形数据结构的顶点集合,为标签定义树形数据结构的边集合;则步骤S2具体包括:将和合并为图,其中,表示图的顶点集合,表示图的边集合;计算图中节点所对应的文本相似度,如果图中专利文本树形数据结构的节点与标签定义树形数据结构的节点所对应的文本相似度超过设定阈值,则通过在这两个节点之间添加一条边实现所述关联标记。5.根据权利要求4所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述计算图中节点所对应的文本相似度包括分别基于VSM的相似度计算和基于Bert预训练模型的相似度计算,只要VSM和Bert预训练模型任一计算出的相似度大于0.9,则在对应节点之间添加一条边。6.根据权利要求5所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述基于VSM的相似度计算,具体包括:下载并安装python的jieba包,使用jieba包中的cut函数对文本进行分词,从
nltk.corpus包加载中文停用词表,删除文本中的停用词,得到文本的特征项序列,其中m为词向量的维度;对于每个特征词,计算其在文本中出现的频率、在文档集中出现的逆频率;计算特...

【专利技术属性】
技术研发人员:徐青伟严长春裴非范娥媚蔡明睿
申请(专利权)人:知呱呱天津大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1