一种基于大数据的专利分类方法技术

技术编号:38972127 阅读:35 留言:0更新日期:2023-09-28 09:36
本发明专利技术涉及自然语言处理和人工智能领域,具体涉及一种基于大数据的专利分类方法,包括获取专利文本数据并进行预处理得到预处理数据;通过Bert模型获取预处理数据中每个字的词向量,并根据词向量计算每两个字间的相似度;根据相似度构建一个图结构输入图卷积神经网络,得到一个文本融合向量表示;将文本融合向量表示输入概率化SVM分类器,得到预处理数据的分类结果。的分类结果。的分类结果。

【技术实现步骤摘要】
一种基于大数据的专利分类方法


[0001]本专利技术涉及自然语言处理和人工智能领域,具体涉及一种基于大数据的专利分类方法。

技术介绍

[0002]随着大数据和机器学习技术的快速发展,利用大数据进行自动化的专利分类成为可能。大数据技术可以处理海量的专利文献数据,并从中提取出有用的特征和模式,为专利分类提供有力支持。同时,机器学习算法能够通过训练和学习,自动发现和应用分类规则,以实现高效准确的专利分类。
[0003]然而,现有的基于大数据的专利分类方法仍然存在一些局限性和挑战。在现有的分类技术中,并没有关注专利文本的图像性质所带来的关键信息,某些方法在处理复杂的专利文献语义和结构时可能存在误差,导致分类结果不够精准。此外,随着技术和领域的不断演进,现有的分类模型可能难以适应新兴领域和交叉学科的专利分类需求。

技术实现思路

[0004]为解决上述问题,本专利技术提供了一种基于大数据的专利分类方法,包括以下步骤:
[0005]S1.获取专利文本数据并进行预处理得到预处理数据;
[0006]S2.通过Bert模型获取预处理数据中每个字的词向量,并根据词向量计算每两个字间的相似度;
[0007]S3.根据相似度构建一个图结构输入图卷积神经网络,得到一个文本融合向量表示;
[0008]S4.将文本融合向量表示输入概率化SVM分类器,得到预处理数据的分类结果。
[0009]进一步的,步骤S1获取专利文本数据并进行预处理得到预处理数据,包括:
[0010]S11.获取完整的专利文本数据,从中提取出专利名称、专利权人和专利摘要;
[0011]S12.将专利名称、专利权人和专利摘要拼接得到一个预处理数据。
[0012]进一步的,步骤S2根据词向量计算每两个字间的相似度,表示为:
[0013][0014][0015]其中,表示预处理数据中第i个字x
i
的词向量,K(x
i
,x
j
)表示第i个字x
i
的词向量与第j个字x
j
的词向量间的相似度,表示第i个字x
i
的词向量与第j个字x
j
的词向量间的相似性特征权重,T表示转置操作,A表示词向量的维度。
[0016]进一步的,步骤S3根据相似度构建一个图结构,包括:
[0017]S301.将预处理数据中每个字看作一个节点,采用对应的词向量作为每个节点的特征向量,将每两个字间的相似度作为对应两个节点间的特征相似度;
[0018]S302.设置边连接阈值,若两个节点间的特征相似度大于边连接阈值,则将这两个节点连接起来,并采用特征相似度作为边权重;
[0019]S303.通过混合池函数获取每个节点的混合池特征向量,表示为:
[0020][0021][0022]其中,h
i

表示第i个节点v
i
的混合池特征向量,K(i,j)表示第i个节点v
i
与第j个节点v
j
的特征相似度,h
j
表示第j个节点v
j
的的特征向量,N(i)表示第i个节点v
i
的邻居节点集合,h
mean
表示节点v
i
的所有邻居节点的平均池特征向量;
[0023]S304.将每个节点的特征向量和混合池特征向量拼接,得到每个节点的融合向量,最终得到图结构。
[0024]进一步的,步骤S3将一个图结构输入图卷积神经网络得到一个文本融合向量表示,包括:
[0025]S311.获取图结构中每个节点在图卷积神经网络的第l层的向量表示;
[0026]S312.对于图结构中第i个节点v
i
,根据向量表示计算节点v
i
与其每一个邻居节点在第l层的上下文相似度;
[0027]S312.根据上下文相似度计算节点v
i
在第l层的激活函数权重;
[0028]S313.采用激活函数权重计算更新节点v
i
的向量表示;
[0029]S314.直至图结构中所有节点的向量表示更新完成,判断每个节点的向量表示的变化量绝对值是否都小于变化阈值,若不是,则执行步骤S315;若是,则执行步骤S316;
[0030]S315.判断当前层数l是否小于最大层数,若满足,则令l=l+1并返回步骤S311;若不满足,则执行步骤S316;
[0031]S316.输出图结构中所有节点当前的向量表示并进行混合池化,得到一个文本融合向量表示。
[0032]进一步的,步骤S313采用激活函数权重计算更新节点v
i
的向量表示,计算公式为:
[0033][0034][0035]其中,表示图结构中第i个节点v
i
在第l层的向量表示,表示图结构中第i个节点v
i
在第l层的激活函数权重,N(i)表示第i个节点v
i
的邻居节点集合,|N(i)|表示第i个节点v
i
的邻居节点数量,c
ij
表示归一化因子,f表示激活函数。
[0036]进一步的,步骤S315输出图结构中所有节点当前的向量表示并进行混合池化,得
到一个文本融合向量表示,如下:
[0037][0038][0039]其中,z
i
表示第i条预处理数据的文本融合向量表示,M(i)表示第i条预处理数据的字集合,为第i条预处理数据中第i个字经过卷积神经网络后的向量表示,n
j
表示第i条预处理数据中第j个字的出现次数。
[0040]进一步的,采用损失函数计算概率化SVM分类器的训练损失,表示为:
[0041][0042]其中,N是样本数;M是标签数,y
ij
是专利i的标签j的真实值;f
ij
是模型预测的标签j在第i个预处理数据上的得分。
[0043]本专利技术的有益效果:
[0044]本专利技术采用了GCN(图卷积神经网络)作为核心模型,利用GCN在专利文献之间构建图结构,并通过图卷积操作从图中提取特征信息。这样可以更好地捕捉专利文献之间的关联和语义信息,提高分类准确度。
[0045]此外,本专利技术还设计了各种池化操作,用于对GCN提取的特征进行聚合和压缩。这些池化操作能够帮助提取关键信息,减少特征维度,并提高分类效果。通过不同的池化策略,可以适应不同类型和规模的专利文献数据,增强分类模型的鲁棒性和泛化能力。
[0046]在分类阶段,本专利技术采用了one

vs

all的方法,结合SVM(支持向量机)分类器来进行多类别分类。通过将每个类别与其他类别进行区分,可以实现高效的分类决策,并进一步提高分类的准确性和可靠性。
附图说明
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的专利分类方法,其特征在于,包括以下步骤:S1.获取专利文本数据并进行预处理得到预处理数据;S2.通过Bert模型获取预处理数据中每个字的词向量,并根据词向量计算每两个字间的相似度;S3.根据相似度构建一个图结构输入图卷积神经网络,得到一个文本融合向量表示;S4.将文本融合向量表示输入概率化SVM分类器,得到预处理数据的分类结果。2.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,步骤S1获取专利文本数据并进行预处理得到预处理数据,包括:S11.获取专利文本数据,从中提取出专利名称、专利权人和专利摘要;S12.将专利名称、专利权人和专利摘要拼接得到一个预处理数据。3.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,步骤S2根据词向量计算每两个字间的相似度,表示为:向量计算每两个字间的相似度,表示为:其中,表示预处理数据中第i个字x
i
的词向量,K(x
i
,x
j
)表示第i个字x
i
的词向量与第j个字x
j
的词向量间的相似度;表示第i个字x
i
的词向量与第j个字x
j
的词向量间的相似性特征权重;T表示转置操作;A表示词向量的维度。4.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,步骤S3根据相似度构建一个图结构,包括:S301.将预处理数据中每个字看作一个节点,采用对应的词向量作为每个节点的特征向量,将每两个字间的相似度作为对应两个节点间的特征相似度;S302.设置边连接阈值,若两个节点间的特征相似度大于边连接阈值,则将这两个节点连接起来,并采用特征相似度作为边权重;S303.通过混合池函数获取每个节点的混合池特征向量,表示为:S303.通过混合池函数获取每个节点的混合池特征向量,表示为:其中,h
i

表示第i个节点v
i
的混合池特征向量,K(i,j)表示第i个节点v
i
与第j个节点v
j
的特征相似度,h
j
表示第j个节点v
j
的的特征向量,N(i)表示第i个节点v
i
的邻居节点集合,h
mean
表示节点v
i
的所有邻居节点的平均池特征向量;S304.将每个节点的特征向量和混合池特征向量拼接,得到每个节点的融合向量,最终得到图结构。
5.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:邓龙行王一雄王进
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1