一种基于大数据的专利分类方法技术

技术编号：38972127 阅读：35 留言：0更新日期：2023-09-28 09:36

本发明专利技术涉及自然语言处理和人工智能领域，具体涉及一种基于大数据的专利分类方法，包括获取专利文本数据并进行预处理得到预处理数据；通过Bert模型获取预处理数据中每个字的词向量，并根据词向量计算每两个字间的相似度；根据相似度构建一个图结构输入图卷积神经网络，得到一个文本融合向量表示；将文本融合向量表示输入概率化SVM分类器，得到预处理数据的分类结果。的分类结果。的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的专利分类方法

[0001]本专利技术涉及自然语言处理和人工智能领域，具体涉及一种基于大数据的专利分类方法。

技术介绍

[0002]随着大数据和机器学习技术的快速发展，利用大数据进行自动化的专利分类成为可能。大数据技术可以处理海量的专利文献数据，并从中提取出有用的特征和模式，为专利分类提供有力支持。同时，机器学习算法能够通过训练和学习，自动发现和应用分类规则，以实现高效准确的专利分类。
[0003]然而，现有的基于大数据的专利分类方法仍然存在一些局限性和挑战。在现有的分类技术中，并没有关注专利文本的图像性质所带来的关键信息，某些方法在处理复杂的专利文献语义和结构时可能存在误差，导致分类结果不够精准。此外，随着技术和领域的不断演进，现有的分类模型可能难以适应新兴领域和交叉学科的专利分类需求。

技术实现思路

[0004]为解决上述问题，本专利技术提供了一种基于大数据的专利分类方法，包括以下步骤：
[0005]S1.获取专利文本数据并进行预处理得到预处理数据；
[0006]S2.通过Bert模型获取预处理数据中每个字的词向量，并根据词向量计算每两个字间的相似度；
[0007]S3.根据相似度构建一个图结构输入图卷积神经网络，得到一个文本融合向量表示；
[0008]S4.将文本融合向量表示输入概率化SVM分类器，得到预处理数据的分类结果。
[0009]进一步的，步骤S1获取专利文本数据并进行预处理得到预处理数据，包括：
[0010]S11....

【技术保护点】

【技术特征摘要】
1.一种基于大数据的专利分类方法，其特征在于，包括以下步骤：S1.获取专利文本数据并进行预处理得到预处理数据；S2.通过Bert模型获取预处理数据中每个字的词向量，并根据词向量计算每两个字间的相似度；S3.根据相似度构建一个图结构输入图卷积神经网络，得到一个文本融合向量表示；S4.将文本融合向量表示输入概率化SVM分类器，得到预处理数据的分类结果。2.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，步骤S1获取专利文本数据并进行预处理得到预处理数据，包括：S11.获取专利文本数据，从中提取出专利名称、专利权人和专利摘要；S12.将专利名称、专利权人和专利摘要拼接得到一个预处理数据。3.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，步骤S2根据词向量计算每两个字间的相似度，表示为：向量计算每两个字间的相似度，表示为：其中，表示预处理数据中第i个字x
i
的词向量，K(x
i
,x
j
)表示第i个字x
i
的词向量与第j个字x
j
的词向量间的相似度；表示第i个字x
i
的词向量与第j个字x
j
的词向量间的相似性特征权重；T表示转置操作；A表示词向量的维度。4.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，步骤S3根据相似度构建一个图结构，包括：S301.将预处理数据中每个字看作一个节点，采用对应的词向量作为每个节点的特征向量，将每两个字间的相似度作为对应两个节点间的特征相似度；S302.设置边连接阈值，若两个节点间的特征相似度大于边连接阈值，则将这两个节点连接起来，并采用特征相似度作为边权重；S303.通过混合池函数获取每个节点的混合池特征向量，表示为：S303.通过混合池函数获取每个节点的混合池特征向量，表示为：其中，h
i
′
表示第i个节点v
i
的混合池特征向量，K(i,j)表示第i个节点v
i
与第j个节点v
j
的特征相似度，h
j
表示第j个节点v
j
的的特征向量，N(i)表示第i个节点v
i
的邻居节点集合，h
mean
表示节点v
i
的所有邻居节点的平均池特征向量；S304.将每个节点的特征向量和混合池特征向量拼接，得到每个节点的融合向量，最终得到图结构。
5.根据权利要求1所述的一...

【专利技术属性】
技术研发人员：邓龙行，王一雄，王进，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人