科技情报的智能分类分析方法、系统、存储介质及服务器技术方案

技术编号:32886376 阅读:23 留言:0更新日期:2022-04-02 12:21
一种科技情报的智能分类分析方法、系统、存储介质及服务器,方法包括:进行数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵;利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征和上下文特征;获取上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;对整合特征通过softmax分类学习得到分类标签。本发明专利技术使卷积神经网络模型在文本特征提取方面兼具细颗粒度的词向量特征和粗颗粒度的上下文特征,相比于传统卷积网络分类模型,能够捕获更为丰富的语义特征,解决了文本信息中蕴含的上下文复杂语义关系特征抽取问题。相比图像分类卷积模型,本发明专利技术模型结构具有轻量化特点,降低网络复杂度。络复杂度。络复杂度。

【技术实现步骤摘要】
科技情报的智能分类分析方法、系统、存储介质及服务器


[0001]本专利技术属于文本智能分类
,具体涉及一种科技情报的智能分类分析方法、系统、存储介质及服务器。

技术介绍

[0002]随着社会经济的飞速发展,用电资源逐渐增多,电网规模日趋扩大,由此带来的变电站设备巡视、辅助设施维护、变电站设备的检修规范与运行数据等信息及资源呈现海量特征,增长迅速,其中,变电站的故障诊断分析、不同设备的操作标准规范、设备关键参数设置及型号等文本信息量非常大、影响广泛,已越来越受到变电运维人员的关注。同时,国外变电运维新技术不断涌现,迫切需要收集跟踪国外相关科技情报,结合变电运维知识结构,明确变电运维知识不同领域对应的知识点,以及针对不同等级的受训者需要明确分类关键知识信息,以强化受训者能力量化评估及评价。
[0003]文本智能分类技术作为知识信息分类的关键技术,是信息挖掘及信息分析的重要基础,目前已广泛应用于知识挖掘、信息检索和信息监督等领域。文本分类方法有很多,但是均不适合变电运维信息资源库中海量文本的快速准确分类,例如,传统卷积网络分类模型不能捕本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种科技情报的智能分类分析方法,其特征在于,包括:进行科技情报数据收集,并对收集到的数据通过预处理构建文本主题信息词向量矩阵;利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征;获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;对整合特征通过softmax分类学习得到分类标签。2.根据权利要求1所述科技情报的智能分类分析方法,其特征在于:在所述进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵的步骤中,所收集的数据为变电运维领域的信息资料,所述变电运维领域的信息资料主题包括理论、技术、题库;所构建的文本主题信息词向量矩阵包括标题、内容、核心主题句三个维度。3.根据权利要求2所述科技情报的智能分类分析方法,其特征在于:在所述进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵的步骤中,预处理过程包括:利用Doc2Vec工具对各类主题的信息文本句进行向量分析计算,获取文本内容的主题句;利用Jieba工具对文本的标题和文本内容的主题句进行主题信息分词提取;利用Word2Vec工具对主题信息分词进行词向量计算,建立文本主题信息词向量矩阵。4.根据权利要求1所述科技情报的智能分类分析方法,其特征在于:在所述利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征的步骤中,所述卷积神经网络模型按照如下方式构建:依次包括输入层、词嵌入卷积层、区域卷积层、池化层和全连接层;输入层,通过对文本进行词向量计算,建立文本向量矩阵;词嵌入卷积层,通过卷积核与词向量进行卷积操作,生成每个词汇信息的新特征;区域卷积层,在每个词汇信息的新特征基础上,获取每个词汇上下文特征;池化层,实现特征降维;全连接层,使某些神经元的激活概率固定在p值上,p值的取值范围为0~1。5.根据权利要求4所述科技情报的智能分类分析方法,其特征在于,所述卷积神经网络模型的池化层采用最大池化,池化层通过最大池化减少卷积层参数误差造成的估计均值偏移。6.根据权利要求4所述科技情报的智能分类分析方法,其特征在于,所述卷积神经网络模型的全连接层应用dropout策略,通过dropout策略使某些神经元的激活概率固定在p值上。7.根据权利要求1所述科技情报的智能分类分析方法,其特征在于,所述利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征的步骤包括:在输入层输入主题信息词向量矩阵T
N
×
V
,其中N表示文本中有N个词汇,V表示每个词汇的向量维度为V;
利用卷积运算提取词汇特征,特征提取的计算方法为:S
i
=f(C
h
×
v
*T
i:i+h
‑1+b)其中,C
h
×
v
为卷积核,行数h为卷积核窗口大小,h取值为1,列数v为词向量维度,T为文本特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇特征图S=[S1,S2,...,S
n
],S为n
×
1向量矩阵;利用卷积运算提取词汇上下文特征,特征提取的计算方法为:M
i
=f(C
h
×1*S
i:i+h
‑1+b)其中,C
h
×1为卷积核,行数h为卷积核窗口大小,h取值为2以上的正整数,S为文本词汇特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇上下文特征图M=[S1,S2,...,S
n

h+1
],S为(n

h+1)
×
1向量矩阵。8.根据权利要求7所述科技情报的智能分类分析方法,其特征在于,所述获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征的步骤包括:采用最大...

【专利技术属性】
技术研发人员:李俊辉康建东韩笑万金明闫华光
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1