当前位置: 首页 > 专利查询>上海大学专利>正文

基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质技术方案

技术编号:36894901 阅读:18 留言:0更新日期:2023-03-15 22:22
本发明专利技术涉及一种基于进化神经网络的科技服务资源分类方法,该方法利用新型优化算法结合极限学习机网络,同时优化随机隐藏层和输出层参数,提高科技服务资源分类模型训练效率的同时,增强文本数据分类准确率,能够对汇集的科技服务资源按照行业划分进行自动化分类和整合。还包括一种相应的系统,具体包括:数据集构建模块,抽取不同类型资源数据,按行业划分类别并添加标签,构建分类训练和测试数据集;数据预处理模块,清洗数据集数据,并进行汉语分词、去停用词、Word2Vec向量化处理,得到所有数据的特征向量和词库;网络进化模块,基于榕树生长优化算法(BTGO)算法与ELM构建进化神经网络,应用新型更新算子优化隐藏层和输出层参数;资源分类模块,使用进化得到的神经网络模型,对科技服务资源测试集的文本数据进行模型评估,并对未知数据进行自动化资源分类。并对未知数据进行自动化资源分类。并对未知数据进行自动化资源分类。

【技术实现步骤摘要】
基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质


[0001]本专利技术属于大数据处理
,尤其涉及现代服务业中的科技服务
,具体涉及一种基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质。

技术介绍

[0002]科技服务业在为各种科技创新活动提供全方位服务的同时,也大大带动了经济增长和科技进步,已成为现代服务业的重要一环。科技服务资源作为科技服务的基础要素,对其进行有效整合能够提高资源利用率和成果转化效率。科技资源包括人才信息、知识产权、专利技术等类型,主要由文本数据组成,针对海量文本信息如何快速有效提取特征并进行分类是当前机器学习模型需要解决的问题。
[0003]目前,对文本数据的分类算法包括决策树、支持向量机、K最邻近算法、神经网络等,这些方法实现简单,但对于维度高、稀疏性大的科技资源数据往往存在精度不足的问题。极限学习机(Extreme Learning Machine,ELM)是一种新型前馈神经网络训练算法,利用随机设定的输入层和隐藏层权重和偏置,并结合广义逆矩阵计算得到输出层权重。ELM具有良好的数据拟合和泛化能力,同时由于其实现简单和训练速度快等特点,被广泛应用于分类、拟合等任务中。
[0004]由于ELM引入了随机的隐藏层权重,在训练时降低了训练复杂度,但其随机的参数设置往往难以保证实际应用中的稳定性和可靠性。因此,许多研究中基于元启发优化算法对ELM的随机参数进行优化,在多次迭代求解后全局化提高网络性能。如利用粒子群优化、遗传算法、差分进化等对隐藏层、输入层权值、结构等进行搜索,以形成进化神经网络方法。然而这些进化神经网络方法只关注于随机参数的优化,对于输出层参数未能有效利用和优化,因此需要改进和研究新型进化神经网络方法。
[0005]目前,针对科技服务资源数据处理方法,中国专利申请号“CN201410260379.X”公开了“一种基于文本分类和图像深度挖掘的科技情报获取与推送方法”;中国专利申请号“CN201811127718.1”公开了“一种基于大数据的农业科技服务智能分拣方法”;中国专利申请号“CN202110554334.3”公开了“一种基于知识图谱的科技文献分类方法”;中国专利申请号“CN201510846339.8”公开了“基于改进自适应遗传算法的神经网络图像分类方法”;中国专利申请号“CN201610012847.0”公开了“一种基于多局部搜索的神经网络进化方法”;中国专利申请号“CN201510714025.2”公开了“一种基于进化算法的自适应学习神经网络实现方法”。在已公开的专利技术或文献中,未提到使用基于本专利技术的进化神经网络方法的科技服务资源数据分类方法的实例。

技术实现思路

[0006]本专利技术提供了一种基于进化神经网络的科技服务资源分类方法、系统及其计算机
可读存储介质,利用基于新型优化算法的进化神经网络对海量科技资源文本数据进行分类,提高科技服务资源分类模型训练效率的同时,增强文本数据分类准确率。基于以上目的,本专利技术所采取技术方案如下:
[0007]该基于进化神经网络的科技服务资源分类方法,其主要特点是,所述的方法包括以下步骤:
[0008](1)抽取不同类型的科技服务资源数据,根据科技服务行业分类对每条数据划分类别并添加标签,构建分类训练和测试数据集;
[0009](2)对数据集的文本数据进行汉语分词、去停用词处理,使用Word2Vec方法进行文本向量化,得到各数据的特征向量和词库,用于后续模型进化与评估;
[0010](3)基于榕树生长优化BTGO算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,以提高网络分类准确率的同时增强收敛速度,得到最佳网络模型用于资源分类;
[0011](4)使用上述获得的最终神经网络模型,对科技服务资源数据的测试数据集的文本数据进行模型评估,并对未知数据进行自动化资源分类。
[0012]优选地,在步骤(1)中,抽取的资源数据类型包含人才信息、知识产权、专利技术等类型,包括定期从实际运营中的科技服务资源库中抽取的不同行业元数据,按照比例划分训练、验证和测试集,以满足实际资源整合需求。
[0013]优选地,在步骤(2)中,对步骤(1)构建的数据集进行数据清洗、汉语分词、去停用词处理后,利用在超大批量科技文本数据集上预训练的Word2Vec模型对其进行文本向量化处理,将其转化为稠密的特征向量,并通过整理所有文本数据,得到数据集的特征向量及One

hot编码标签,用于后续模型进化与评估。
[0014]优选地,在步骤(3)中,应用榕树生长优化算法对ELM网络的所有参数进行编码优化,利用BTGO的全局优化策略同时对随机参数和输出层参数进行进化,以同时达到预测准确率和训练速度最优。
[0015]较佳地,所述步骤(3)进行初始化优化处理具体包括以下步骤:
[0016](3.1)初始化榕树生长优化BTGO算法的参数及ElM网络参数,设置BTGO的种群规模NP、最大迭代次数Gmax、榕树枝干数目m、生长阶段阈值T
growth
、再生阶段阈值T
recover
;设置ELM的网络隐层节点数目;
[0017](3.2)设置优化算法的适应度函数,即由x
i
确定的神经网络在测试集的分类错误率,采用以下公式进行表示:
[0018][0019]其中,TP、TN分别为将正类预测为正类数和将负类预测为负类数,FP、FN分别为将负类预测为正类数和将正类预测为负类数;
[0020](3.3)BTGO采用实数编码框架,每个枝叶个体表示一组神经网络参数W,由神经网络的隐藏层权重W
hidden
和输出层权重W
output
两部分组成,第i个个体可表示为:
[0021]x
i
=[W
hidden
;W
output
][0022]=[x
i,1
,x
i,2


,x
i,h
,x
i,h+1


,x
i,D
]ꢀꢀꢀꢀ
(2)
[0023]其中,h为神经网络隐藏层权重及偏差数目之和,D为所有权重数目之和;
[0024](3.4)随机初始化BTGO种群中的80%个体,该部分个体的序号集合记为I(i∈I),
即个体x
i
(i∈I)所有维度上的取值均为[

1,1]范围内的随机值,其计算如式(3)所示:
[0025]x
ij
=x
min,j
+r
×
(x
max,j

x
min,j
)
ꢀꢀꢀꢀꢀ
(3)
[0026]其中,x
min,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于进化神经网络的科技服务资源分类方法,其特征在于,所述的方法包括以下步骤:(1)抽取不同类型的科技服务资源数据,根据科技服务行业分类对每条数据划分类别并添加标签,构建分类训练和测试数据集;(2)对数据集的文本数据进行汉语分词、去停用词处理,使用Word2Vec方法进行文本向量化,得到各数据的特征向量和词库,用于后续模型进化与评估;(3)基于榕树生长优化BTGO算法与ELM构建进化神经网络,同时对神经网络随机参数和输出层参数进行优化,以提高网络分类准确率的同时增强收敛速度,得到最佳网络模型用于资源分类;(4)使用上述获得的最终神经网络模型,对所述科技服务资源数据的测试数据集的文本数据进行模型评估,并对未知数据进行自动化资源分类。2.根据权利要求1所述的基于进化神经网络的科技服务资源分类方法,其特征在于,在所述步骤(1)中,抽取的资源数据类型包含人才信息、知识产权、专利技术,以及包括定期从实际运营中的科技服务资源库中抽取的不同行业元数据,按照比例划分训练、验证和测试集,以满足实际资源整合需求。3.根据权利要求2所述的基于进化神经网络的科技服务资源分类方法,其特征在于,在所述步骤(2)中,对所述步骤(1)构建的数据集进行数据清洗、汉语分词、去停用词处理后,利用在超大批量科技文本数据集上预训练的Word2Vec模型对其进行文本向量化处理,将其转化为稠密的特征向量,并通过整理所有文本数据,得到数据集的特征向量及One

hot编码标签,用于后续模型进化与评估。4.根据权利要求3所述的基于进化神经网络的科技服务资源分类方法,其特征在于,所述步骤(3)具体为,应用榕树生长优化算法对ELM网络的所有参数进行编码优化,利用BTGO的全局优化策略同时对随机参数和输出层参数进行进化,以同时达到预测准确率和训练速度最优。5.根据权利要求4所述的基于进化神经网络的科技服务资源分类方法,其特征在于,所述步骤(3)进行初始化优化处理具体包括以下步骤:(3.1)初始化榕树生长优化BTGO算法的参数及ElM网络参数,设置BTGO的种群规模NP、最大迭代次数Gmax、榕树枝干数目m、生长阶段阈值T
growth
、再生阶段阈值T
recover
;设置ELM的网络隐层节点数目;(3.2)设置优化算法的适应度函数,即由x
i
确定的神经网络在测试集的分类错误率,采用以下公式进行表示:其中,TP、TN分别为将正类预测为正类数和将负类预测为负类数,FP、FN分别为将负类预测为正类数和将正类预测为负类数;(3.3)BTGO采用实数编码框架,每个枝叶个体表示一组神经网络参数W,由神经网络的隐藏层权重W
hidden
和输出层权重W
output
两部分组成,第i个个体可表示为:x
i
=[W
hidden
;W
output
]=[x
i,1
,x
i,2
,...,x
i,h
,x
i,h+1
,...,x
i,D
]
ꢀꢀꢀ
(2)
其中,h为神经网络隐藏层权重及偏差数目之和,D为所有权重数目之和;(3.4)随机初始化BTGO种群中的80%个体,该部分个体的序号集合记为I(i∈I),即个体x
i
(i∈I)所有维度上的取值均为[

1,1]范围内的随机值,其计算如式(3)所示:x
ij
=x
min,j
+r
×
(x
max,j

x
min,j
)
ꢀꢀꢀꢀꢀꢀ
(3)其中,x
min,j
和x
max,j
分别表示解空间的最小值和最大值,r为[0,1]范围的随机值;(3.5)对于所述步骤(3.4)的剩余20%个体,其序号集合记为I
*
,表示隐藏层权重部分的位置为随机产生,表示输出层权重部分由ELM的广义逆MPP公式计算得到,即个体x
i
(i∈I
*
)前h位由式(3)计算,其余位的计算如式(4)所示,完整的计算如式(5)所示:前h位由式(3)计算,其余位的计算如式(4)所示,完整的计算如式(5)所示:其中H为隐藏层输出矩阵,X为输入矩阵,β为输出层权重,β
m
表示由广义逆计算得到的输出层权重β的第m位;(3.6)以此应用初始种群中的个体所保存的参数x
i
构建网络模型o
i
,并预测测试集的标签签其中g()为神经网络的激活函数,具体为sigmoid函数,比较预测标签和真实标签y计算分类错误率,并根据步骤(3.2)中的式(1)计算个体的适应度值;(3.7)初始化BTGO气生根位置P
root
并将其作为个体历史最优位置,按照种群中个体的适应度排名进行枝干群划分,将其按从小到大依次划分至m个子群,每个枝干群的最佳适应度个体作为该子群的最优位置,记为P
trunk
;(3.8)所有子群中自适应度值最小的个体视为当前最佳位置P
best
,并更新最佳位置适应度值。6.根据权利要求5所述的基于进化神经网络的科技服务资源分类方法...

【专利技术属性】
技术研发人员:费敏锐吴限周文举仵大奎易开祥徐昱琳
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1