当前位置: 首页 > 专利查询>上海大学专利>正文

基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质技术方案

技术编号:36894848 阅读:34 留言:0更新日期:2023-03-15 22:22
本发明专利技术提供了一种基于智能优化算法的文本数据处理方法,该数据处理方法能够将科技资源的文本数据进行数据提取、数据预处理、特征选择和特征分析,最终得到准确率最高、特征量少的特征向量和词库数据,有效提高了运行分类器的效率和性能。还涉及一种相应的系统,包括:数据提取模块,从科技服务资源数据库中提取各类服务数据并根据行业添加分类标签;数据预处理模块,清洗原始数据,处理得到特征向量和特征词库并根据交叉验证划分训练和测试数据集;特征选择模块,使用二进制榕树生长优化算法进行特征选择,以获得分类准确率及特征量最优的解集;特征分析模块,从初始文本特征向量的特征词中得到最优特征词,并显示在特征热力图和词云中。最终处理后的数据实现将科技服务资源文本数据转换为有利于分类器处理的最优特征向量。向量。向量。

【技术实现步骤摘要】
基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质


[0001]本专利技术属于大数据
,尤其涉及科技服务资源数据处理领域,具体涉及一种基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质。

技术介绍

[0002]科技服务业作为现代服务业的组成部分,已成为带动经济增长和科技进步不可或缺的一环。科技资源是科技服务和技术创新各种生产要素的集合,其数量和质量是影响和制约科技活动的重要因素。不同于传统的商品服务资源,科技服务涉及供需双方包括需要进行开发研发服务、检验检测等科技服务的各类中小型企业、政府、各大高校及科研机构等。在科技服务资源数据处理中,大量科技服务资源涌现,其资源包括人才库、技术成果、知识产权、仪器设施、政策等资源类型,其类别多样化和复杂化,对这些资源数据进行有效处理是提供科技服务的基础。
[0003]科技服务资源由半结构或非结构化的文本数据构成,对这类文本的自动化整合涉及到自然语言处理、数据挖掘、机器学习和信息检索等多种技术。科技资源处理需要利用特征提取(Feature Selection,FS)和文本挖掘算法从海量科技文本中挖掘潜在特征,并按照文本特征和类型进行归类处理。在工程应用中,文本作为一种重要数据类型,包含有大量的特征信息,科技服务资源的聚合需要文本的特征选择算法。与传统的特征选择算法不同,智能优化算法不需要领域知识,也不需要对搜索空间做任何假设。特征选择可以认为是选择候选特征的最佳子集,使得机器学习模型达到优越性能的过程。因此智能优化算法可广泛用于最优化问题求解,且已被应用在文本挖掘领域中的特征选择求解。
[0004]近年来,为突破经典优化算法需要领域知识和空间假设的局限,多种受自然现象启发的智能优化算法应运而生,如遗传算法、粒子群优化、差分进化算法等。对于特定数据集,其FS问题可视为挑选最佳候选子集以使得机器学习模型达到优越性能的过程。因此智能优化算法可应用在文本挖掘领域中的FS求解,有效排除不相关特征和冗余特征的影响,相比传统的特征选择方法具有更好的准确率。在实际的科技服务资源文本特征选择问题中,由于样本复杂、数据量大、特征矩阵高度稀疏,使得常见优化算法在该问题中选择效率不足,同时对文本间的相似度或类别隶属度等未能高效处理,因此有必要对科技服务资源的文本文档特征处理方法进行改进。
[0005]目前,针对科技服务资源数据处理方法,中国专利申请号“CN109447266B”公开了“一种基于大数据的农业科技服务智能分拣方法”;中国专利申请号“CN201710181572.8”公开了“一种文本分类特征选择方法”;中国专利申请号“CN201810315024.4”公开了“粒子群优化的文本特征选择方法”;中国专利申请号“CN201410795989.X”公开了“一种改良的文本分类特征选择方法”;中国专利申请号“CN202010313160.7”公开了“科技资源数据服务系统”;中国专利申请号“CN201710889732.4”公开了“一种企业科技技术资源整合型服务系统”。在已公开的专利技术或文献中,未提到使用基于本专利技术的优化算法的科技服务资源数据处
理方法的实例。

技术实现思路

[0006]本专利技术提供了一种基于智能优化算法的文本数据处理方法,并应用于科技服务资源数据处理问题中,该数据处理方法能够将科技资源的文本数据进行数据提取、数据预处理、特征选择和特征分析,最终得到准确率最高、特征量少的特征向量和词库数据,提高了运行分类器的效率和性能。为此,所采用的技术方案为:
[0007]该基于优化算法的科技服务资源数据处理方法,其主要特点是,所述的方法包括以下步骤:
[0008](1)从科技服务数据库中提取各类资源库的数据,用于作为后续特征提取与分析的原始数据集,并根据所述的科技服务资源库中的行业对相应的数据添加分类标签;
[0009](2)对提取的数据集进行数据清洗、汉语分词、去停用词、特征向量化处理,得到初始文本特征向量和特征词库,用于后续进行特征提取和分析,并根据交叉验证方法划分训练数据集和测试数据集;
[0010](3)使用基于二进制榕树生长优化BBTGO算法的特征选择方法,对所述的文本特征向量进行优化,以获得机器学习算法分类准确率及特征量最优解集,其中,所述最优解集用于得到科技服务文本特征;
[0011](4)使用上述步骤获得的特征选择最优解,从初始文本特征向量的特征词中得到最优特征词,并显示在特征热力图和词云中。
[0012]优选地,在步骤(1)中,所述科技服务数据库中各个资源库的元数据包括人才团队、技术产品、知识产权、仪器仪表、政策支持,并对各个资源库的元数据按照各行业进行分类。
[0013]优选地,在步骤(2)中,根据所述步骤(1)提供的原始数据集,清洗缺失资源描述信息或不符合规范的数据,应用TF

IDF方法进行词向量化处理并筛除分词频率过低的向量,并应用交叉验证方法划分训练数据集和测试数据集。
[0014]较佳地,所述步骤(2)具体包括以下步骤:
[0015](2.1)对构建的原始数据集进行数据清洗,将缺失资源描述信息或不符合规范的数据从数据集中删除;
[0016](2.2)对每条数据进行汉语自动分词和去停用词处理,构建特征集合(t1,t2,...,t
n
),所述特征集合由经过分词后的不同特征词组成,其中n表示特征词总数,并根据以下公式计算特征频率

倒文档频率(TF

IDF)权重:
[0017][0018]其中,t
i
表示第i个特征词,tf
i
表示特征词出现在本条资源中的次数,df
i
表示数据集中包含t
i
的资源的条数,idf
i
表示倒df
i
权重;N(t
i
,d)表示特征词t
i
在资源文本d中出现的次数,N是资源数据总数;
[0019](2.3)由以上步骤得到整个数据集的原始特征向量T及对应标签,根据各类标签数目应用10折交叉验证方法,将原始特征向量划分为训练和测试数据集。
[0020]优选地,在步骤(3)中,使用上述步骤(2)处理后的特征向量,应用基于二进制榕树
生长优化BBTGO算法的特征选择方法对该特征向量空间进行搜索,并设定分类误差和所选特征数的优化目标权重,以同时达到误差和特征量最优。
[0021]较佳地,所述步骤(3)具体包括以下步骤:
[0022](3.1)设置初始化二进制榕树生长优化BBTGO算法的参数及分类器参数,具体为:设置榕树枝干数目m、种群规模popSize、最大迭代次数Gmax、生长阶段阈值T
growth
、再生阶段阈值T
recove

[0023](3.2)根据以下公式设置基于分类模型测试集分类错误率和特征数的优化函数:
[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于优化算法的科技服务资源数据处理方法,其特征在于,所述的方法包括以下步骤:(1)从科技服务数据库中提取各类资源库的数据,用于作为后续特征提取与分析的原始数据集,并根据所述的科技服务资源库中的行业对相应的数据添加分类标签;(2)对提取的数据集进行数据清洗、汉语分词、去停用词、特征向量化处理,得到初始文本特征向量和特征词库,用于后续进行特征提取和分析,并根据交叉验证方法划分训练数据集和测试数据集;(3)使用基于二进制榕树生长优化BBTGO算法的特征选择方法,对所述的文本特征向量进行优化,以获得机器学习算法分类准确率及特征量最优解集,其中,所述最优解集用于得到科技服务文本特征;(4)使用上述步骤获得的特征选择最优解,从初始文本特征向量的特征词中得到最优特征词,并显示在特征热力图和词云中。2.根据权利要求1所述的基于优化算法的科技服务资源数据处理方法,其特征在于,在所述步骤(1)中,所述科技服务数据库中各个资源库的元数据包括人才团队、技术产品、知识产权、仪器仪表、政策支持,并对各个资源库的元数据按照各行业进行分类。3.根据权利要求2所述的基于优化算法的科技服务资源数据处理方法,其特征在于,在所述步骤(2)中,根据所述步骤(1)提供的原始数据集,清洗缺失资源描述信息或不符合规范的数据,应用TF

IDF方法进行词向量化处理并筛除分词频率过低的向量,并应用交叉验证方法划分训练数据集和测试数据集。4.根据权利要求3所述的基于优化算法的科技服务资源数据处理方法,其特征在于,所述步骤(2)具体包括以下步骤:(2.1)对构建的原始数据集进行数据清洗,将缺失资源描述信息或不符合规范的数据从数据集中删除;(2.2)对每条数据进行汉语自动分词和去停用词处理,构建特征集合(t1,t2,...,t
n
),所述特征集合由经过分词后的不同特征词组成,其中n表示特征词总数,并根据以下公式计算特征频率

倒文档频率(TF

IDF)权重:其中,t
i
表示第i个特征词,tf
i
表示特征词出现在本条资源中的次数,df
i
表示数据集中包含t
i
的资源的条数,idf
i
表示倒df
i
权重;N(t
i
,d)表示特征词t
i
在资源文本d中出现的次数,N是资源数据总数;(2.3)由以上步骤得到整个数据集的原始特征向量T及对应标签,根据各类标签数目应用10折交叉验证方法,将原始特征向量划分为训练和测试数据集。5.根据权利要求4所述的基于优化算法的科技服务资源数据处理方法,其特征在于,在所述步骤(3)中,使用上述步骤(2)处理后的特征向量,应用基于二进制榕树生长优化BBTGO算法的特征选择方法对所述的特征向量的空间进行搜索,并设定分类误差和所选特征数的优化目标权重,以同时达到误差和特征量最优。6.根据权利要求5所述的基于优化算法的科技服务资源数据处理方法,其特征在于,所述步骤(3)具体包括以下步骤:
(3.1)设置初始化二进制榕树生长优化BBTGO算法的参数及分类器参数,具体为:设置榕树枝干数目m、种群规模popSize、最大迭代次数Gmax、生长阶段阈值T
growth
、再生阶段阈值T
recove
;(3.2)根据以下公式设置基于分类模型测试集分类错误率和特征数的优化函数:其中,ζ是比例因子,表示分类模型进行10折交叉验证后测试集的错误率,|F|表示特征选择方法选中的特征个数,n表示特征向量的长度;(3.3)所述二进制榕树生长优化BBTGO算法采用二进制编码框架,每个枝叶个体表示一组特征子集,其中个体的比特位由0、1编码,分别表示该位置上的特征项被选中或不选中状态,初始化时个体可随机初始化0或1,第i个个体可表示如下:x
i
=[x
i,1
,x
i,2
,...,x
i,d
,...,x
i,n
](3.4)应用步骤(3.2)中的适应度函数,计算每个枝叶个体的适应度值;(3.5)初始化气生根,...

【专利技术属性】
技术研发人员:费敏锐吴限周文举仵大奎易开祥徐昱琳
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1