基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质技术方案

技术编号：36894848 阅读：34 留言：0更新日期：2023-03-15 22:22

本发明专利技术提供了一种基于智能优化算法的文本数据处理方法，该数据处理方法能够将科技资源的文本数据进行数据提取、数据预处理、特征选择和特征分析，最终得到准确率最高、特征量少的特征向量和词库数据，有效提高了运行分类器的效率和性能。还涉及一种相应的系统，包括：数据提取模块，从科技服务资源数据库中提取各类服务数据并根据行业添加分类标签；数据预处理模块，清洗原始数据，处理得到特征向量和特征词库并根据交叉验证划分训练和测试数据集；特征选择模块，使用二进制榕树生长优化算法进行特征选择，以获得分类准确率及特征量最优的解集；特征分析模块，从初始文本特征向量的特征词中得到最优特征词，并显示在特征热力图和词云中。最终处理后的数据实现将科技服务资源文本数据转换为有利于分类器处理的最优特征向量。向量。向量。

全部详细技术资料下载

【技术实现步骤摘要】
基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质

[0001]本专利技术属于大数据
，尤其涉及科技服务资源数据处理领域，具体涉及一种基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质。

技术介绍

[0002]科技服务业作为现代服务业的组成部分，已成为带动经济增长和科技进步不可或缺的一环。科技资源是科技服务和技术创新各种生产要素的集合，其数量和质量是影响和制约科技活动的重要因素。不同于传统的商品服务资源，科技服务涉及供需双方包括需要进行开发研发服务、检验检测等科技服务的各类中小型企业、政府、各大高校及科研机构等。在科技服务资源数据处理中，大量科技服务资源涌现，其资源包括人才库、技术成果、知识产权、仪器设施、政策等资源类型，其类别多样化和复杂化，对这些资源数据进行有效处理是提供科技服务的基础。
[0003]科技服务资源由半结构或非结构化的文本数据构成，对这类文本的自动化整合涉及到自然语言处理、数据挖掘、机器学习和信息检索等多种技术。科技资源处理需要利用特征提取(Feature Selection,FS)和文本挖掘算法从海量科技文本中挖掘潜在特征，并按照文本特征和类型进行归类处理。在工程应用中，文本作为一种重要数据类型，包含有大量的特征信息，科技服务资源的聚合需要文本的特征选择算法。与传统的特征选择算法不同，智能优化算法不需要领域知识，也不需要对搜索空间做任何假设。特征选择可以认为是选择候选特征的最佳子集，使得机器学习模型达到优越性能的过程。因此智能优化算法可广泛用于最优化问...

【技术保护点】

【技术特征摘要】
1.一种基于优化算法的科技服务资源数据处理方法，其特征在于，所述的方法包括以下步骤：(1)从科技服务数据库中提取各类资源库的数据，用于作为后续特征提取与分析的原始数据集，并根据所述的科技服务资源库中的行业对相应的数据添加分类标签；(2)对提取的数据集进行数据清洗、汉语分词、去停用词、特征向量化处理，得到初始文本特征向量和特征词库，用于后续进行特征提取和分析，并根据交叉验证方法划分训练数据集和测试数据集；(3)使用基于二进制榕树生长优化BBTGO算法的特征选择方法，对所述的文本特征向量进行优化，以获得机器学习算法分类准确率及特征量最优解集，其中，所述最优解集用于得到科技服务文本特征；(4)使用上述步骤获得的特征选择最优解，从初始文本特征向量的特征词中得到最优特征词，并显示在特征热力图和词云中。2.根据权利要求1所述的基于优化算法的科技服务资源数据处理方法，其特征在于，在所述步骤(1)中，所述科技服务数据库中各个资源库的元数据包括人才团队、技术产品、知识产权、仪器仪表、政策支持，并对各个资源库的元数据按照各行业进行分类。3.根据权利要求2所述的基于优化算法的科技服务资源数据处理方法，其特征在于，在所述步骤(2)中，根据所述步骤(1)提供的原始数据集，清洗缺失资源描述信息或不符合规范的数据，应用TF
‑
IDF方法进行词向量化处理并筛除分词频率过低的向量，并应用交叉验证方法划分训练数据集和测试数据集。4.根据权利要求3所述的基于优化算法的科技服务资源数据处理方法，其特征在于，所述步骤(2)具体包括以下步骤：(2.1)对构建的原始数据集进行数据清洗，将缺失资源描述信息或不符合规范的数据从数据集中删除；(2.2)对每条数据进行汉语自动分词和去停用词处理，构建特征集合(t1,t2,...,t
n
)，所述特征集合由经过分词后的不同特征词组成，其中n表示特征词总数，并根据以下公式计算特征频率
‑
倒文档频率(TF
‑
IDF)权重：其中，t
i
表示第i个特征词，tf
i
表示特征词出现在本条资源中的次数，df
i
表示数据集中包含t
i
的资源的条数，idf
i
表示倒df
i
权重；N(t
i
,d)表示特征词t
i
在资源文本d中出现的次数，N是资源数据总数；(2.3)由以上步骤得到整个数据集的原始特征向量T及对应标签，根据各类标签数目应用10折交叉验证方法，将原始特征向量划分为训练和测试数据集。5.根据权利要求4所述的基于优化算法的科技服务资源数据处理方法，其特征在于，在所述步骤(3)中，使用上述步骤(2)处理后的特征向量，应用基于二进制榕树生长优化BBTGO算法的特征选择方法对所述的特征向量的空间进行搜索，并设定分类误差和所选特征数的优化目标权重，以同时达到误差和特征量最优。6.根据权利要求5所述的基于优化算法的科技服务资源数据处理方法，其特征在于，所述步骤(3)具体包括以下步骤：
(3.1)设置初始化二进制榕树生长优化BBTGO算法的参数及分类器参数，具体为：设置榕树枝干数目m、种群规模popSize、最大迭代次数Gmax、生长阶段阈值T
growth
、再生阶段阈值T
recove
；(3.2)根据以下公式设置基于分类模型测试集分类错误率和特征数的优化函数：其中，ζ是比例因子，表示分类模型进行10折交叉验证后测试集的错误率，|F|表示特征选择方法选中的特征个数，n表示特征向量的长度；(3.3)所述二进制榕树生长优化BBTGO算法采用二进制编码框架，每个枝叶个体表示一组特征子集，其中个体的比特位由0、1编码，分别表示该位置上的特征项被选中或不选中状态，初始化时个体可随机初始化0或1，第i个个体可表示如下：x
i
＝[x
i,1
,x
i,2
,...,x
i,d
,...,x
i,n
](3.4)应用步骤(3.2)中的适应度函数，计算每个枝叶个体的适应度值；(3.5)初始化气生根，...

【专利技术属性】
技术研发人员：费敏锐，吴限，周文举，仵大奎，易开祥，徐昱琳，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人