本申请的实施例提供了一种基于技能向量和图神经网络的企业推荐方法和系统。该方法包括:收集机器学习行业数据和机器学习行业特定企业数据,进行数据处理和异常值检测,标准化和归一化;通过文本向量化构建反映行业技能现状的特征矩阵A、反映前沿技术趋势的特征矩阵B和反映企业技术能力的特征矩阵C;训练四种模型,LSTM模型,CNN模型,GCN模型,Transformer模型;使用ARIMA模型对招聘技能时间序列数据进行预测,得到预测结果x’n+1,作为行业平均水平基准u;计算MAE并优化模型;科技竞争力指数评分,使用余弦相似度公式计算企业之间的相似度。
【技术实现步骤摘要】
本申请涉及计算机,具体而言,涉及一种基于技能向量和图神经网络的企业推荐方法。
技术介绍
1、随着科技发展的加速,技术竞争越来越激烈,企业在面对日益激烈的技术竞争时,需要及时了解自身的技术能力和市场需求,以制定有效的技术规划和投资决策。因此,需要一种基于技能向量和图神经网络的企业推荐的方法和系统。
2、传统的科技竞争力预测方法大多基于经验判断或统计模型,存在精度低、模型不稳定等问题。本申请提出的科技竞争力预测方法及系统,通过利用自然语言处理、深度学习等技术,将企业的人才流动数据、软件著作杈数据、招聘需求数据等多维数据进行分析和挖掘,从而预测企业的技术竞争力以及未来技术趋势,提高预测的准确性和稳定性。
3、具体而言,本申请提出了一种基于多模型集成的科技竞争力预测方法,包括特征矩阵构建、lstm模型预测现状间的关联、cnn模型预测技术前沿之间的关联、gcn模型学习企业之间的技术关联、transformer模型学习技术需求的长期演变、arima模型建模技能需求总体趋势等步骤。通过对这些模型的加杈平均进行模型集成,以提高预测精度和鲁棒性。
4、本申请的基于技能向量和图神经网络的企业推荐的方法和系统,可以为企业的科技创新提供参考,找到合适的合作伙伴或竞争对手,并及时调整技术创新方向,以提高企业的核心竞争力。
技术实现思路
1、本申请的实施例提供了一种基于技能向量和图神经网络的企业推荐方法和系统,进而至少在一定程度上可以避免技术失速、市场萎缩等问题。
<
p>2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。3、根据本申请实施例的一个方面,提供了一种基于技能向量和图神经网络的企业推荐方法,包括:
4、s110:收集机器学习行业数据和机器学习行业特定企业数据,进行数据处理和异常值检测,标准化和归一化;
5、在本申请的一些实施例中,基于前述方案,包括:收集原始数据:招聘网站机器学习行业人才流动情况数据d0,招聘网站机器学习职位数据d1,代表机器学习现有技术;收集机器学习行业arxiv预印本论文标题和摘要、顶会论文标题和摘要d2,代表机器学习行业前沿技术;
6、收集机器学习行业特定企业的软件著作杈和专利d3,机器学习行业特定企业的人工智能岗位招聘需求d4,机器学习行业特定企业的网站内容d5,特定企业近5年的业绩数据d6。
7、s120:通过文本向量化构建反映行业技能现状的特征矩阵a、反映前沿技术趋势的特征矩阵b和反映企业技术能力的特征矩阵c;
8、按照6∶2∶1∶1的比例将原始数据划分为训练集、验证集、测试集1和测试集2,并将测试集2作为一个额外的数据源,用于增强训练模型;
9、对d0-d6中的重复记录进行删除或合并,避免数据冗余或不一致;
10、对d0-d6中的缺失值进行填补,使用插值法或其他合适的方法,保证数据完整性;
11、对d0-d6中的异常值进行检测和删除,使用正态分布法或其他合适的方法,保证数据质量;
12、对d0-d6中的数值型数据进行标准化或归一化,使用standardscaler或minmaxscaler方法,保证数据可比性;
13、对d1中的招聘网站机器学习职位数据进行文本向量化,使用bert或word2vec方法,构建反映行业技能现状的特征矩阵a;
14、对d2中的最新论文标题和摘要进行文本向量化,使用bert或word2vec方法,构建反映前沿技术趋势的特征矩阵b;
15、对d3、d4和d5中的企业软件著作杈数据与招聘需求文本进行融合,使用bert或word2vec方法,构建反映企业技术能力的特征矩阵c;
16、使用gpt-3等方法对a、b、c进行数据增强,扩充特征矩阵的规模;得到了反映行业技能现状、前沿技术趋势和特定企业技术能力的三个特征矩阵a、b、c。
17、具体地,使用pandas模块中的drop_duplicates函数来删除或合并重复的记录,使用pandas模块中的interpolate函数来使用插值法填补缺失值,使用scipy模块中的stats子模块中的zscore函数来实现正态分布法检测异常值,检测到异常值后将其删除;使用sklearn模块中的preprocessing子模块中的standardscaler类和minmaxscaler类来实现标准化和归一化。
18、s130:训练lstm模型用于预测现状间的关联,cnn模型用于预测技术前沿之间的关联,gcn模型用于学习企业之间的技术关联,transformer模型用于学习技术需求的长期演变;
19、在本申请的一些实施例中,基于前述方案,所述lstm预测现状间的关联,包括:将特征矩阵a作为lstm模型的输入层,将上一时刻的隐藏状态ht-1和当前输入a结合起来,传入遗忘门、输入门和输出门进行计算。遗忘门控制前一时刻cell状态被保留的部分,cell用于保存模型在处理序列数据时的历史信息;输入门控制当前时刻输入a的影响程度;cell状态ct根据遗忘门和输入门进行更新,产生当前的cell状态;输出门控制输出的cell状态ct到什么程度影响隐藏状态ht=lstm(a,ht-1);将ht传入输出层进行分类,反映当前输入及历史信息对技能关联概率yt_lstm的影响,yt_lstm=softmax(wlstm*ht+blstm);其中wlstm和blstm为输出层的权重和偏置;
20、在本申请的一些实施例中,基于前述方案,所述lstm模型,包括:
21、输入层:将特征矩阵a作为输入,每一行代表一个企业,每一列代表一个技能;输入层将每个技能转换为一个词向量,从而得到一个词向量序列,作为lstm模型的输入;
22、lstm层:使用lstm模型处理词向量序列,学习技能之间的长期依赖关系。lstm层由多个lstm单元组成,每个lstm单元包含三个门结构(遗忘门、输入门和输出门)和一个单元状态(cell state)。lstm单元的计算公式如下:
23、-遗忘门:ft=sigma(wfcdot[ht-1,xt]+bf),其中ft是遗忘门向量,wf和bf是遗忘门层的杈重矩阵和偏置向量,ht-1是上一时刻的隐藏状态向量,xt是当前时刻的输入向量(即词向量),sigma是sigmoid函数,cdot是矩阵乘法;遗忘门的作用是控制前一时刻的单元状态被保留的部分,cell用于保存模型在处理序列数据时的历史信息。
24、-输入门:it=sigma(wicdot[ht-1,xt]+bi),其中it是输入门向量,wi和bi是输入门层的杈重矩阵和偏置向量,其他符号同上;输入门的作用是控制当前时刻输入对单元状态的影响程度。
25、-单元状态:ct=ftodotct-1+itodottanh(wccdot[ht-1,xt]+bc),其中ct本文档来自技高网
...
【技术保护点】
1.一种基于技能向量和图神经网络的企业推荐方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,S110,包括:
3.根据权利要求2所述的方法,其特征在于,S120,包括:
4.根据权利要求1所述的方法,其特征在于,S130,包括:
5.根据权利要求4所述的方法,其特征在于,S140,包括:
6.根据权利要求1所述的方法,其特征在于,S150,包括:
7.根据权利要求1所述的方法,其特征在于,S160,包括:
8.一种企业推荐系统,其特征在于,包括:
【技术特征摘要】
1.一种基于技能向量和图神经网络的企业推荐方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,s110,包括:
3.根据权利要求2所述的方法,其特征在于,s120,包括:
4.根据权利要求1所述的方法,其特征在于,s130,...
【专利技术属性】
技术研发人员:齐腾峰,
申请(专利权)人:深圳市云初信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。