System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及线上虚假招聘数据分析,特别是涉及一种基于集成学习的虚假招聘概率预测方法。
技术介绍
1、由于网络招聘是近几年开始流行的一种招聘形式,且网络虚假招聘检测的相关领域尚未得到适当的关注,导致该领域的研究文献不足,到目前为止,很大程度上仍有许多研究未得到探索。在21世纪初,机器学习算法尚未成熟,当时的研究者利用计算机技术从侧面预防和解决虚假招聘问题。wenyin,huang等人在2005年提出了一种基于视觉相似度的钓鱼网页检测方法,可作为预防线上虚假招聘检测解决方案的一部分,其成果已发表在论文“detection of phishing webpages based on visual similarity”中。agrawal,kumar等人提出了一种基于贝叶斯分类器的垃圾邮件识别方法,该方法可以有效检测垃圾邮件,为求职者起到一定警示作用,其成果已发表在论文“controlling spam emails at therouters”中。近年来,现有的研究者们为解决线上虚假招聘检测问题采用了机器学习算法,例如轻型梯度提升机(lightgbm)、支持向量机(svm)和随机森林等,对虚假招聘数据进行分析和建模,以实现虚假招聘检测。
2、lal,sardana等人在2019年提出了一种对于不平衡数据集的集成学习模型,该模型对于不平衡的虚假招聘数据集有着良好的准确率,其成果已发表在论文“orfdetector:ensemble learning based online recruitment fraud detect
3、随着深度学习在人工智能领域的重要性不断加深,一些研究者开始采用深度学习算法,例如卷积神经网络(cnn)、循环神经网络(rnn)等,对结构化文本和非结构化文本等数据进行分析和建模,以实现虚假招聘检测。例如,“online recruitment fraud detectionusingann”一文,由nasser,alzaanin等人于2021年在巴勒斯坦信息和通信技术国际会议(picict)发表,该方法使用公共就业爱琴海数据集(emscad),对于在处理招聘信息中例如职业描述等非结构化的长文本特征,人工神经网络相比传统的机器学习有着更好的特征处理。
4、然而在目前的研究中,多数研究均采用爱琴海公共数据集(emscad),该数据集的最大问题便是平衡的,由于在实际问题中,数据往往是不平衡的,所以采用爱琴海数据集的研究模型在不平衡数据集中的效果尚待考究。在前文中lal,sardana等人通过自制不平衡数据集进行研究,模型虽有着不错的效果,但数据集较小,模型的泛化能力较弱。
技术实现思路
1、专利技术目的:针对
技术介绍
中指出的问题,本专利技术提出了一种基于集成学习的虚假招聘概率预测方法,利用多个模型训练对比效果,最后利用模型堆叠达到最优表现,实现对虚假招聘概率预测;该方法能够更准确地预测虚假招聘概率,也更加高效和可靠。
2、技术方案:本专利技术提出一种基于集成学习的虚假招聘概率预测方法,包括如下步骤:
3、步骤1:对多个招聘网站进行数据采集;
4、步骤2:运用数据科学库pandas和自然语言处理库jionlp,对采集到的数据进行初步清洗以及对数据进行归一化和标签化预处理;
5、步骤3:对已清洗和预处理的结构化和非结构化数据,执行标签编码和td-idf对数据进行特征提取;
6、步骤4:对经特征提取后的数据,应用truncated svd降维算法进行维度缩减,利用hstack横向堆叠函数将所有特征合并为一个矩阵;
7、步骤5:将预处理好的数据放到多个机器学习模型中进行训练,选择准确率较高的三个机器学习模型作为集成学习的基模型;
8、步骤6:利用步骤5中选定的基模型,进行集成学习模型训练并输出结果;
9、步骤7:以随机森林作为元模型,对各个基模型的预测结果进行综合整合,以得出最终的虚假招聘概率预测,并基于最终结果对模型进行超参数优化。
10、进一步地,所述步骤1的具体方法为::
11、步骤1.1:通过python脚本使用scrapy框架和xpath工具进行网站结构解析和数据分析;
12、步骤1.2:结合googledriver驱动,使用selenium技术进行动态网页的数据采集,所采集的数据涵盖了六个维度,包括职位名称、公司名称、薪资、学历要求、工作经验要求和公司地址。
13、进一步地,所述步骤2的具体方法为:
14、步骤2.1:使用数据科学库pandas对空白值、重复值和异常值的数据进行清洗;对于非结构化文本所在维度的空白值和重复值,则直接删除整行数据;对于结构化文本所在维度的空白值和重复值,则用中位数替代;对于异常值,结构化文本的异常值则用中位数替代,非结构化文本的异常值则删除;
15、步骤2.2:使用自然语言处理库jionlp对非结构化文本进一步地清洗;清洗内容包括但不限于去除文本中的异常字符、冗余字符、html标签、括号信息、url、e-mail、电话号码,以及将文本中全角字母数字转换为半角;
16、步骤2.3:对数据进行归一化处理,针对“学历要求”、“工作经验要求”和“薪资”三个维度,“学历要求”和“工作经验要求”两个维度统一为四种类别,“薪资”维度则统一为月平均薪资,“薪资”维度中的空白值和异常值统一用月平均薪资的中位数来替代;
17、步骤2.4:为数据集中的每一条记录打上“行业类别”标签;为数据集中的每一条记录打上“虚假招聘概率”标签;所述“虚假招聘概率”标签基于一组预先设定的关键词和启发式方法进行设置。
18、进一步地,所述步骤3的具体方法为:
19、步骤3.1:针对数值型特征与结构化文本特征,进行数据类型的彻底整合,确保所有的数值型特征被转换成浮点型数据;对于结构化文本特征,采用标签编码的方式进行处理,通过标签编码,将各种非数值形式的数据,转化为具体的数值标签;
20、步骤3.2:针对非结构化文本特征,使用tf-idf词频-逆文档频率算法进行向量化处理。
21、进一步地,所述步骤4的具体方法为:
22、步骤4.1:在特征提取环节产生的td-idf稀疏矩阵上应用truncated singularvalue decomposition(truncated svd)降维算法;truncated svd算法的参数设置为“n_components=100”;
23、步骤4.2:利用hstack横向堆叠函数将td-idf生成的稀疏矩阵以及其他的特征合并为一个矩阵,hstack横向堆叠函数具体表达式为:
24、x=[other_features|tfidf_matrices_svd]
25、其中other_features为其他的特征矩阵,other_features为tf-idf生成本文档来自技高网...
【技术保护点】
1.一种基于集成学习的虚假招聘概率预测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤1的具体方法为::
3.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤2的具体方法为:
4.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤3的具体方法为:
5.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤4的具体方法为:
6.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤5的具体方法为:
7.根据权利要求6所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤6的具体方法为:
8.根据权利要求7所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤7的具体方法为:
【技术特征摘要】
1.一种基于集成学习的虚假招聘概率预测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤1的具体方法为::
3.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤2的具体方法为:
4.根据权利要求1所述的基于集成学习的虚假招聘概率预测方法,其特征在于,所述步骤3的具体方法为:
5.根...
【专利技术属性】
技术研发人员:王梅峰,张海艳,王媛媛,李亚州,田海阳,黄佳泷,宋照渝,严少峰,朱俊勋,张兴潮,尹彤彤,张澳,何艳婷,谢乾,汪涛,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。