【技术实现步骤摘要】
一种大数量人才简历去重匹配分析方法
本专利技术涉及大数据匹配分析
,尤其是一种大数量人才简历去重匹配分析方法。
技术介绍
随着人才市场的发展,网上出现了大量的人才市场网;并有大量的人才在各大人才市场网上注册并填写个人简历信息。对于企业来说,查找人才并确定人才是一个刚需,如何准确查找到需要的人才,则需要汇总各人才市场上的人才简历信息;一般可通过爬虫进行获取,然后从中获取各人才的信息。在获取、收集各大人才市场网的个人简历的过程,会遇到同一个人但在多个人才市场网上登记的情况;但是由于一些获取数据的流程的原因,一般无法获取人才简历的姓名或明确的特征信息;所以在获取了大数量的人才简历后,如何快速地实现重复人才简历的识别,涉及快速提高人才查找的效率。一般通过爬虫获取的资料,都为非结构化的信息,所以就需通过技术的方法,解决大量人才简历去重匹配识别问题,提高人才简历的查找效率。
技术实现思路
本专利技术解决的技术问题在于提供一种大数量人才简历去重匹配分析方法;解决人才简历去重匹配识别问题,提高人才简历的查找效率。本专利技术解决上述技术问题的技术方案是:所述的方法包括以下步骤:步 ...
【技术保护点】
1.一种大数量人才简历去重匹配分析方法,其特征在于:所述的方法包括以下步骤:步骤1:获取一定数量人才简历的内容,分别按标点符号进行删除处理;步骤2:输入每个处理后的简历信息,构建形成基于每个人才简历的词‑文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;步骤3:对统计后的每个简历的词频进行处理,去除介词、副词、助词,对于单字出现达到一定频率的词进行分开另行统计处理;把处理后的各个简历的词频按简历特征进行一对多的保存,形成各个简历的特征;步骤4:从获取的第一个简历开始与后面的各个简历形成人才简历对进行两两关联分析,构建FP‑Growth关联 ...
【技术特征摘要】
1.一种大数量人才简历去重匹配分析方法,其特征在于:所述的方法包括以下步骤:步骤1:获取一定数量人才简历的内容,分别按标点符号进行删除处理;步骤2:输入每个处理后的简历信息,构建形成基于每个人才简历的词-文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;步骤3:对统计后的每个简历的词频进行处理,去除介词、副词、助词,对于单字出现达到一定频率的词进行分开另行统计处理;把处理后的各个简历的词频按简历特征进行一对多的保存,形成各个简历的特征;步骤4:从获取的第一个简历开始与后面的各个简历形成人才简历对进行两两关联分析,构建FP-Growth关联树进行两两关联分析;获取各人才简历基于TrieTree提取出来的特征作为输入,分析两两人才简历的关联度;步骤5:经过关联分析处理后,按简历对获取有关联的特征及特征的词频,对关联的特征的词频进行统计,关联出来的简历特征按词频分别统计相同的词汇的数据,统计相同词汇的占比;步骤6:分析进行关联对比的人才简历间的词频的词汇相同率,超过50%相同率的简历,判定为同一个人的不同简历,合并为同一个人的信息;对于低于10%相同率的简历,判断为不是同一个人;对于相同率在10%~50%的简历,按相同率形成匹配度,进行标识,并可后续由人工进行判定。2.根据权利要求1所述的方法,其特征在于:所述的步骤5中,把关联分析统计出来的两两人才简历对的特征及词频的词汇分为两部分:1)、词频次数大于1且词频的数量大于20的:对于此部分的识别率,占识别匹配分析的比重60%;2)、词频数量为1的且词频长度大于2的:对于此部分的识别率,占识别匹配分析的比重40%。3.根据权利要求1所述的方法,其特征在于:在所述的步骤5中,大数量人才简历去重匹配分析的过程为:1)基于两两关联分析获取的简历对中相关联的特征得出的词...
【专利技术属性】
技术研发人员:郑锐韬,涂旭平,李勇波,季统凯,
申请(专利权)人:国云科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。