一种在大数量人才简历中提高搜索匹配度的方法技术

技术编号:21034610 阅读:47 留言:0更新日期:2019-05-04 05:32
本发明专利技术涉及大数据分析技术领域,尤其是一种在大数量人才简历中提高搜索匹配度的方法。本发明专利技术的方法是基于LAS算法及Apriori算法,利用LAS算法的语义分析,获取大数量人才简历的代表词语,基于Apriori算法对简历特征进行关联匹配,通过关联分析获取所有人才简历的关联度高的各关联项及关联度。本发明专利技术实现了大量的人才简历搜索时,提供一种输入一个特征,可获取相关联的其他特征的信息;提高了大数量人才简历中进行搜索的匹配度,提高搜索效率。

【技术实现步骤摘要】
一种在大数量人才简历中提高搜索匹配度的方法
本专利技术涉及大数据分析
,尤其是一种在大数量人才简历中提高搜索匹配度的方法。
技术介绍
随着人才市场的发展,招人的企业可以在各种人才网站上获取用户的信息;但人才的查找受限于网上人才市场提供的功能。对于特殊的需要进行大范围的人才简历的查找,可通过网络爬虫等方式进行获取。但对于存在的大数量人才简历,其中简历的关联性、搜索的匹配度,对于文本类的人才简历,是一个问题。
技术实现思路
本专利技术解决的技术问题在于提供一种在大数量人才简历中提高搜索匹配度的方法;提高在大数量人才简历中进行搜索的匹配度,提高搜索效率。本专利技术解决上述技术问题的技术方案是:所述的方法是基于LAS算法及Apriori算法,利用LAS算法的语义分析,获取大数量人才简历的代表词语,基于Apriori算法对简历特征进行关联匹配,通过关联分析获取所有人才简历的关联度高的各关联项及关联度。所述的方法包括以下具体步骤:所述的方法是基于LAS算法及Apriori算法,利用LAS算法的语义分析,获取大数量人才简历的代表词语,基于Apriori算法对简历特征进行关联匹配,通过关联分析获取所有人才简历的关联度高的各关联项及关联度。所述的方法包括以下具体步骤:步骤1、获取大数量人才简历的内容,分别按标点符号进行删除处理,形成可用于LAS算法输入的简历内容;步骤2、输入每个处理后的简历信息,构建形成基于每个人才简历的词-文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;步骤3、对统计后的每个简历的词频进行处理,去除在所有的简历中共同存在的机率小于10%的代表词语;把处理后的各个简历的代表词语按简历特征进行一对多的保存,形成各个简历的特征;步骤4:把获取后的各简历的词频作为特征,同时输入到构建的Apriori算法上进行关联分析,全部输入完成后,获取所有的关联度的信息;步骤5:人才简历关联分析后,获取分析出来的关联度;对于出现搜索词的其他相关语汇的资料,综合两者按关联系数从大到小进行排列,保存各关联系数及关联的项;步骤6:在进行人才简历搜索时,输入关键字后,从分析出来的关联度排列中获取相关联的其他关键字,按关联度最大的进行获取;然后搜索相关的人才简历,扩大搜索的范围。所述的步骤1中,人才简历的内容通过基于网络爬虫获取或是通过集中式的文档获取。在所述的步骤4中,获取关联度高的信息进行保存;同时可保存构建的Apriori实例,用于后续如果有新的人才简历加入时使用。在所述的步骤5中,关联度的计算,包括出现的关联次数及出现的置信度,置信度的计算基于贝叶斯算法;保存时需保存包括具体的关联项及关联度、及关联项与其他关联项的关联置信度。所述的步骤6具体步骤如下:1)、在输入要搜索的人才简历关键字后,选择是否进行关联搜索及关联的次数,并提交;2)、如果选择不进行关联搜索,则只查询与输入的关键字匹配的所有人才简历并返回数据;3)、如果选择进行关联搜索,则在搜索前,以输入的关键字从关联分析中得出的关键项及关联度,获取关联度排名在前,符合关联次数的所有关联项,并进行所有关联出来的关键项的人才简历搜索;4)、查询出来的人才简历,在其下方标明进行关联查询出来的关联项及其关联度,提供进行关联搜索的指引。本专利技术的有益效果是:通过本方法,获取人才简历的特征后,通过Apriori算法快速的关联分析,输入所有人才简历的特征进行关联分析,获取所有每个简历的特征与其他简历的特征的关联度,及置信度,获取关联度靠前的多类关联信息进行保存,在后续的搜索过程中,输入其中一个特征可获取关联度高的其他特征,从而提高搜索人才简历的匹配度,提高搜索的效率。附图说明下面结合附图对本专利技术进一步说明:附图1是本专利技术的流程图。具体实施方式见图1所示,本专利技术方法的基本流程如下:步骤1:获取大数量人才简历的内容,分别按标点符号进行删除处理,从而形成可用于LAS算法输入的简历内容;步骤2:输入每个处理后的简历信息,构建形成基于每个人才简历的词-文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;步骤3:对统计后的每个简历的词频进行处理,去除在所有的简历中,共同存在的机率小于10%的代表词语,把处理后的各个简历的代表词语按简历特征进行一对多的保存,形成各个简历的特征;步骤4:把获取后的各简历的词频作为特征,同时输入到构建的Apriori算法上进行关联分析,全部输入完成后,获取所有的关联度的信息;步骤5:大数量人才简历关联分析后,获取分析出来的关联度,关联度的计算,包括出现的关联次数及出现的置信度,置信度的计算基于贝叶斯算法,对于出现的搜索词,出现的相关其他语汇的出现资料,综合两者按关联系数从大到小进行排列,保存各关联系数及关联的项;步骤6:在进行人才简历搜索时,输入关键字后,从分析出来的关联度排列中获取相关联的其他关键字,按关联度最大的进行获取,然后进行搜索相关的人才简历,这样扩大了搜索的范围,为人才的查找提供了一种提高搜索匹配度的方法。大数量的人才简历的内容,是通过基于网络爬虫获取,或是通过集中式的文档获取,形成的大数量人才简历只有简历内容,很多简历没有明确的姓名或是明显的特征,为了获取相关的特征,把所有的人才简历,按删除标点符号进行处理,形成可用于获取各个简历的代表词语的输入集。对于所有人才简历,对标点符号进行删除,包括回车换行,把简历转换成可用于LAS算法输入的简历内容,构建LAS算法并从中提取出每个简历的代表词语及出现频率。统计出来的各人才简历的代表词语及词频,把共同出现的机率小于10%的代表词语进行删除,从而形成比较高的共同代表词语,把处理过后的各人才简历的代表词语,形成每个简历的特征,通过一对多的方式进行保存。构建Apriori算法,并把所有简历基于LSA分析得出的特征词频进行输入,从而形成所有人才简历的关键词汇的关联分析,获取关联度高的信息进行保存;同时可保存构建的Apriori实例,用于后续如果有新的人才简历加入时,只需恢复已经构建的实例,然后加入新的人才简历特征就可以进行新的关联分析。Apriori算法关联分析得出的大数量人才简历的关联结果,在保存时需保存包括具体的关联项及关联度、及关联项与其他关联项的关联置信度,因为一个关联项可以与多个其他的关联项形成高关联度,包括了其出现的高的置信度,置信度的计算基于贝叶斯算法,计算关联项与关联特征的关联概率,从而获取其最大的关联度,在保存时既需要保存关联项,又需保存关联度置信度。基于Apriori算法关联分析后得出的关键项关联度后,在进行从数量人才搜索时,步骤如下:1)在输入要搜索的人才简历关键字后,选择是否进行关联搜索,及关联的次数,并提交;2)、如果搜索不进行关联搜索,则只查询与输入的关键字的所有人才简历并返回数据;3)、如果搜索选择了进行关联搜索,则在搜索前,以输入的关键字从关联分析中得出的关键项及关联度,获取关联度排名在前,选择的关联的次数的所有关联项,并进行所有关联出来的关键项的人才简历的搜索;4)、查询出来的人才简历,在其下方标明进行关联查询出来的关联项及其关联度,从而为搜索人提供进行关联搜索的指引。本专利技术方法基于LAS(潜在语义分析)算法高效的本文档来自技高网...

【技术保护点】
1.一种在大数量人才简历中提高搜索匹配度的方法,其特征在于:所述的方法是基于LAS算法及Apriori算法,利用LAS算法的语义分析,获取大数量人才简历的代表词语,基于Apriori算法对简历特征进行关联匹配,通过关联分析获取所有人才简历的关联度高的各关联项及关联度。

【技术特征摘要】
1.一种在大数量人才简历中提高搜索匹配度的方法,其特征在于:所述的方法是基于LAS算法及Apriori算法,利用LAS算法的语义分析,获取大数量人才简历的代表词语,基于Apriori算法对简历特征进行关联匹配,通过关联分析获取所有人才简历的关联度高的各关联项及关联度。2.根据权利要求1所述的方法,其特征在于:所述的方法包括以下具体步骤:步骤1、获取大数量人才简历的内容,分别按标点符号进行删除处理,形成可用于LAS算法输入的简历内容;步骤2、输入每个处理后的简历信息,构建形成基于每个人才简历的词-文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;步骤3、对统计后的每个简历的词频进行处理,去除在所有的简历中共同存在的机率小于10%的代表词语;把处理后的各个简历的代表词语按简历特征进行一对多的保存,形成各个简历的特征;步骤4:把获取后的各简历的词频作为特征,同时输入到构建的Apriori算法上进行关联分析,全部输入完成后,获取所有的关联度的信息;步骤5:人才简历关联分析后,获取分析出来的关联度;对于出现搜索词的其他相关语汇的资料,综合两者按关联系数从大到小进行排列,保存各关联系数及关联的项;步骤6:在进行人才简历搜索时,输入关键字后,从分析出来的...

【专利技术属性】
技术研发人员:郑锐韬涂旭平李勇波季统凯
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1