招聘行业文本召回方法及系统、设备与介质技术方案

技术编号:36808022 阅读:13 留言:0更新日期:2023-03-09 00:27
本发明专利技术公开了一种招聘行业文本召回方法及系统、设备与介质,所述文本召回方法包括:获取初始文本信息;基于预设知识图谱对初始文本信息进行模糊匹配获得技能关键词及其权重;基于预设排序算法获得主旨关键词及其权重;分别基于预设词表示模型处理主旨关键词和技能关键词,以获得主旨词向量和技能词向量;根据预设权重对主旨词向量和技能词向量进行向量拼接处理,以获得简历岗位特征向量;根据预设召回算法处理简历岗位特征向量,获得初始文本信息对应的召回计算结果。本发明专利技术通过精准获取简历岗位文本特征向量映射效果,更快更准地实现相似召回计算,提升了招聘行业文本召回的效率和质量。和质量。和质量。

【技术实现步骤摘要】
招聘行业文本召回方法及系统、设备与介质


[0001]本专利技术属于文本召回
,尤其涉及一种招聘行业文本召回方法及系统、设备与介质。

技术介绍

[0002]基于文本召回是召回系统的一种策略,常见方式是通过将查询词(query)进行分词处理后与倒排索引的关键词(item)进行匹配召回。这种召回方式的优点是足够简单,但是可能会限制的太过严格,对于一些长尾搜索会导致输入意图一致的相似词没办法召回合适的商品。为解决上述问题,业界对于query进行了一些优化处理和扩展以提升文本召回返回结果的相关性,但依然存在文本大数据大而冗余,非结构化带来的痛点,尤其对于招聘行业的召回系统,因为涉及人岗匹配的特殊召回要求,通用型文本推荐召回方法无法精准地适用,更不能基于“职业”维度和“技能”维度进行处理,在海量数据层面的应用中更是存在相似计算速度慢的弊端。

技术实现思路

[0003]本专利技术要解决的技术问题是为了克服现有技术中的上述缺陷,提供一种招聘行业文本召回方法及系统、设备与介质。
[0004]本专利技术是通过下述技术方案来解决上述技术问题:
[0005]本专利技术提供了一种招聘行业文本召回方法,包括如下步骤:
[0006]获取初始文本信息;
[0007]基于预设知识图谱对所述初始文本信息进行模糊匹配,以获得包括招聘岗位对应的技能信息的技能关键词及其权重;所述预设知识图谱包括所述技能信息和职业维度的关联关系,所述关键词权重根据所述关联关系确定;
[0008]基于预设排序算法处理所述初始文本信息,以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重;
[0009]分别基于预设词表示模型处理所述主旨关键词和所述技能关键词,以获得主旨词向量和技能词向量;
[0010]根据预设权重对所述主旨词向量和所述技能词向量进行向量拼接处理,以获得简历岗位特征向量;
[0011]根据预设召回算法处理所述简历岗位特征向量,获得所述初始文本信息对应的召回计算结果。
[0012]较佳地,所述获取初始文本信息的步骤包括:
[0013]获取包括招聘岗位信息的岗位文本数据和包括应聘简历信息的简历文本数据;
[0014]基于预设的职业维度参数模板对所述岗位文本数据和所述简历文本数据进行分词、去除屏蔽词和获取重点词中的至少一项预处理,以获取初始文本信息。
[0015]较佳地,所述基于预设排序算法处理所述初始文本信息,以获得包括招聘岗位对
应的主旨信息的主旨关键词及其权重的步骤包括:
[0016]分别基于TF

IDF(Term Frequency

Inverse Document Frequency,词频

逆向文件频率)算法和Textrank(一种文本排序算法)算法处理所述初始文本信息;
[0017]从所述初始文本信息经过选择TF

IDF算法和Textrank算法处理后得到的结果中选择重复词,作为所述主旨关键词;
[0018]设置TF

IDF算法处理时所述主旨关键词对应的TF

IDF值作为所述主旨关键词的权重。
[0019]较佳地,所述预设词表示模型基于word2vect(一种用来产生词向量算法)算法训练获得,和/或,所述预设召回算法包括余弦相似度计算和敏感哈希算法。
[0020]本专利技术还提供了一种招聘行业文本召回系统,包括:
[0021]文本获取模块,用于获取初始文本信息;
[0022]技能文本模块,用于基于预设知识图谱对所述初始文本信息进行模糊匹配,以获得包括招聘岗位对应的技能信息的技能关键词及其权重;所述预设知识图谱包括所述技能信息和职业维度的关联关系,所述关键词权重根据所述关联关系确定;
[0023]主旨文本模块,用于基于预设排序算法处理所述初始文本信息,以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重;
[0024]向量获取模块,用于分别基于预设词表示模型处理所述主旨关键词和所述技能关键词,以获得主旨词向量和技能词向量;
[0025]特征向量模块,用于根据预设权重对所述主旨词向量和所述技能词向量进行向量拼接处理,以获得简历岗位特征向量;
[0026]召回处理模块,用于根据预设召回算法处理所述简历岗位特征向量,获得所述初始文本信息对应的召回计算结果。
[0027]较佳地,所述文本获取模块包括:
[0028]获取单元,用于获取包括招聘岗位信息的岗位文本数据和包括应聘简历信息的简历文本数据;
[0029]预处理单元,用于基于预设的职业维度参数模板对所述岗位文本数据和所述简历文本数据进行分词、去除屏蔽词和获取重点词中的至少一项预处理,以获取初始文本信息。
[0030]较佳地,所述主旨文本模块具体用于:
[0031]分别基于TF

IDF算法和Textrank算法处理所述初始文本信息;
[0032]从所述初始文本信息经过选择TF

IDF算法和Textrank算法处理后得到的结果中选择重复词,作为所述主旨关键词;
[0033]设置TF

IDF算法处理时所述主旨关键词对应的TF

IDF值作为所述主旨关键词的权重。
[0034]较佳地,所述预设词表示模型基于word2vect算法训练获得,和/或,所述预设召回算法包括余弦相似度计算和敏感哈希算法。
[0035]本专利技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述的招聘行业文本召回方法。
[0036]本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机
程序被处理器执行时实现上述的招聘行业文本召回方法。
[0037]本专利技术的积极进步效果在于:本专利技术通过提供一种招聘行业文本召回方法与系统、设备与介质,基于预设知识图谱对初始文本信息进行模糊匹配,获得技能关键词及其权重;基于预设排序算法获得主旨关键词及其权重;进而基于预设词表示模型获得主旨词向量和技能词向量,经拼接处理获得简历岗位特征向量,通过预设召回算法处理获得召回计算结果。本专利技术通过基于适配招聘行业的职业维度对文本进行预处理,以及构建表达职业技能关联关系的知识图谱以合理选择关键词,从而能够精准地获取简历岗位文本特征向量映射效果,更快更准地实现相似召回计算,提升了招聘行业文本召回的效率和质量。
附图说明
[0038]图1为本专利技术实施例1的招聘行业文本召回方法的流程图。
[0039]图2为本专利技术实施例2的招聘行业文本召回系统的模块示意图。
[0040]图3为本专利技术实施例3的电子产品的结构框图。
具体实施方式
[0041]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种招聘行业文本召回方法,其特征在于,包括如下步骤:获取初始文本信息;基于预设知识图谱对所述初始文本信息进行模糊匹配,以获得包括招聘岗位对应的技能信息的技能关键词及其权重;所述预设知识图谱包括所述技能信息和职业维度的关联关系,所述关键词权重根据所述关联关系确定;基于预设排序算法处理所述初始文本信息,以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重;分别基于预设词表示模型处理所述主旨关键词和所述技能关键词,以获得主旨词向量和技能词向量;根据预设权重对所述主旨词向量和所述技能词向量进行向量拼接处理,以获得简历岗位特征向量;根据预设召回算法处理所述简历岗位特征向量,获得所述初始文本信息对应的召回计算结果。2.如权利要求1所述的招聘行业文本召回方法,其特征在于,所述获取初始文本信息的步骤包括:获取包括招聘岗位信息的岗位文本数据和包括应聘简历信息的简历文本数据;基于预设的职业维度参数模板对所述岗位文本数据和所述简历文本数据进行分词、去除屏蔽词和获取重点词中的至少一项预处理,以获取初始文本信息。3.如权利要求1所述的招聘行业文本召回方法,其特征在于,所述基于预设排序算法处理所述初始文本信息,以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重的步骤包括:分别基于TF

IDF算法和Textrank算法处理所述初始文本信息;从所述初始文本信息经过选择TF

IDF算法和Textrank算法处理后得到的结果中选择重复词,作为所述主旨关键词;设置TF

IDF算法处理时所述主旨关键词对应的TF

IDF值作为所述主旨关键词的权重。4.根据权利要求1所述的招聘行业文本召回方法,其特征在于,所述预设词表示模型基于word2vect算法训练获得,和/或,所述预设召回算法包括余弦相似度计算和敏感哈希算法。5.一种招聘行业文本召回系统,其特征在于,包括:文本获取模块,用于获取初始文本信息;技能文本模块,用于基于预设知识图谱对所述初始文本信息进行模糊匹配,以获得包括招聘岗位对应的技能信息的技能关键词及其权重;所述预设知识图谱包括...

【专利技术属性】
技术研发人员:沈晓晨刘志阳孙世宁李阳
申请(专利权)人:上海吉贝克信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1