System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语义相似度匹配的海量简历筛选方法技术_技高网

一种语义相似度匹配的海量简历筛选方法技术

技术编号:40148948 阅读:5 留言:0更新日期:2024-01-24 01:00
本发明专利技术涉及简历筛选的技术领域,公开了一种语义相似度匹配的海量简历筛选方法,所述方法包括:对任意简历文本进行分段落处理以及关键词提取;对任意简历文本提取得到的关键词集合进行语义编码;对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算;对简历文本的段落级相似度评分进行全局语义融合,根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果。本发明专利技术采用结合细粒度向量以及粗粒度向量的方式,实现多维注意力增强的关键词提取以及简历文本的语义向量提取,对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,实现海量简历场景下的简历筛选。

【技术实现步骤摘要】

本专利技术涉及简历筛选的,尤其涉及一种语义相似度匹配的海量简历筛选方法


技术介绍

1、人员招聘过程中,简历筛选是一项耗时且费力的任务。随着互联网技术的发展和大数据的广泛应用,越来越多的电子简历投送到信箱中,加剧了简历筛选的难度。实际过程中大都根据院校和关键词进行粗粒度筛选,但这种方法往往无法准确捕捉简历中的语义信息,导致筛选结果不够准确。因此迫切需要一种智能化的简历筛选方法,可以在海量简历中快速筛选出与职位需求高度匹配的候选人。这对于提高招聘效率、减轻人力资源部门的工作负担以及提高招聘质量都具有重要意义。目前已经有许多关于简历筛选的研究,其中一些方法基于机器学习和自然语言处理技术。例如,利用词袋模型和tf-idf算法进行特征提取,并使用支持向量机(svm)或神经网络进行分类。还有一些研究使用预训练的深度学习模型,如bert或gpt,来学习简历和职位需求之间的语义关系。尽管已经取得了一些进展,但目前的简历筛选方法仍然存在一些问题。首先,传统的基于关键词匹配的方法无法准确捕捉简历中的语义信息,往往会导致误判。其次,现有的机器学习方法需要大量标记好的数据进行训练,这对于资源有限的企业来说可能是一个挑战。此外,由于职位需求和简历的多样性,单一的模型往往无法覆盖所有情况,导致结果不够准确。针对该问题,本专利技术提出一种海量简历快速筛选方法,通过简历内容的深度语义分析实现最优匹配,提高筛选准确性。


技术实现思路

1、有鉴于此,本专利技术提供一种语义相似度匹配的海量简历筛选方法,目的在于:1)通过采用独热编码的方式生成表征分词结果在简历中的嵌入编码信息,作为分词结果的细粒度向量,并结合分词结果的位置信息、出现频率生成表征分词结果关键信息量的粗粒度向量,采用结合细粒度向量以及粗粒度向量的方式,得到细粒度向量对粗粒度向量的注意力,其中注意力越大,则当前粗粒度向量越能表征其他细粒度向量的信息,生成不同粗粒度向量的关键得分,实现多维注意力增强的关键词提取,采用语义编码的方式对简历文本的关键词集合进行语义编码,生成对应的语义向量,实现简历文本的语义向量提取;2)对简历文本中每个段落的语义向量进行基于全局语义覆盖的检索相似度计算,得到每个段落与简历关键词指标分别在向量分布以及条件分布的相似度,实现段落级相似度评分,对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果,实现海量简历场景下,符合筛选指标的简历筛选。

2、实现上述目的,本专利技术提供的一种语义相似度匹配的海量简历筛选方法,包括以下步骤:

3、s1:获取海量简历文本,对任意简历文本进行分段落处理以及关键词提取,得到简历文本的关键词集合,其中基于多维注意力增强的关键词提取方法为所述关键词提取的主要实施方法;

4、s2:对任意简历文本提取得到的关键词集合进行语义编码,得到简历文本的稠密语义向量;

5、s3:对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,得到简历文本的段落级相似度评分;

6、s4:对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果。

7、作为本专利技术的进一步改进方法:

8、可选地,所述s1步骤中获取海量简历文本,对任意简历文本进行分段落处理,包括:

9、获取海量简历文本{xn|n∈[1,n]},其中xn表示所获取的第n份简历文本,n表示所获取的简历文本总数;

10、对任意简历文本进行分段落处理,其中简历文本xn的分段落处理流程为:

11、识别简历文本xn中的换行符,按照换行符将简历文本xn划分为若干段落;

12、对简历文本xn中的任意段落进行分词处理,得到简历文本xn的分段落处理结果:

13、

14、其中:

15、表示简历文本xn中第i个段落的处理结果,un表示简历文本xn的段落总数;

16、表示简历文本xn第i个段落的第j个分词结果,表示简历文本xn中第i个段落的分词结果总数。在本专利技术实施例中,所选取的分词方法为jieba分词方法。

17、可选地,所述s1步骤中对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,包括:

18、对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,其中简历文本xn中任意段落处理结果的关键词提取流程为:

19、s11:对段落处理结果中的任意分词结果进行词性标注,并利用独热编码方式对任意分词结果进行独热编码处理,独热编码表示结果即为分词结果的嵌入向量,并将嵌入向量作为分词结果的细粒度向量,其中表示分词结果的细粒度向量表示;

20、s12:根据词性标注结果,提取词性为名词的分词结果的出现频率、嵌入向量以及分词结果在段落中的首次出现位置,将所提取的出现频率、嵌入向量以及首次出现位置作为分词结果的粗粒度向量,得到段落处理结果的粗粒度向量表示集合:

21、

22、其中:

23、表示段落处理结果中第h个词性为名词的分词结果的粗粒度向量;

24、表示段落处理结果中第h个词性为名词的分词结果的嵌入向量,hi表示段落处理结果中不重复的词性为名词的分词结果的数目;

25、表示嵌入向量所对应分词结果在段落处理结果中的首次出现位置;

26、表示嵌入向量所对应分词结果在段落处理结果中出现的频率;

27、s13:计算得到细粒度向量对粗粒度向量的注意力分数,并基于细粒度向量对粗粒度向量的注意力分数计算得到粗粒度向量的关键得分,其中粗粒度向量的关键得分为:

28、

29、

30、其中:

31、表示粗粒度向量的关键得分;

32、表示细粒度向量对粗粒度向量的注意力分数;

33、exp(·)表示以自然常数为底的指数函数;

34、wq,wa分别为权重参数矩阵;

35、t表示转置;

36、d表示细粒度向量的长度;

37、s14:选取关键得分最高的k个不同的粗粒度向量所对应的分词结果构成段落处理结果的关键词集合:

38、

39、其中:

40、表示所选取段落处理结果的第k个关键词;

41、表示关键词的嵌入向量;

42、表示关键词的关键得分;

43、表示段落处理结果的关键词集合;

44、则简历文本xn的关键词集合表示为

45、可选地,所述s2步骤中对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,包括:

46、对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,其中简历文本x本文档来自技高网...

【技术保护点】

1.一种语义相似度匹配的海量简历筛选方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S1步骤中获取海量简历文本,对任意简历文本进行分段落处理,包括:

3.如权利要求2所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S1步骤中对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,包括:

4.如权利要求1所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S2步骤中对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,包括:

5.如权利要求4所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S3步骤中对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,包括:

6.如权利要求1所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S4步骤中对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,包括:

7.如权利要求6所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S4步骤中根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果,包括:

...

【技术特征摘要】

1.一种语义相似度匹配的海量简历筛选方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述s1步骤中获取海量简历文本,对任意简历文本进行分段落处理,包括:

3.如权利要求2所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述s1步骤中对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,包括:

4.如权利要求1所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述s2步骤中对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量...

【专利技术属性】
技术研发人员:李弘扬唐山杰郑斌王鹏
申请(专利权)人:江苏优丞信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1