当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于技能感知多注意力机制的招聘启事生成方法技术

技术编号:25638789 阅读:26 留言:0更新日期:2020-09-15 21:30
一种基于技能感知多注意力机制的招聘启事生成方法,涉及计算机应用技术领域。将基本信息数据拆分为词序列,初始化为词向量的形式作为词的浅层语义表示;利用全局的招聘启事数据构建知识图谱,输入经处理后的局部信息,初始化每个词的浅层语义表示,同时输入全局信息和对应基本信息。基于局部信息的输出,学习工作任务中每个词的高层语义表示生成技能词序列、文本词序列,并优化文本词序列中的技能词。本发明专利技术既考虑了局部的工作任务的语义特征以及基于它预测的技能词序列特征,又考虑了全局的先验专业技能知识语义特征,并将两部分预测到的词概率分布进行了加权求和,可以挖掘出招聘启事广告中的技能信息,提高了技能需求文档的生成质量。

【技术实现步骤摘要】
一种基于技能感知多注意力机制的招聘启事生成方法
本专利技术涉及计算机应用技术。
技术介绍
人力资源管理是通过对组织内外相关人力资源进行有效运用,满足组织当前及未来发展的需要,保证组织目标实现与成员发展的最大化的一系列活动的总称。其重要性对于个人发展,企业发展乃至社会的发展都不言而喻。随着互联网线上招聘的发展和招聘数据的累积,智能化的人力资源管理越来越被重视和关注。智能化人力资源管理通过对大数据的分析和建模来辅助人力资源管理并提高其效率和质量。近年来,国内外已有很多工作针对智能化人力资源管理开展了相关研究,并且取得了一定的研究成果。LeeandBrusilovsky[1]基于招聘者和候选者的偏好设计了一个工作推荐系统。Qin等人[2]提出了一个个性化的问题推荐系统服务于工作面试环节。Sun等人[3]研究了任何组织的相容性。Xu等人[4]提出了一个数据驱动的方法来建模技能的流行度。同时,一些公司也开发了增强写作的工具:Textio,TapRecruit等等来辅助写作润色草稿。本专利技术专利也从辅助招聘广告的写作角度出发,创新性的提出智能化的段落生成。在机器学习中,生成任务的发展日渐成熟。生成任务大多被建模成序列到序列的学习问题。Lopyrev[5]通过训练一个具有注意力机制的序列到序列的模型解决了标题生成任务。Xing等人[6]在序列到序列模型中引入了话题信息解决了连天机器人对话生成任务。Meng等人[7]在序列到序列模型应用了复制机制解决了关键字抽取问题。近年来,随着实际任务的复杂化,层级的序列到序列模型更多体现了模型结构的合理性和问题解决能力的优势。DongandLapata[8]分解语义解析过程为草稿生成和细节填写。Puduppully等人[9]提出了一个两阶段的模型:内容选择和规划,解决了表格数据到文本的生成。
技术实现思路
针对以上相关工作,本专利技术专利基于给定的工作任务详情和公司基本信息,智能化的生成技能范围列表并进一步的生成技能需求详情文本段落,该过程省去了人工的大量时间和对比分析,并且使得技能需求详情充分的考虑技能信息的丰富度。同时考虑到招聘启事中的技能具有较强的专业性和领域性,因此通过基于全局数据信息构建知识图谱,对最终生成的技能需求详情文本段落进行技能的优化。在对最终生成文本起到影响因素的工作任务详情,技能范围列表和知识图谱数据中,本专利技术通过注意力机制对其多来源数据信息进行加权融合达到一起训练的效果,使得技能需求详情文本段落的技能丰富度和准确度得到提升。为了解决现有技术的问题,本专利技术相应的技术方案是:一种基于技能感知多注意力机制的招聘启事生成方法,包括以下步骤:步骤1,获得工作任务详情段落和基本信息数据,基本信息包括发布公司规模信息和工作职位信息和技能需求段落,其中,工作任务和技能需求首先分别被分词工具拆分为词序列,并将每个词初始化为词向量的形式作为词的浅层语义表示;利用全局的招聘启事数据构建知识图谱;输入经过分词处理后的工作任务详情(局部信息),使用词向量的方法初始化每个词的浅层语义表示;同时输入知识图谱(全局信息)和对应基本信息;步骤2,基于步骤1中局部信息的输出,学习工作任务详情中每个词的高层语义表示:根据步骤1中输出的局部信息的每个词的词向量,利用双向的长短时记忆网络以序列的方式对工作任务的词进行高层语义编码;步骤3,基于步骤2中的输出,生成技能词序列;步骤4,基于步骤3的输出,初步生成文本词序列;步骤5,基于步骤1中全局信息部分和步骤4中的输出,进一步优化文本词序列中的技能词。本专利技术的有益效果是:本专利技术基于工作任务详情和对应的基本信息实现技能需求详情的生成,提出的建模方法既考虑了局部的工作任务的语义特征以及基于它预测的技能词序列特征,又考虑了全局的先验专业技能知识语义特征,并将两部分预测到的词概率分布进行了加权求和,可以挖掘出招聘启事广告中的技能信息,提高了技能需求文档的生成质量。比如,给定工作任务“1.负责完成公司下达的年度销售指标。2.将年度指标分解至季度、月度并加以执行。3.确保客户订单及时汇款,确保无逾期、呆帐等。4.渠道新客户开发及老客户的维护。”,根据我们的方法智能生成“1.高中以上学历,1年以上销售经验,有销售运营类管理更加的优先考虑;2.有礼赠品团购终端客户服务体系的工作经验、熟悉礼品销售者优先;3.有团队合作精神,能承受较大的工作压力”。附图说明附图1是本专利技术的处理流程图。附图2是本专利技术的整体系统结构示意图。具体实施方式本专利技术的一种基于技能感知多注意力机制的招聘启事生成方法,参见附图1,包括以下内容:数据表示本专利技术涉及到的数据主要为招聘启事广告数据,该数据以文本的形式存储。每个工作任务详情段落,会对应其基本信息(包括发布公司规模信息和工作职位信息)和技能需求段落。其中,工作任务和技能需求首先分别被分词工具拆分为词序列,并将每个词初始化为词向量的形式作为词的浅层语义表示。另外,利用全局的招聘启事数据构建知识图谱。首先,利用命名实体识别工具将技能需求段落中的技能抽取出来得到对应的技能序列,然后根据招聘启事中的语义信息构成知识图谱。本项目知识图谱包含3种实体(技能,公司规模和公司职位)和2种关系(N.T.M和IN),其中技能拥有一个属性(type),标记其为专业技能还是通用能力。例如:招聘启事数据中存在这样的语义信息:当一个应聘工作者,想要在一个公司规模为10-100人的公司里找一个程序员的工作需要掌握专业技能C++。知识图谱中可存储为3个这样的三元组:(程序员,N.T.M,C++),([10,100],IN,C++)和(C++,type,专业技能)。工作任务的语义表示对于工作任务的词序列浅层语义表示,使用长短期记忆网络对其进行编码,学习词的隐层语义表示。为了建模词序列不同方向上的信息,本专利技术使用双向的LSTM来总结两个方向上的词级别语义信息,从而获得对应的语义表示。技能范围预测基于上述步骤可以得到工作任务的语义表示,本专利技术使用长短期记忆网络逐一解码出技能词序列的隐层语义表示,进而根据其语义表示在技能词表中预测出概率最大的技能词。首先,将工作任务的语义表示作为输入,然后通过注意力机制对重要语义加强关注并预测技能词序列。最后,将得到的技能词序列用于引导下一层次的生成。同时,最后一个技能词的隐层语义表示被用来初始化技能需求文本解码器的开始状态。技能需求生成基于上述步骤可以得到工作任务的语义表示,技能词序列和知识图谱三元组数据表示。首先,技能词序列被初始化为技能词序列向量的形式作为其语义表示。然后,利用对应数据的基本信息在知识图谱中查找到相关专业技能,并初始化为技能词序列向量的形式作为其语义表示。本专利技术使用多个注意力机制生成综合考虑工作任务的语义和技能词序列语义的整体表示,进而根据其语义在全部词表中得到词概率分布。同时,使用多个注意力机制生成综合考虑工作任务的语义和知识图谱技能词序列语义的整体表示,得到本文档来自技高网
...

【技术保护点】
1.一种基于技能感知多注意力机制的招聘启事生成方法,其特征是包括以下步骤:/n步骤1,获得工作任务详情、基本信息数据,基本信息包括发布公司规模信息和工作职位信息和技能需求段落,其中,工作任务和技能需求首先分别被分词工具拆分为词序列,并将每个词初始化为词向量的形式作为词的浅层语义表示;利用全局的招聘启事数据构建知识图谱;输入经过分词处理后的工作任务详情(局部信息),使用词向量的方法初始化每个词的浅层语义表示;同时输入知识图谱(全局信息)和对应基本信息;/n步骤2,基于步骤1中局部信息的输出,学习工作任务详情中每个词的高层语义表示:/n根据步骤1中输出的局部信息的每个词的词向量,利用双向的长短时记忆网络以序列的方式对工作任务的词进行高层语义编码;/n步骤3,基于步骤2中的输出,生成技能词序列;/n步骤4,基于步骤3的输出,初步生成文本词序列;/n步骤5,基于步骤1中全局信息部分和步骤4中的输出,进一步优化文本词序列中的技能词。/n

【技术特征摘要】
1.一种基于技能感知多注意力机制的招聘启事生成方法,其特征是包括以下步骤:
步骤1,获得工作任务详情、基本信息数据,基本信息包括发布公司规模信息和工作职位信息和技能需求段落,其中,工作任务和技能需求首先分别被分词工具拆分为词序列,并将每个词初始化为词向量的形式作为词的浅层语义表示;利用全局的招聘启事数据构建知识图谱;输入经过分词处理后的工作任务详情(局部信息),使用词向量的方法初始化每个词的浅层语义表示;同时输入知识图谱(全局信息)和对应基本信息;
步骤2,基于步骤1中局部信息的输出,学习工作任务详情中每个词的高层语义表示:
根据步骤1中输出的局部信息的每个词的词向量,利用双向的长短时记忆网络以序列的方式对工作任务的词进行高层语义编码;
步骤3,基于步骤2中的输出,生成技能词序列;
步骤4,基于步骤3的输出,初步生成文本词序列;
步骤5,基于步骤1中全局信息部分和步骤4中的输出,进一步优化文本词序列中的技能词。


2.根据权利要求1所述的基于技能感知多注意力机制的招聘启事生成方法,其特征是:步骤1中,利用全局的招聘启事数据构建知识图谱包括以下步骤:首先,利用命名实体识别工具将技能需求段落中的技能抽取出来得到对应的技能序列,然后根据招聘启事中的语义信息构成知识图谱。


3.根据权利要求1所述的基于技能感知多注意力机制的招聘启事生成方法,其特征是:步骤3中,包含三个步骤:(1)根据步骤2中输出的工作任务的语义表示,基于工作任务与技能词的映射关系利用注意力机制计算工作任务中每个词的注意力权重,并基于该权重对工作任务中词语的语义表示进行加权求和;(2)利用长短时记忆网络基于加权的工作任务语义表示解码出第一个技能词隐层语义表示,并根据语义表示在技能词表中得到技能词概率分布,概率最大的为预测的技能词并初始化为技能词向量;(3)继续利用长短时记忆网络基于加权的工作任务语义表示和前一个解码出的技能词向量,解码出下一个技能词隐层语义表示;最终,得到技能词向量序列作为预测技能的语义表示。


4.根据权利要求1所述的基于技能感知多注意力机制的招聘启事生成方法,其特征是:步骤4中,包含四个步骤:(1)根据步骤2中输出的工作任务的语义表示,基于工作任务与技能需求文本词的映射关系利用注意力机制计算工作任务中每个词的注意力权重,并基于该权重对工作任务中词语的语义表示进行加权求和;(2)根据步骤3中输出的技能词的语义表示,基于预测的技能词与技能需求文本词的映射关系再次利用注意力机制联合训练,计算预测技能词中每个词的注意力权重,并基于该权重对预测技能中词语的语义表示进行加权求和;(3)对工作任务的注意力语义表示和预测技能的注意力语义表示进行拼接得到整体语义表示,基于整体语义表示在文本词表中得到词概率分布,概率最大的预测为第一个技能需求文本词并初始化为文本词向量;(4)继续利用长短时记忆网络基于拼接后的整体语义表示和前一个预测的文本词向量,逐步解码出下一个文本词的隐层语义表示。基于此,在文本词表中得到词概率分布。


5.根据权利要求1所述的基于技能感知多注意力机制的招聘启事生成方法,其特征是:步骤5中,包含四个步骤:(1)基于知识图谱和对应的基本信息,在知识图谱中根据先验知识查找得到推荐的技能词,并对知识图谱技能词初始化为向量形式;(2)基于知识图谱技能词与技能需求文本词的映射关系,再次利用注意力机制联合步骤4中的注意力机制共同训练,计算知识图谱技能词中每个词的注意力权重,并基于该权重对知识图谱技能词的语义表示进行加权选择;(3)基于知识图谱技能词的注意力语义表示,逐一地在技能词表中得到词概率分布;(4)将基于知识图谱先验知识得到的技能词概率分布对应的与步骤4中得到的词概率分布进行加权和,加权和概率最大的预测为文本词;最终,生成技能需求文本。


6.根据权利要求1所述的基于技能感知多注意力机制的招聘启事生成方法,其特征是:步骤2中,基于工作任务的词向量,使用双向的长短时记忆网络对词的高层语义表示进行编码:

【专利技术属性】
技术研发人员:刘杰刘俪婷张文政
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1