System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种简历解析方法、装置、设备及存储介质制造方法及图纸_技高网

一种简历解析方法、装置、设备及存储介质制造方法及图纸

技术编号:40578069 阅读:7 留言:0更新日期:2024-03-06 17:20
本申请涉及深度学习和自然语言处理技术领域,更为具体来说,本申请涉及一种简历解析方法、装置、设备及存储介质。所述方法包括:获取待解析的简历文本;确定所述简历文本中每个内容块的开始标记和结束标记;将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。能避免因为内容分块错误而导致实体抽取中所需要的输入文本错误的情况,同时,使用全文输入可以使用一个模型一次性地提取多种实体,可以有效减少所需要构建的模型数量,增加实体之间利用相互之间的关联性,从而提升简历解析的效率。

【技术实现步骤摘要】

本申请涉及深度学习和自然语言处理,更为具体来说,本申请涉及一种简历解析方法、装置、设备及存储介质


技术介绍

1、简历解析是指在智能招聘中使用计算机自动化抽取的方式把各种非结构化的简历转化结构化数据的工作。其作用主要是对原有的简历文本数据进行有效信息的抽取并存储,为后续其他智能招聘的简历搜索、简历去重、简历匹配等应用提供数据源的支持,因此是招聘自动化领域中一项基础且重要的工作。

2、目前业界常常是将简历解析的过程划主要分为四步并用管道模型逐一进行,依次是简历读取、简历分块、信息抽取、信息存储。然而现有技术存在一定的局限性。一方面是整个简历解析的过程为一个完全串行的过程,会比较容易出现误差积累,一旦上一步骤出现错误,对导致下游任务的输入产生较大的偏差,甚至变得完全不可用。另一方面是在内容的分块过程中完全依赖规则,较为死板且扩展性较弱。此外,在信息抽取的过程中,由于前一步进行分块且需要抽取的信息不同,因此每一分块都要用一个模型进行抽取,这同时需要多个模型,管理成本较高。


技术实现思路

1、基于上述技术问题,本专利技术旨在基于确定简历文本中每个内容块的开始标记和结束标记来抽取出所述简历文本对应的多个实体元素信息。

2、本专利技术第一方面提供了一种简历解析方法,所述方法包括:

3、获取待解析的简历文本;

4、确定所述简历文本中每个内容块的开始标记和结束标记;

5、将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。

6、在本专利技术的一些实施例中,所述确定所述简历文本中每个内容块的开始标记和结束标记,包括:

7、将所述简历文本的开始位置加入前置标记;

8、将加入所述前置标记后的简历文本输入训练好的内容分块模型中,得到所述简历文本中每个字符对应的字向量编码;

9、基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记。

10、在本专利技术的一些实施例中,所述基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记,包括:

11、对所述前置标记对应的字向量编码和所述简历文本中每个字符的字向量编码分别进行加权映射处理,分别得到每个字符的加权语义权重向量;

12、采用归一化指数函数对所述每个字符的加权语义权重向量进行处理,得到每个字符的类别概率;

13、根据每个字符的类别概率,确定所述简历文本中每个内容块的开始标记和结束标记。

14、在本专利技术的一些实施例中,所述将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:

15、将所述简历文本中句子的开始位置加入前置标记,句子的结束位置加入分隔符;

16、将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。

17、在本专利技术的一些实施例中,所述信息抽取模型包括信息抽取模块、全连接处理模块和条件随机场处理模块;所述将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:

18、将所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入所述信息抽取模块中进行编码;

19、将所述信息抽取模块的编码结果依次通过全连接处理模块和条件随机场处理模块的处理,得到所述简历文本对应的多个实体元素信息。

20、在本专利技术的一些实施例中,所述方法还对所述内容分块模型和所述信息抽取模型进行训练;训练过程包括:

21、获取训练集,其中,所述训练集包括标注有内容块的开始标记和结尾标记的简历样本;

22、采用所述简历样本训练内容分块模型;

23、采用每个简历样本及各自对应的开始标记和结尾标记训练信息抽取模型。

24、在本专利技术的一些实施例中,所述确定所述简历文本中每个内容块的开始标记和结束标记之前,还包括:

25、将所述简历文本进行文本提取;

26、将文本提取后的简历进行数据清洗,得到清洗后的简历文本。

27、本专利技术第二方面提供了一种简历解析装置,所述装置包括:

28、获取模块,用于获取待解析的简历文本;

29、确定模块,用于确定所述简历文本中每个内容块的开始标记和结束标记;

30、抽取模块,用于将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。

31、本专利技术第三方面提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:

32、获取待解析的简历文本;

33、确定所述简历文本中每个内容块的开始标记和结束标记;

34、将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。

35、本专利技术第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:

36、获取待解析的简历文本;

37、确定所述简历文本中每个内容块的开始标记和结束标记;

38、将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息。

39、本申请实施例中提供的技术方案,至少具有如下技术效果或优点:

40、本申请先获取待解析的简历文本,再确定所述简历文本中每个内容块的开始标记和结束标记,最后将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,能避免因为内容分块错误而导致实体抽取中所需要的输入文本错误的情况,同时,使用全文输入可以使用一个模型一次性地提取多种实体,可以有效减少所需要构建的模型数量,增加实体之间利用相互之间的关联性,从而提升简历解析的效率。特别是确定所述简历文本中每个内容块的开始标记和结束标记可以缓解简历全文中信息过多的因素,可以让模型在抽取对应的实体时注意力更加集中在相应的段落上,降低实体提取的难度。

41、除此以外,本申请可以使模型基于以往正确的划分数据自行基于统计的方式学习到提取特征,避免人工干扰,从而避免因为主观因素而导致的错误,同时也可以节省了后期的维护成本。

42、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。

本文档来自技高网...

【技术保护点】

1.一种简历解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的简历解析方法,其特征在于,所述确定所述简历文本中每个内容块的开始标记和结束标记,包括:

3.根据权利要求2所述的简历解析方法,其特征在于,所述基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记,包括:

4.根据权利要求1所述的简历解析方法,其特征在于,所述将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:

5.根据权利要求4所述的简历解析方法,其特征在于,所述信息抽取模型包括信息抽取模块、全连接处理模块和条件随机场处理模块;所述将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:

6.根据权利要求2所述的简历解析方法,其特征在于,所述方法还对所述内容分块模型和所述信息抽取模型进行训练;训练过程包括:

7.根据权利要求1所述的简历解析方法,其特征在于,所述确定所述简历文本中每个内容块的开始标记和结束标记之前,还包括:

8.一种简历解析装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,其特征在于,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如权利要求1-7任一所述方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一所述方法。

...

【技术特征摘要】

1.一种简历解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的简历解析方法,其特征在于,所述确定所述简历文本中每个内容块的开始标记和结束标记,包括:

3.根据权利要求2所述的简历解析方法,其特征在于,所述基于所述每个字符对应的字向量编码,确定所述简历文本中每个内容块的开始标记和结束标记,包括:

4.根据权利要求1所述的简历解析方法,其特征在于,所述将所述简历文本、所述每个内容块的开始标记和结束标记输入训练好的信息抽取模型中,抽取出所述简历文本对应的多个实体元素信息,包括:

5.根据权利要求4所述的简历解析方法,其特征在于,所述信息抽取模型包括信息抽取模块、全连接处理模块和条件随机场处理模块;所述将加入所述前置标记和所述分隔符后的简历文本、所述每个内容块的开始...

【专利技术属性】
技术研发人员:黄锦裕
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1