一种基于深度学习的简历解析方法技术

技术编号:19177227 阅读:38 留言:0更新日期:2018-10-17 00:20
本发明专利技术公开了一种基于深度学习的简历解析方法,其包括以下步骤:数据预处理:将简历统一转换为文本格式,确定简历的内容分段标签,并将简历文本按行进行数据标记;模型训练:利用神经网络将简历文本按行表达为一个固定长度的向量,在获得行向量后,根据所述行向量对简历进行内容分段;信息提取:在完成内容分段后,从指定的内容段中提取标签字段,获得相关信息。通过本技术方案,能够提高解析简历以及信息提取准确度。

A resume analysis method based on deep learning

The invention discloses a resume parsing method based on in-depth learning, which comprises the following steps: data preprocessing: converting resume into text format uniformly, determining the content segment label of resume, and marking resume text in line; model training: using neural network to express resume text in line as one Fixed length vector, after obtaining the line vector, according to the line vector on the resume content segmentation; information extraction: after completing the content segmentation, tag fields are extracted from the specified content segment to obtain relevant information. Through this technology scheme, we can improve the resolution of resume and information extraction accuracy.

【技术实现步骤摘要】
一种基于深度学习的简历解析方法
本专利技术涉及信息提取
,尤其涉及一种基于深度学习的简历解析方法。
技术介绍
现实生活中,许多公司的人力资源部门都会囤积到大量人才的简历,经整理收集成为简历库。但是简历文本并不是一个完全结构化的内容,它的模板多种多样,格式花样层出不穷,因而在分类整理和精确检索上存在非常多的困难。因此,许多公司花大价值收集而来的简历库,通常难以充分发挥价值。为了能够充分利用简历库,需要将简历按照标签整理为结构化的内容,例如:姓名,电话,邮箱,学历,毕业院校,工作经历,职业标签,职位意向,技术特征,等等。而这,催生了简历解析技术的需求。简历解析,就是针对各种不同格式的简历,按照要求提取结构化字段的过程,是后续进一步的人才职位匹配工作的基础,也是充分利用简历库,节约成本的有效方式。但是简历文本在逻辑上,有着它固有的特点:内容上它通常是呈分段排列。目前,有通过传统的机器学习技术来对文本进行分段,但这种分段方法和提取信息的错误率较高,不能满足于相关
对于准确率的要求。因此,一种更准确科学的分段方法,在根据此分段方法从不同内容的分段中提取相应的实体信息,成为相关领域需要解决的技术问题之一。
技术实现思路
为了克服现有技术的不足,本专利技术所解决的技术问题是提供一种能够提高信息提取效率的基于深度学习的简历解析方法。为解决上述技术问题,本专利技术所采用的技术方案内容具体如下:一种基于深度学习的简历解析方法,其包括以下步骤:数据预处理:将简历统一转换为文本格式,确定简历的内容分段标签,并将简历文本按行进行数据标记;模型训练:利用RNN神经网络将简历文本按行表达为一个固定长度的向量从而获得行向量,并根据所述行向量对简历进行内容分段;信息提取:在完成内容分段后,从指定的内容段中提取标签字段,获得相关信息。为提高简历解析的效率,提高信息提取的准确度,在本技术方案中,专利技术人通过利用RNN神经网络,将简历文本中的每一行文本都通过深度学习模型编码为行向量。利用行向量实现对简历进行内容分段,其好处在于能够将语义特征用一个实数向量的方式表达出来,从而方便后续处理,提高信息处理的效率。进一步地,利用行向量进行表述,能够对任意不规范形式的简历进行信息提取,不需局限于简历的格式,一方面方便后续处理,另一方面也提高了处理方法的适用性;更进一步地,采用此方案,还能达到降低人工特征工程工作量的技术目的,无需通过人工对简历信息进行分类,提高提取效率。在本技术方案中,并不需要通过特定的格式文件的标记,例如xml,html等各种特殊标记来作为特征,也不需要通过特征工程来提取特征,我们只需要通过深度学习模型训练出每个符号对应的符号向量。这样的好处是既减少了特征工程的工作量,又充分利用了语言的有序性特点,对提高准确性和减少工作量很有帮助。优选地,在所述模型训练步骤中,将简历文本按行表达为一个固定长度的向量的步骤包括:获取符号向量:对所述简历文本中的每个符号表示为一个固定长度的实数向量;获取行向量:通过神经网络根据构成该行文本的所述符号向量,依据时序来训练成一个固定长度的向量,得到行向量。作为一种优选的实施方式,在本方案中,专利技术人一方面通过对所述简历文本中的每个符号表示为一个固定长度的实数向量,这一过程可以达到的有益效果是每个符号表达的特征及其相关性能够通过实数向量完整表达出来;另一方面,在得到行向量的是通过神经网络根据构成该行文本的所述符号向量,依据时序来训练而获得,这种方式能够在不丢失句子序列信息的情况下,提取特征。更优选地,在所述获取符号向量步骤中,简历文本中的所述符号包括中文字符、英文字符、数字字符、标点字符、制表符、空格符中的一种或多种。需要说明的是,采用符号向量能够最大化利用简历文本中的各种特征,因为不同的内容段,不仅仅是表达的内容有区别,采用的标点符号,空格多少,制表符美化等,都成为了构成差异的特征。采用符号向量则充分提取了这些特征,使得提取的准确率和效果更好。优选地,在所述模型训练步骤中,在将简历文本按行表达为一个固定长度的向量时,还对该行文本设定一个上下文窗口k。更优选地,所述内容分段的步骤包括:以所述行向量对应的行为基准,获取该行的前k行文本,以及获取该行的后k行文本;通过神经网络将所述文本行表达成2k+1个行向量,然后将所述2k+1个行向量合并成一个向量,并输入到分类器中进行类别判定以实现内容分段。作为一种优选的实施方式,在获取行向量的过程当中,还包括对该行文本设定一个上下文窗口k,即结合该行文本的前k行(上文),以及后k行(下文)进行类别判定,从而完成该行文本的内容分段。通过本技术方案,能够充分利用该行文本的上下文内容来进行分类决策,由于人类的行文习惯,通常一行句子都会和上下文构成关系,或承前,或启后,因此采取此种方式可以大幅提高了预测结果的准确性。进一步地,将所述2k+1个行向量合并成一个向量的方式是加权求和或者直接串联。需要说明的是,在合并向量的过程中,采用加权求和的方式具有的有益效果是降低参数数量,减少训练时间;采用直接串联的方式具有的有益效果是充分利用了每行文本的特征,将会有更高的准确率。优选地,在信息提取步骤中,提取标签字段的方法是NER。NER是提取标签字段的标准方式。优选地,在所述模型训练步骤中所述RNN神经网络是LSTM或GRU。优选地,在所述数据预处理步骤中,所述文本格式是txt格式。需要说明的是,采用txt的格式可以使得后续处理更为简便,处理速度更高。在其他的一些实施方式中,其他文本格式如doc、docx、wps等,也均可适用在本技术方案当中。与现有技术相比,本专利技术的有益效果在于:1、本专利技术基于深度学习的简历解析方法,利用行向量实现对简历进行内容分段,从而能够将语义特征用一个实数向量的方式表达出来,从而方便后续处理,提高信息处理的效率;进一步地,能够对任意不规范形式的简历进行信息提取,不需局限于简历的格式,进而更进一步地方便后续处理。2、本专利技术基于深度学习的简历解析方法,一方面通过对所述简历文本中的每个符号表示为一个固定长度的实数向量,这一过程可以达到的有益效果是每个符号表达的特征及其相关性能够通过实数向量完整表达出来;3、本专利技术基于深度学习的简历解析方法,在得到行向量的是通过神经网络根据构成该行文本的所述符号向量,依据时序来训练而获得,这种方式能够在不丢失句子序列信息的情况下,提取特征;4、本专利技术基于深度学习的简历解析方法,采用符号向量能够最大化利用简历文本中的各种特征,。采用符号向量则充分提取了这些特征,使得提取的准确率和效果更好;5、本专利技术基于深度学习的简历解析方法,采用上下文窗口的模式,充分利用了简历文本的上下文相关性,大大提高了预测结果准确性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明图1为本专利技术基于深度学习的简历解析方法的基础实施方式的流程步骤示意图;图2为本专利技术基于深度学习的简历解析方法获取符号向量方式的一种优选实施方式的示意图;图3为本专利技术基于深度学习的简历解析方法获取行向量方式的一种优选实施方式的示意图本文档来自技高网...

【技术保护点】
1.一种基于深度学习的简历解析方法,其特征在于,其包括以下步骤:数据预处理:将简历统一转换为文本格式,确定简历的内容分段标签,并将简历文本按行进行数据标记;模型训练:利用RNN神经网络将简历文本按行表达为一个固定长度的向量从而获得行向量,并根据所述行向量对简历进行内容分段;信息提取:在完成内容分段后,从指定的内容段中提取标签字段,获得相关信息。

【技术特征摘要】
1.一种基于深度学习的简历解析方法,其特征在于,其包括以下步骤:数据预处理:将简历统一转换为文本格式,确定简历的内容分段标签,并将简历文本按行进行数据标记;模型训练:利用RNN神经网络将简历文本按行表达为一个固定长度的向量从而获得行向量,并根据所述行向量对简历进行内容分段;信息提取:在完成内容分段后,从指定的内容段中提取标签字段,获得相关信息。2.如权利要求1所述的基于深度学习的简历解析方法,其特征在于,在所述模型训练步骤中,将简历文本按行表达为一个固定长度的向量的步骤包括:获取符号向量:对所述简历文本中的每个符号表示为一个固定长度的实数向量;获取行向量:通过神经网络根据构成该行文本的所述符号向量,依据时序来训练成一个固定长度的向量,得到行向量。3.如权利要求2所述的基于深度学习的简历解析方法,其特征在于,在所述获取符号向量步骤中,简历文本中的所述符号包括中文字符、英文字符、数字字符、标点字符、制表符、空格符中的一种或多种。4.如权利要求1所述的基于深度学习的简历解析方法,其特征...

【专利技术属性】
技术研发人员:马龙雷画雨姚卓君
申请(专利权)人:众安信息技术服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1