一种基于深度学习的简历解析方法技术

技术编号：19177227 阅读：38 留言：0更新日期：2018-10-17 00:20

本发明专利技术公开了一种基于深度学习的简历解析方法，其包括以下步骤：数据预处理：将简历统一转换为文本格式，确定简历的内容分段标签，并将简历文本按行进行数据标记；模型训练：利用神经网络将简历文本按行表达为一个固定长度的向量，在获得行向量后，根据所述行向量对简历进行内容分段；信息提取：在完成内容分段后，从指定的内容段中提取标签字段，获得相关信息。通过本技术方案，能够提高解析简历以及信息提取准确度。

A resume analysis method based on deep learning

The invention discloses a resume parsing method based on in-depth learning, which comprises the following steps: data preprocessing: converting resume into text format uniformly, determining the content segment label of resume, and marking resume text in line; model training: using neural network to express resume text in line as one Fixed length vector, after obtaining the line vector, according to the line vector on the resume content segmentation; information extraction: after completing the content segmentation, tag fields are extracted from the specified content segment to obtain relevant information. Through this technology scheme, we can improve the resolution of resume and information extraction accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的简历解析方法
本专利技术涉及信息提取
，尤其涉及一种基于深度学习的简历解析方法。
技术介绍
现实生活中，许多公司的人力资源部门都会囤积到大量人才的简历，经整理收集成为简历库。但是简历文本并不是一个完全结构化的内容，它的模板多种多样，格式花样层出不穷，因而在分类整理和精确检索上存在非常多的困难。因此，许多公司花大价值收集而来的简历库，通常难以充分发挥价值。为了能够充分利用简历库，需要将简历按照标签整理为结构化的内容，例如：姓名，电话，邮箱，学历，毕业院校，工作经历，职业标签，职位意向，技术特征，等等。而这，催生了简历解析技术的需求。简历解析，就是针对各种不同格式的简历，按照要求提取结构化字段的过程，是后续进一步的人才职位匹配工作的基础，也是充分利用简历库，节约成本的有效方式。但是简历文本在逻辑上，有着它固有的特点：内容上它通常是呈分段排列。目前，有通过传统的机器学习技术来对文本进行分段，但这种分段方法和提取信息的错误率较高，不能满足于相关
对于准确率的要求。因此，一种更准确科学的分段方法，在根据此分段方法从不同内容的分段中提取相应的实体信息，成为相关领域需要解决的技术问题之一。
技术实现思路
为了克服现有技术的不足，本专利技术所解决的技术问题是提供一种能够提高信息提取效率的基于深度学习的简历解析方法。为解决上述技术问题，本专利技术所采用的技术方案内容具体如下：一种基于深度学习的简历解析方法，其包括以下步骤：数据预处理：将简历统一转换为文本格式，确定简历的内容分段标签，并将简历文本按行进行数据标记；模型训练：利用RNN神经网络将简历文...

【技术保护点】
1.一种基于深度学习的简历解析方法，其特征在于，其包括以下步骤：数据预处理：将简历统一转换为文本格式，确定简历的内容分段标签，并将简历文本按行进行数据标记；模型训练：利用RNN神经网络将简历文本按行表达为一个固定长度的向量从而获得行向量，并根据所述行向量对简历进行内容分段；信息提取：在完成内容分段后，从指定的内容段中提取标签字段，获得相关信息。

【技术特征摘要】
1.一种基于深度学习的简历解析方法，其特征在于，其包括以下步骤：数据预处理：将简历统一转换为文本格式，确定简历的内容分段标签，并将简历文本按行进行数据标记；模型训练：利用RNN神经网络将简历文本按行表达为一个固定长度的向量从而获得行向量，并根据所述行向量对简历进行内容分段；信息提取：在完成内容分段后，从指定的内容段中提取标签字段，获得相关信息。2.如权利要求1所述的基于深度学习的简历解析方法，其特征在于，在所述模型训练步骤中，将简历文本按行表达为一个固定长度的向量的步骤包括：获取符号向量：对所述简历文本中的每个符号表示为一个固定长度的实数向量；获取行向量：通过神经网络根据构成该行文本的所述符号向量，依据时序来训练成一个固定长度的向量，得到行向量。3.如权利要求2所述的基于深度学习的简历解析方法，其特征在于，在所述获取符号向量步骤中，简历文本中的所述符号包括中文字符、英文字符、数字字符、标点字符、制表符、空格符中的一种或多种。4.如权利要求1所述的基于深度学习的简历解析方法，其特征...

【专利技术属性】
技术研发人员：马龙，雷画雨，姚卓君，
申请(专利权)人：众安信息技术服务有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人