一种基于内容分块和BiLSTM模型的简历解析方法技术

技术编号：21116431 阅读：33 留言：0更新日期：2019-05-16 09:11

本发明专利技术公开的一种基于内容分块和BiLSTM模型的简历解析方法，该方法通过获取简历样本，对常见的标题关键词进行整理；接着利用常见的标题在文本中的独特位置信息和字号信息进行简历内容块划分，并对结构化的键值对信息进行提取；同时需要利用BiLSTM模型对不同的自然文本进行实体标记训练；最后针对不同的内容块利用不同的模型对内容进行判断识别实体，提取输出自然文本描述中的关键实体信息内容。本发明专利技术能够基于简历的内容分块技术和BiLSTM模型进行自动化的简历解析，能够提高信息抽取准确率并支持不同文件格式，可为招聘网站、公司HR部门提供丰富的人才资源库。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内容分块和BiLSTM模型的简历解析方法
本专利技术涉及计算机
，特别是涉及一种基于内容分块和BiLSTM模型的简历解析方法。
技术介绍
随着社会的发展，信息化的生活与人们已经变得息息相关，传统的纸质简历不便于数据的搜集，取而代之的是信息化的系统。国内众多的企业都有了自己的信息化系统，但是对于简历数据的采集仍然有一大问题，那就是简历的数据无法被准确地提取出来。简历信息不方便提取，导致人事部门经常需要花更多的时间对信息进行手工录入以及人力归档，大大降低了工作效率。国内外也有众多支持简历解析功能的服务。然而国外的简历解析针对的是英语，英语在每个单词都是独立的，能够用比较轻松的方式拿到准确的内容含义，而中文独特的结构，利用上下文语义对内容进行推测则不便于编程的实现。国内的简历解析方法则主要是通过对常见招聘网站的简历模板进行适配，准确率是比较高的，但是面对各种自由格式的简历，以及形形色色每年演替的简历模板，这样的内容提取手段显得非常无力。也有一些解析工具利用大数据对内容进行判断，对于一般企业无法提供庞大的数据量根本无法使用。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于内容分块和BiLSTM模型的简历解析方法，提高信息抽取准确率，减少简历信息提取过程数据损失。为解决上述技术问题，本专利技术的基于内容分块和BiLSTM模型的简历解析方法，包括：(1)获取简历样本；(2)统计区分简历样本的文本的主体和标题，生成分类词典；(3)利用BiLSTM模型训练简历文本，得到实体识别模型；(4)通过正则表达对待解析的简历文本依据分类词典进行模糊匹配生成分类标...

【技术保护点】
1.一种基于内容分块和BiLSTM模型的简历解析方法，其特征在于，包括：(1)获取简历样本；(2)统计区分简历样本的文本的主体和标题，生成分类词典；(3)利用BiLSTM模型训练简历文本，得到实体识别模型；(4)通过正则表达对简历文本依据分类词典进行模糊匹配生成分类标记，匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作，继续通过正则表达依据分类此次进行分类，直到完成简历文本的内容分块操作；(5)用正则表达式将简历文本依规则信息提取键值；(6)依据(5)中提取的键值，建立键值信息库和键值白名单，将通过白名单的键值进入下一轮信息的提取；(7)针对步骤(4)中归类的各内容分块，以时间点切割整合形成待解析简历文本，利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别，提取键值信息库中对应的信息。

【技术特征摘要】
1.一种基于内容分块和BiLSTM模型的简历解析方法，其特征在于，包括：(1)获取简历样本；(2)统计区分简历样本的文本的主体和标题，生成分类词典；(3)利用BiLSTM模型训练简历文本，得到实体识别模型；(4)通过正则表达对简历文本依据分类词典进行模糊匹配生成分类标记，匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作，继续通过正则表达依据分类此次进行分类，直到完成简历文本的内容分块操作；(5)用正则表达式将简历文本依规则信息提取键值；(6)依据(5)中提取的键值，建立键值信息库和键值白名单，将通过白名单的键值进入下一轮信息的提取；(7)针对步骤(4)中归类的各内容分块，以时间点切割整合形成待解析简历文本，利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别，提取键值信息库中对应的信息。2.根据权利要求1所述的简历解析方法，其特征在于，所述简历样本的语言为中文。3.根据权利要求1所述的简历解析方法，其特征在于，所述步骤(4)的内容分块包括步骤(4.1)通过卷积神经网络算法依据字符的位置、字号、颜色、字体特征对常用简历内容的标题和正文区分为内容块；(4.2)将区分的内容块保存为关键字字典；(4.3)将关键字字典用于对简历文本进行分类识别和内容分块。4.根...

【专利技术属性】
技术研发人员：关镇山，罗嘉威，张建坤，
申请(专利权)人：广东人啊人网络技术开发有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人