一种基于内容分块和BiLSTM模型的简历解析方法技术

技术编号:21116431 阅读:33 留言:0更新日期:2019-05-16 09:11
本发明专利技术公开的一种基于内容分块和BiLSTM模型的简历解析方法,该方法通过获取简历样本,对常见的标题关键词进行整理;接着利用常见的标题在文本中的独特位置信息和字号信息进行简历内容块划分,并对结构化的键值对信息进行提取;同时需要利用BiLSTM模型对不同的自然文本进行实体标记训练;最后针对不同的内容块利用不同的模型对内容进行判断识别实体,提取输出自然文本描述中的关键实体信息内容。本发明专利技术能够基于简历的内容分块技术和BiLSTM模型进行自动化的简历解析,能够提高信息抽取准确率并支持不同文件格式,可为招聘网站、公司HR部门提供丰富的人才资源库。

【技术实现步骤摘要】
一种基于内容分块和BiLSTM模型的简历解析方法
本专利技术涉及计算机
,特别是涉及一种基于内容分块和BiLSTM模型的简历解析方法。
技术介绍
随着社会的发展,信息化的生活与人们已经变得息息相关,传统的纸质简历不便于数据的搜集,取而代之的是信息化的系统。国内众多的企业都有了自己的信息化系统,但是对于简历数据的采集仍然有一大问题,那就是简历的数据无法被准确地提取出来。简历信息不方便提取,导致人事部门经常需要花更多的时间对信息进行手工录入以及人力归档,大大降低了工作效率。国内外也有众多支持简历解析功能的服务。然而国外的简历解析针对的是英语,英语在每个单词都是独立的,能够用比较轻松的方式拿到准确的内容含义,而中文独特的结构,利用上下文语义对内容进行推测则不便于编程的实现。国内的简历解析方法则主要是通过对常见招聘网站的简历模板进行适配,准确率是比较高的,但是面对各种自由格式的简历,以及形形色色每年演替的简历模板,这样的内容提取手段显得非常无力。也有一些解析工具利用大数据对内容进行判断,对于一般企业无法提供庞大的数据量根本无法使用。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于内容分块和BiLSTM模型的简历解析方法,提高信息抽取准确率,减少简历信息提取过程数据损失。为解决上述技术问题,本专利技术的基于内容分块和BiLSTM模型的简历解析方法,包括:(1)获取简历样本;(2)统计区分简历样本的文本的主体和标题,生成分类词典;(3)利用BiLSTM模型训练简历文本,得到实体识别模型;(4)通过正则表达对待解析的简历文本依据分类词典进行模糊匹配生成分类标记,匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作,继续通过正则表达依据分类此次进行分类,直到完成简历文本的内容分块操作;(5)用正则表达式将待解析的简历文本依规则信息提取键值;(6)依据(6)中提取的键值,建立键值信息库和键值白名单,将通过白名单的键值进入下一轮信息的提取;(7)针对步骤(4)中归类的各内容分块,以时间点切割整合形成解析简历文本,利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别,提取键值信息库中对应的信息。优选的,上述的简历解析方法,所述简历样本的语言为中文。优选的,上述的简历解析方法,所述步骤(4)的内容分块包括步骤(4.1)通过卷积神经网络算法依据字符的位置、字号、颜色、字体特征对常用简历内容的标题和正文区分为内容块;(4.2)将区分的内容块保存为关键字字典;(4.3)将关键字字典用于对简历文本进行分类识别和内容分块。优选的,上述的简历解析方法,所述步骤(2)区分简历标题和文本的方法是文中字号的大小和字体的区别。优选的,上述的简历解析方法,所述步骤(4)中的简历文本的形式为标题在内容之前。优选的,上述的简历解析方法,所述步骤(5)用正则表达将待解析简历文本依规则信息提取键值的规则信息包括性别,身高体重,邮箱,电话号码,出生地和出生日期。优选的,上述的简历解析方法,所述步骤(7)中利用(3)中的模型进行实体识别是指出对两个相邻的所述时间切割点的时间点之间的解析简历文本的内容进行实体识别。优选的,上述的简历解析方法,所述步骤(5)中的键值信息库是将键值与关键词一一对应建立所述的键值信息库。优选的,上述的简历解析方法,所述步骤(5)还包括将待解析的简历文本的文件格式转换为文本格式,所述的待解析的简历文本的文件的格式包括PDF格式,DOC格式,DOCX格式,TXT格式,HTML格式,MHT格式,JPG格式,PNG格式。优选的,上述的简历解析方法,所述的步骤(3)中利用BiLSTM模型训练中,所述简历文本的基础信息采用正则表达式规则提取,学历信息和工作经验信息使用关键信息识别器提取。如上所述,本专利技术基于内容分块和BiLSTM模型的简历解析方法,利用简历结构化的特征对内容进行粗分、细分,再对理解性内容利用BiLSTM模型进行实体识别,提取出关键的信息。把各种各样的文档转换为统一的便于利用的数据供各种人力资源系统使用,能够友好地提高信息抽取准确率,减少简历信息提取过程数据损失并支持不同文件格式。附图说明图1是本专利技术实施例提供的简历解析方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术通过BiLSTM模型训练和处理简历的文本,对简历文本自动进行筛选和提取,从而代替传统的人工筛选简历的方式,提高建立的筛选和提取检索的效率。本领域技术人员可以得知,LSTM的全称是LongShort-TermMemory(中文译名:长短期记忆网络),它是RNN(RecurrentNeuralNetwork,循环神经网络)的一种。LSTM适合用于对时序数据的建模,如文本数据。BiLSTM是Bi-directionalLongShort-TermMemory(中文译名:前后向长短期记忆网络)的缩写,是由前向LSTM与后向LSTM组合而成。本专利技术充分利用了BiLSTM神经网络模型的特点,实现简历文本的自然语言处理任务建模和上下文信息处理。参阅图1,是本专利技术实施例提供的基于内容分块和BiLSTM模型对简历进行解析的简历解析方法流程示意图。本专利技术实施例的简历解析方法包括以下步骤:(1)获取简历样本,先通过搜集获取足够量的电子简历样本作为本专利技术的训练模型需要的样本,其中,简历样本可以从各类招聘网站上收集,述简历样本的语言只能为中文。简历样本的文件格式可以是doc格式、docx格式、mht格式、pdf格式或html格式,预订数量可以根据实际需要设定,为了提高模型的结果准确率,可以获取尽量多的简历样本,例如10000份。(2)统计区分简历样本的文本的主体和标题,生成分类词典,通过统计区分主体文本和标题,其中,主体文本是指简历样本的正文内容,标题主要指简历的标题和各内容的小标题,并标记出用于区分内容块的简历标题,归纳成分类词典,其实现的代码部分如下:input=tensor([[字号大小,是否加粗,字体种类,文本长度],[字号大小,是否加粗,字体种类,文本长度],...])label=[标签1,标签2,...]model=cnn_train(input,label)newInput=[字号大小,是否加粗,字体种类,文本长度]print(model.predict(newInput))其中,把样本简历的每一行内容以特定的属性进行标记,标记的形式为{字号大小,是否加粗,字体种类,文本长度,标签},利用卷积神经网络算法,通过卷积神经网络算法进行训练,把每一行内容的特征信息进行压缩,从而提取出标题和正文的区别,得到一个用于区分标题和正文的分类器。然后用这个分类器对其余简历标题和正文的区分,把识别得到的标题进行汇总统计,由于简历具有通用性关键的内容划分标题一般不会太多可能性,可通过手工筛选分类来确定标题属于哪一种内容块,例如“学历”、“教育”、“工作”等区块,从而实现内容分块中最复杂的划分内容区块这本文档来自技高网...

【技术保护点】
1.一种基于内容分块和BiLSTM模型的简历解析方法,其特征在于,包括:(1)获取简历样本;(2)统计区分简历样本的文本的主体和标题,生成分类词典;(3)利用BiLSTM模型训练简历文本,得到实体识别模型;(4)通过正则表达对简历文本依据分类词典进行模糊匹配生成分类标记,匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作,继续通过正则表达依据分类此次进行分类,直到完成简历文本的内容分块操作;(5)用正则表达式将简历文本依规则信息提取键值;(6)依据(5)中提取的键值,建立键值信息库和键值白名单,将通过白名单的键值进入下一轮信息的提取;(7)针对步骤(4)中归类的各内容分块,以时间点切割整合形成待解析简历文本,利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别,提取键值信息库中对应的信息。

【技术特征摘要】
1.一种基于内容分块和BiLSTM模型的简历解析方法,其特征在于,包括:(1)获取简历样本;(2)统计区分简历样本的文本的主体和标题,生成分类词典;(3)利用BiLSTM模型训练简历文本,得到实体识别模型;(4)通过正则表达对简历文本依据分类词典进行模糊匹配生成分类标记,匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作,继续通过正则表达依据分类此次进行分类,直到完成简历文本的内容分块操作;(5)用正则表达式将简历文本依规则信息提取键值;(6)依据(5)中提取的键值,建立键值信息库和键值白名单,将通过白名单的键值进入下一轮信息的提取;(7)针对步骤(4)中归类的各内容分块,以时间点切割整合形成待解析简历文本,利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别,提取键值信息库中对应的信息。2.根据权利要求1所述的简历解析方法,其特征在于,所述简历样本的语言为中文。3.根据权利要求1所述的简历解析方法,其特征在于,所述步骤(4)的内容分块包括步骤(4.1)通过卷积神经网络算法依据字符的位置、字号、颜色、字体特征对常用简历内容的标题和正文区分为内容块;(4.2)将区分的内容块保存为关键字字典;(4.3)将关键字字典用于对简历文本进行分类识别和内容分块。4.根...

【专利技术属性】
技术研发人员:关镇山罗嘉威张建坤
申请(专利权)人:广东人啊人网络技术开发有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1