一种基于层叠序列标注的简历信息抽取方法技术

技术编号：26418581 阅读：30 留言：0更新日期：2020-11-20 14:13

本发明专利技术提供了一种基于层叠序列标注的简历信息抽取方法，包括：步骤1，利用pdfminer对pdf简历进行解析，将原始pdf转成多行的文本表示。该过程主要解决其中出现的顺序混乱和错误断行问题；步骤2，训练过程数据标记：利用远程监督的数据回标并在标记过程中合并同类项。步骤3，简历信息区块划分：对于经过pdfminer得到句子，针对每个句子分类判断其所在的区块。步骤4，利用双层序列标注模型，实现句子层面和短文本片段层面的信息抽取。后续利用简历分块信息实现过滤，有效提高了召回率的同时没有大幅减少准确率。经过以上4个阶段，本发明专利技术能够有效的实现简历信息的抽取。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于层叠序列标注的简历信息抽取方法
本专利技术涉及一种基于层叠序列标注的简历信息抽取方法。
技术介绍
简历关键信息的抽取包括四大类：包括属性信息、教育经历、工作经历及项目经历。具体的属性信息包括：姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌；教育经历包括：毕业院校、学位、毕业时间；工作经历包括：工作单位、工作内容、职务、工作时间；项目经历包括：项目名称、项目责任，项目时间。在这18种信息中，工作内容、项目责任是关键句层面的抽取，其他属性为比较短的文本片段抽取。目前信息抽取技术只是针对较短的文本片段的抽取，并不能处理以句子为单位的长文本片段抽取，也没有考虑简历文本本身的区块结构。
技术实现思路
专利技术目的：本专利技术所要解决的技术问题是针对现有技术的不足，提供一种基于层叠序列标注的简历信息抽取方法，包括如下步骤：步骤1，利用pdfminer对格式为pdf的简历文件进行解析，将富文本的简历解析成普通格式文本表示；步骤2，训练过程数据标记：利用远程监督的数据回标并在标记过程中合并同类项；步骤3，划分简历信息区块：将简历划分为4个区块，训练分类器对文本进行区块划分；步骤4，利用双层序列标注模型，实现句子层面和短文本片段层面的信息抽取。步骤1包括：pdf是一种富文本，需要首先解析成普通纯文本格式。解析过程会涉及到分栏、分节和折行的问题。步骤1-1，利用pdfminder解析格式为pdf的简历文件到句子序列，对于简历解析过...

【技术保护点】
1.一种基于层叠序列标注的简历信息抽取方法，其特征在于，包括如下步骤：/n步骤1，利用pdfminer对格式为pdf的简历文件进行解析，将富文本的简历解析成普通格式文本表示；/n步骤2，训练过程数据标记：利用远程监督的数据回标并在标记过程中合并同类项；/n步骤3，划分简历信息区块：将简历划分为4个区块，训练分类器对文本进行区块划分；/n步骤4，利用双层序列标注模型，实现句子层面和短文本片段层面的信息抽取。/n

【技术特征摘要】
1.一种基于层叠序列标注的简历信息抽取方法，其特征在于，包括如下步骤：
步骤1，利用pdfminer对格式为pdf的简历文件进行解析，将富文本的简历解析成普通格式文本表示；
步骤2，训练过程数据标记：利用远程监督的数据回标并在标记过程中合并同类项；
步骤3，划分简历信息区块：将简历划分为4个区块，训练分类器对文本进行区块划分；
步骤4，利用双层序列标注模型，实现句子层面和短文本片段层面的信息抽取。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：
步骤1-1，利用pdfminder解析格式为pdf的简历文件到句子序列，对于简历解析过程中的折行问题引起的错误断行，利用pdfminer解析器的LTTextBox组件获取文本的横、纵坐标修正错误断行；
步骤1-2，将简历分为三种模板：普通的顺序简历、简历分为左右两边并且以右边为主、简历分为左右两边并且以左边为主。

3.根据权利要求2所述的方法，其特征在于，步骤1-1包括：
首先得到pdf简历文件每一页的所有文本框组件，然后得到每个文本框的左下角和右上角的坐标分别计为(x0,y0)和(x1,y1)，然后按照y1降序和x0升序排列，计算出文本框的高度，对于横坐标相同的两个文本框，如果两个文本框之间的行距小于两倍文本框高度则将这两个文本框合并。

4.根据权利要求3所述的方法，其特征在于，步骤1-2包括：按照步骤1-1中的顺序对简历中的文本框进行遍历，该过程中记录最长文本框的左下角坐标(x_maxlong_0,y_maxlong_0)和右上角坐标(x_maxlong_1,y_maxlong_1)，然后遍历每个文本框，记录当前文本框左下角和右上角坐标，分别记为(x_cur_0,y_cur_0),(x_cur_1,y_cur_1)，如果发现当前文本框的右上角坐标x_cur_1小于最长文本框的左下角坐标x_maxlong_0，说明当前简历是左右分栏的，而且以右侧为主。

5.根据权利要求4所述的方法，其特征在于，步骤2包括：
步骤2-1，远程监督数据标记：遍历每个训练数据中的每个实体描述，如果一个实体描述在简历文本中出现两次以上，将所有的出现位置都判定是该实体的正确出现位置；
步骤2-2，数据回标过程中合并同类项：将简历文本中的项目时间、教育时间、工作时间统一合并标注为时间，将项目内容和工作内容统一回标为内容。
...

【专利技术属性】
技术研发人员：徐建，郭培胜，徐琳，李晓冬，
申请(专利权)人：中国电子科技集团公司第二十八研究所，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人