一种基于层叠序列标注的简历信息抽取方法技术

技术编号:26418581 阅读:30 留言:0更新日期:2020-11-20 14:13
本发明专利技术提供了一种基于层叠序列标注的简历信息抽取方法,包括:步骤1,利用pdfminer对pdf简历进行解析,将原始pdf转成多行的文本表示。该过程主要解决其中出现的顺序混乱和错误断行问题;步骤2,训练过程数据标记:利用远程监督的数据回标并在标记过程中合并同类项。步骤3,简历信息区块划分:对于经过pdfminer得到句子,针对每个句子分类判断其所在的区块。步骤4,利用双层序列标注模型,实现句子层面和短文本片段层面的信息抽取。后续利用简历分块信息实现过滤,有效提高了召回率的同时没有大幅减少准确率。经过以上4个阶段,本发明专利技术能够有效的实现简历信息的抽取。

【技术实现步骤摘要】
一种基于层叠序列标注的简历信息抽取方法
本专利技术涉及一种基于层叠序列标注的简历信息抽取方法。
技术介绍
简历关键信息的抽取包括四大类:包括属性信息、教育经历、工作经历及项目经历。具体的属性信息包括:姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌;教育经历包括:毕业院校、学位、毕业时间;工作经历包括:工作单位、工作内容、职务、工作时间;项目经历包括:项目名称、项目责任,项目时间。在这18种信息中,工作内容、项目责任是关键句层面的抽取,其他属性为比较短的文本片段抽取。目前信息抽取技术只是针对较短的文本片段的抽取,并不能处理以句子为单位的长文本片段抽取,也没有考虑简历文本本身的区块结构。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于层叠序列标注的简历信息抽取方法,包括如下步骤:步骤1,利用pdfminer对格式为pdf的简历文件进行解析,将富文本的简历解析成普通格式文本表示;步骤2,训练过程数据标记:利用远程监督的数据回标并在标记过程中合并同类项;步骤3,划分简历信息区块:将简历划分为4个区块,训练分类器对文本进行区块划分;步骤4,利用双层序列标注模型,实现句子层面和短文本片段层面的信息抽取。步骤1包括:pdf是一种富文本,需要首先解析成普通纯文本格式。解析过程会涉及到分栏、分节和折行的问题。步骤1-1,利用pdfminder解析格式为pdf的简历文件到句子序列,对于简历解析过程中的折行问题引起的错误断行,利用pdfminer解析器的LTTextBox组件获取文本的横、纵坐标修正错误断行;步骤1-2,简历解析过程的分栏问题或导致模板读取顺序混乱,将简历分为三种模板:普通的顺序简历、简历分为左右两边并且以右边为主、简历分为左右两边并且以左边为主。步骤1-1包括:LTTextBox表示的是文本块,一般储存在矩形区域,默认情况下会当成一行文字。但是这种默认的解析方式会引起错误的断行。首先得到pdf简历文件每一页的所有文本框(LTTextBox)组件,然后得到每个文本框的左下角和右上角的坐标分别计为(x0,y0)(x1,y1)(pdfminer的解析过程坐标原点在pdf页面的左下角)。然后按照y1降序和x0升序排列,计算出文本框的高度,对于横坐标相同的两个文本框,如果两个文本框之间的行距小于两倍文本框高度则将这两个文本框合并。这样就可以解决错行问题。步骤1-2包括:按照步骤1-1中的顺序对简历中的文本框(LTTextBox)进行遍历,该过程中记录最长文本框的左下角坐标(x_maxlong_0,y_maxlong_0)和右上角坐标(x_maxlong_1,y_maxlong_1),然后遍历每个文本框,记录当前文本框左下角和右上角坐标,分别记为(x_cur_0,y_cur_0),(x_cur_1,y_cur_1),如果发现当前文本框的右上角坐标x_cur_1小于最长文本框的左下角坐标x_maxlong_0,说明当前简历是左右分栏的,而且以右侧为主。。步骤2包括:步骤2-1,远程监督数据标记:由于标注数据并没有给出每个实体在简历原文中的具体出现位置,所以需要根据实体描述将其标回到简历原文中的具体位置。遍历每个训练数据中的每个实体描述(训练数据可以是给定的一个文本,并标注好其中工作时间、项目经历等字段的属性),如果一个实体描述在简历文本中出现两次以上,将所有的出现位置都判定是该实体的正确出现位置,这种做法可以较大的提高召回率虽然有较低的牺牲准确率;步骤2-2,数据回标过程中合并同类项:将简历文本中的项目时间、教育时间、工作时间统一合并标注为时间,将项目内容和工作内容统一回标为内容。步骤3包括:利用规则对训练数据划分为基本信息区块,教育信息、工作信息、项目信息4个区块。由于训练数据和测试数据较大的不一致,所以利用训练数据构建一个4分类器,对于测试数据利用该分类器划分区块。该过程是一个文本分类的过程,主要包含特征选择和文本分类过程。步骤3中,将步骤1抽取后的简历文本按照行进行遍历,对每个行进行4分类,判定该行属于基本属性、教育经历、工作经历、项目经历,具体包括:步骤3-1,由于单词个数较多,利用卡方检定判断每个类别的关键词提取:通过如下公式计算针对类别c单词t的卡方统计量χ2(t,c):其中,公式中各个参数的含义,说明如下:N:训练数据集文档总数;A:包括词条t,同时属于类别c的文档的数量;B:包含词条t,但是不属于类别c的文档的数量;C:属于类别c,但是不包含词条t的文档的数量;D:不属于类别c,同时也不包含词条t的文档的数量;设定词条t与类别c不相关;对于每个词条,计算它与类别c的卡方值,将结果从大到小排个序,按照卡方值降序排列取前k个词条;步骤3-2,文本分类分类模型以及阈值选择阶段:采用基于梯度提升树的xgboost作为分类器,将训练数据集按照9:1的比例划分为训练集和验证集,并计算相应的准确率、召回率以及参数F1值:F1=2*pre*recall/(pre+recall),pre为准确率,recall为召回率;选择对应F1值最大的值作为分类器的阈值;将简历分词表示,经过上一步骤的特征选择,输入分类器进行4分类判断,这里选择xgboost分类器,分类器针对每一行判断该行属于基本信息、教育信息、工作信息还是项目信息。步骤4包括:步骤4-1,该过程主要抽取简历中工作内容和项目经历,因为这两个内容一般比较长,是以句子为单位的信息抽取:,以句子为单位进行句子级别的抽取:首先对每个句子利用bert进行编码,并利用句子开头的CLS编码向量作为句子表示,然后将句子开头的CLS编码向量经过双向LSTM和CRF网络,得到每个句子的标签,句子的标签即表示该句子是否属于工作内容或者项目经历;步骤4-2,该过程主要抽取简历中较短的短语片段,这些信息的抽取是以字符为单位:抽取出句子为单位的工作内容和项目经历以后,将其内容利用一个特殊字符[NUM],[WN]替换,在此基础上利用字符为单位的crf进行其他字段抽取;bert内部使用了12层的编码网络,设定可学习参数对12层输出加权,得到最后的输出表示::其中,m=12,m是bert输出的隐藏向量层数;bi是bert的第i层输出;γ和si是可学习参数;oi是12层网络输出加权后的表示。有益效果:本专利技术有效的解决了pdf富文本读取过程中的分节、分页和折行问题,有效的解决了读取顺序的乱序问题;分别利用句子和字符为单位进行建模,有效的完成了长文本片段和短文本片段的抽取;对简历进行分块操作实现了特定区域的特定信息抽取,有效的解决了相似字段引起的混淆问题(比如工作时间和项目时间表现很相似,统一回标为时间,然后利用简历分块信息进行划分)。附图说明下面结本文档来自技高网...

【技术保护点】
1.一种基于层叠序列标注的简历信息抽取方法,其特征在于,包括如下步骤:/n步骤1,利用pdfminer对格式为pdf的简历文件进行解析,将富文本的简历解析成普通格式文本表示;/n步骤2,训练过程数据标记:利用远程监督的数据回标并在标记过程中合并同类项;/n步骤3,划分简历信息区块:将简历划分为4个区块,训练分类器对文本进行区块划分;/n步骤4,利用双层序列标注模型,实现句子层面和短文本片段层面的信息抽取。/n

【技术特征摘要】
1.一种基于层叠序列标注的简历信息抽取方法,其特征在于,包括如下步骤:
步骤1,利用pdfminer对格式为pdf的简历文件进行解析,将富文本的简历解析成普通格式文本表示;
步骤2,训练过程数据标记:利用远程监督的数据回标并在标记过程中合并同类项;
步骤3,划分简历信息区块:将简历划分为4个区块,训练分类器对文本进行区块划分;
步骤4,利用双层序列标注模型,实现句子层面和短文本片段层面的信息抽取。


2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,利用pdfminder解析格式为pdf的简历文件到句子序列,对于简历解析过程中的折行问题引起的错误断行,利用pdfminer解析器的LTTextBox组件获取文本的横、纵坐标修正错误断行;
步骤1-2,将简历分为三种模板:普通的顺序简历、简历分为左右两边并且以右边为主、简历分为左右两边并且以左边为主。


3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:
首先得到pdf简历文件每一页的所有文本框组件,然后得到每个文本框的左下角和右上角的坐标分别计为(x0,y0)和(x1,y1),然后按照y1降序和x0升序排列,计算出文本框的高度,对于横坐标相同的两个文本框,如果两个文本框之间的行距小于两倍文本框高度则将这两个文本框合并。


4.根据权利要求3所述的方法,其特征在于,步骤1-2包括:按照步骤1-1中的顺序对简历中的文本框进行遍历,该过程中记录最长文本框的左下角坐标(x_maxlong_0,y_maxlong_0)和右上角坐标(x_maxlong_1,y_maxlong_1),然后遍历每个文本框,记录当前文本框左下角和右上角坐标,分别记为(x_cur_0,y_cur_0),(x_cur_1,y_cur_1),如果发现当前文本框的右上角坐标x_cur_1小于最长文本框的左下角坐标x_maxlong_0,说明当前简历是左右分栏的,而且以右侧为主。


5.根据权利要求4所述的方法,其特征在于,步骤2包括:
步骤2-1,远程监督数据标记:遍历每个训练数据中的每个实体描述,如果一个实体描述在简历文本中出现两次以上,将所有的出现位置都判定是该实体的正确出现位置;
步骤2-2,数据回标过程中合并同类项:将简历文本中的项目时间、教育时间、工作时间统一合并标注为时间,将项目内容和工作内容统一回标为内容。
...

【专利技术属性】
技术研发人员:徐建郭培胜徐琳李晓冬
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1