一种基于深度神经网络的简历抽取方法技术

技术编号:20866701 阅读:33 留言:0更新日期:2019-04-17 09:23
本发明专利技术涉及一种基于深度神经网络的简历抽取方法,包括:数据预处理:获取简历数据文本,并进行分字,获取字向量特征和字序列特征,得到字向量数据集和字序列数据集;深度神经网络训练:训练得到深度神经网络训练模型,将字向量数据集和字序列数据集同时作为深度神经网络训练模型的特征输入,训练得到的语意特征作为输出特征,利用输出语意特征进行实体标注,得到实体标签;标签匹配解析:根据预训练好的信息元抽取规则库中相应的抽取规则,匹配已标注的简历数据文本中的信息元词组,返回简历数据文本的信息元标签与信息元词组组对;本发明专利技术采用字向量和字序列作为输入特征,且结合深度神经网络与基于规则的文本解析技术,提高识别的准确率。

【技术实现步骤摘要】
一种基于深度神经网络的简历抽取方法
本专利技术涉及文本处理
,特别是涉及一种基于深度神经网络的简历抽取方法。
技术介绍
现代信息技术和存储技术的快速发展以及互联网的迅速蔓延,使得人们在日常生活会频繁接触到各种的文本信息,文本信息已经成为互联网传输数据最多的部分。在大数据时代,人们缺少的并不是信息,而是从海量纷繁复杂的信息中获取有用的、人们所关注的信息。对于简历的信息元的抽取系统,现有多为基于规则模板抽取的方式,其存在有缺陷:1、前期分词效果不佳,词表示的好坏将会直接影响最后信息元标注和识别的结果,目前在中文环境下,首先要对中文进行分词,前期分词效果的好坏将会直接的影响到后面的命名实体识别环节,但因为词与词之间没有明显的边界,前期分词在业界一直是个瓶颈问题;2、在中文组词中,词具有很强的灵活性,使得词汇数量巨大,同时词汇特征丰富而不易学习,而且将关键词看作是词汇组合使得词汇角色非常复杂,例如关键词的组成部分可能被切分到其他非关键词中,也就是说利用词切分后获得特征的方法,大大提高了机器学习的复杂性;3、传统的简历信息抽取主要基于规则模板,其定制的规则只能针对特定的某中特定格式的简历,在面对海量的纷繁复杂的简历文本就显得力不从心,不仅需要不断的添加修改和维护现有的规则,而且需要处理规则之间的冲突;4、目前传统的规则抽取首先要对关注的信息元进行识别和定位,然后根据语言学特征(比如词性特征或主谓宾的位置信息)和相关的格式信息(比如段落信息、标点符号信息)等定制相应的抽取规则,这样的抽取规则首先需要专业的领域知识,以及要对相应的语言学特征熟悉,并且字典库要不断更新维护,同时如果字典库中的信息元不存在就会被遗漏,因此泛用性差。现有技术中也有基于深度学习的简历解析方法,中国专利技术专利申请说明书CN106569998A公开一种基于Bi-LSTM、CNN和CRF的文本命名实体识别方法,该方法包括如下步骤:利用卷积神经网络对文本单词字符层面的信息进行编码转换成字符向量;将字符向量与词向量进行组合并作为输入传到双向LSTM神经网络来对每个单词的上下文信息进行建模;在LSTM神经网络的输出端,利用连续的条件随机场来对整个句子进行标签解码,并标注句子中的实体;中国专利技术专利申请说明书CN108664474A一种基于深度学习的简历解析方法,其包括以下步骤:数据预处理:将简历统一转换为文本格式,确定简历的内容分段标签,并将简历文本按行进行数据标记;模型训练:利用神经网络将简历文本按行表达为一个固定长度的向量,在获得行向量后,根据所述行向量对简历进行内容分段;信息提取:在完成内容分段后,从指定的内容段中提取标签字段,获得相关信息;但是上述现有的技术均是将字符向量和词向量进行组合输入传到双向LSTM神经网络中对每个单词的上下文信息进行建模,而对文本进行分词处理的好坏可以影响到判断上下文信息的准确性,同时也会影响到后面命名实体识别的结果。
技术实现思路
为解决上述问题,本专利技术提供一种基于深度神经网络的简历抽取方法,其将字向量和字序列作为输入特征,减低分词的影响,且深度神经网络与基于规则的文本解析技术相结合,有效提高识别的准确率。为解决上述目的,本专利技术采用的如下技术方案。一种基于深度神经网络的简历抽取方法,其特征在于,包括如下步骤:数据预处理:获取简历数据文本,对获取简历数据文本进行分字,获取字向量特征和字序列特征,得到字向量数据集和字序列数据集;深度神经网络训练:训练得到深度神经网络训练模型,将字向量数据集和字序列数据集同时作为深度神经网络训练模型的特征输入,训练得到的语意特征作为输出特征,利用输出语意特征进行实体标注,得到简历数据文本的实体标签;标签匹配解析:根据预训练好的信息元抽取规则库中相应的抽取规则,匹配已标注的简历数据文本中的信息元词组,返回简历数据文本的信息元标签与信息元词组组对,并存入人物信息数据库。进一步地,获取字向量特征及获得字向量数据集的步骤具体包括:将简历数据文本进行分割;利用分词模型对简历数据文本的词语、语句处理成多个单字;对得到的多个单字利用基于字的向量模型训练成字向量,得到字向量数据集。进一步地,获取字序列特征及得到字序列数据集的步骤具体包括:将简历数据文本进行分割;利用分词模型对简历数据文本的词语、语句处理成多个单字;定义字序列,将多个单字根据字序列的定义组合成字序列,得到字序列数据集。进一步地,字序列的定义为B={B_1,B_2,B_3……B_4|n>0},其中B_n为汉字或者符号串,字序列用于描述语言片段的上下文语境特征。进一步地,在得到字向量数据集或字序列数据集之后的步骤还可包括:观察采用的模型输入的数据集数据的格式,把待输入的数据的格式处理成与即将采用模型的数据集格式。进一步地,对数据预处理中得到的字向量数据集进行分割,得到字向量训练集、字向量测试集和字向量验证集;对数据预处理中得到的字序列数据集进行分割,得到字序列训练集、字序列测试集和字序列验证集;在训练得到深度神经网络训练模型步骤中具体包括:预训练字向量处理;把分割成的字向量训练集和字序列训练集同时当作长短期记忆网络LSTM的输入特征,在长短期记忆网络LSTM的输出端的线性层中根据每种特征所占的不同权重形成得到的语意特征作为输出特征;利用输出语意特征进行实体标注,得到训练集中简历数据文本的实体标签;再利用字向量验证集和字序列验证集,持续训练得到深度神经网络训练模型。进一步地,所占的不同权重的获取过程具体为:权重在[0,1]区间内,先给定预设权重,利用深度神经网络训练模型测试训练数据集,记录系统性能结果;权重逐步从0增加到1,每次增加1/m,并得到多个系统性能结果;比较多个系统性能结果,选择获得系统性能结果最优的权重;系统性能结果可为预测标签的准确率。进一步地,预训练好的信息元抽取规则库获得过程具体为:按照标点符号对获得的简历数据文本进行分割,输出多个文本段;判断每个文本段中所包含的信息元是否有简历信息中所要抽取的信息元,并把包含有的信息元的文本段提取出来形成文本段集;将文本段集与相应信息元标签数据对作为训练数据,训练出相应的信息元抽取规则,并存放信息;得到预训练好的信息元抽取规则库。本专利技术的有益效果如下:1.采用字向量和字序列作为特征输入,有效降低分词的影响,避免前期分词效果不好而直接影响后面命名实体识别准确率,且由于字切分后获得特征比词切分获得的特征少,能够大大降低机器学习的复杂性;2.采用规则提取和深度神经网络相结合可以高速精确地识别简历数据文本中的信息元,同时经过标注后的简历数据文本结合规则抽取,相比利用传统的规则抽取,维护及抽取更为轻松。3.在简历匹配解析中,将深度学习理论与基于规则的文本解析技术相结合,解析出的简历可用于构建人物信息数据库,利于后续的数据挖掘,对推荐系统等应用具有非常大的帮助。附图说明图1为本专利技术的一个实施例的简历抽取方法流程图;图2为本专利技术的一个实施例的训练深度神经网络训练模型关键步骤的流程图;图3为本专利技术的一个实施例的预训练字向量处理流程图;图4为本专利技术的一个实施例的标签匹配解析关键步骤的流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明本文档来自技高网
...

【技术保护点】
1.一种基于深度神经网络的简历抽取方法,其特征在于,包括如下步骤:数据预处理:获取简历数据文本,对获取简历数据文本进行分字,获取字向量特征和字序列特征,得到字向量数据集和字序列数据集;深度神经网络训练:训练得到深度神经网络训练模型,将字向量数据集和字序列数据集同时作为深度神经网络训练模型的特征输入,训练得到的语意特征作为输出特征,利用输出语意特征进行实体标注,得到简历数据文本的实体标签;标签匹配解析:根据预训练好的信息元抽取规则库中相应的抽取规则,匹配已标注的简历数据文本中的信息元词组,返回简历数据文本的信息元标签与信息元词组组对。

【技术特征摘要】
1.一种基于深度神经网络的简历抽取方法,其特征在于,包括如下步骤:数据预处理:获取简历数据文本,对获取简历数据文本进行分字,获取字向量特征和字序列特征,得到字向量数据集和字序列数据集;深度神经网络训练:训练得到深度神经网络训练模型,将字向量数据集和字序列数据集同时作为深度神经网络训练模型的特征输入,训练得到的语意特征作为输出特征,利用输出语意特征进行实体标注,得到简历数据文本的实体标签;标签匹配解析:根据预训练好的信息元抽取规则库中相应的抽取规则,匹配已标注的简历数据文本中的信息元词组,返回简历数据文本的信息元标签与信息元词组组对。2.根据权利要求1所述的一种基于深度神经网络的简历抽取方法,其特征在于,获取字向量特征及获得字向量数据集的步骤具体包括:将简历数据文本进行分割;利用分词模型对简历数据文本的词语、语句处理成多个单字;对得到的多个单字利用基于字的向量模型训练成字向量,得到字向量数据集。3.根据权利要求1所述的一种基于深度神经网络的简历抽取方法,其特征在于,获取字序列特征及得到字序列数据集的步骤具体包括:将简历数据文本进行分割;利用分词模型对简历数据文本的词语、语句处理成多个单字;定义字序列,将多个单字根据字序列的定义组合成字序列,得到字序列数据集。4.根据权利要求3所述的一种基于深度神经网络的简历抽取方法,其特征在于,字序列的定义为B={B_1,B_2,B_3……B_4|n>0},其中B_n为汉字或者符号串,字序列用于描述语言片段的上下文语境特征。5.根据权利要求1-3任一项所述的一种基于深度神经网络的简历抽取方法,其特征在于,在得到字向量数据集或字序列数据集之后的步骤还可包括:观察采用的模型输入的数据集...

【专利技术属性】
技术研发人员:张剑章志
申请(专利权)人:东莞理工学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1