一种基于深度神经网络的简历抽取方法技术

技术编号：20866701 阅读：33 留言：0更新日期：2019-04-17 09:23

本发明专利技术涉及一种基于深度神经网络的简历抽取方法，包括：数据预处理：获取简历数据文本，并进行分字，获取字向量特征和字序列特征，得到字向量数据集和字序列数据集；深度神经网络训练：训练得到深度神经网络训练模型，将字向量数据集和字序列数据集同时作为深度神经网络训练模型的特征输入，训练得到的语意特征作为输出特征，利用输出语意特征进行实体标注，得到实体标签；标签匹配解析：根据预训练好的信息元抽取规则库中相应的抽取规则，匹配已标注的简历数据文本中的信息元词组，返回简历数据文本的信息元标签与信息元词组组对；本发明专利技术采用字向量和字序列作为输入特征，且结合深度神经网络与基于规则的文本解析技术，提高识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的简历抽取方法
本专利技术涉及文本处理
，特别是涉及一种基于深度神经网络的简历抽取方法。
技术介绍
现代信息技术和存储技术的快速发展以及互联网的迅速蔓延，使得人们在日常生活会频繁接触到各种的文本信息，文本信息已经成为互联网传输数据最多的部分。在大数据时代，人们缺少的并不是信息，而是从海量纷繁复杂的信息中获取有用的、人们所关注的信息。对于简历的信息元的抽取系统，现有多为基于规则模板抽取的方式，其存在有缺陷：1、前期分词效果不佳，词表示的好坏将会直接影响最后信息元标注和识别的结果，目前在中文环境下，首先要对中文进行分词，前期分词效果的好坏将会直接的影响到后面的命名实体识别环节，但因为词与词之间没有明显的边界，前期分词在业界一直是个瓶颈问题；2、在中文组词中，词具有很强的灵活性，使得词汇数量巨大，同时词汇特征丰富而不易学习，而且将关键词看作是词汇组合使得词汇角色非常复杂，例如关键词的组成部分可能被切分到其他非关键词中，也就是说利用词切分后获得特征的方法，大大提高了机器学习的复杂性；3、传统的简历信息抽取主要基于规则模板，其定制的规则只能针对特定的某中特定格式的简历，在面对海量的纷繁复杂的简历文本就显得力不从心，不仅需要不断的添加修改和维护现有的规则，而且需要处理规则之间的冲突；4、目前传统的规则抽取首先要对关注的信息元进行识别和定位，然后根据语言学特征(比如词性特征或主谓宾的位置信息)和相关的格式信息(比如段落信息、标点符号信息)等定制相应的抽取规则，这样的抽取规则首先需要专业的领域知识，以及要对相应的语言学特征熟悉，并且字典库要不断更...

【技术保护点】
1.一种基于深度神经网络的简历抽取方法，其特征在于，包括如下步骤：数据预处理：获取简历数据文本，对获取简历数据文本进行分字，获取字向量特征和字序列特征，得到字向量数据集和字序列数据集；深度神经网络训练：训练得到深度神经网络训练模型，将字向量数据集和字序列数据集同时作为深度神经网络训练模型的特征输入，训练得到的语意特征作为输出特征，利用输出语意特征进行实体标注，得到简历数据文本的实体标签；标签匹配解析：根据预训练好的信息元抽取规则库中相应的抽取规则，匹配已标注的简历数据文本中的信息元词组，返回简历数据文本的信息元标签与信息元词组组对。

【技术特征摘要】
1.一种基于深度神经网络的简历抽取方法，其特征在于，包括如下步骤：数据预处理：获取简历数据文本，对获取简历数据文本进行分字，获取字向量特征和字序列特征，得到字向量数据集和字序列数据集；深度神经网络训练：训练得到深度神经网络训练模型，将字向量数据集和字序列数据集同时作为深度神经网络训练模型的特征输入，训练得到的语意特征作为输出特征，利用输出语意特征进行实体标注，得到简历数据文本的实体标签；标签匹配解析：根据预训练好的信息元抽取规则库中相应的抽取规则，匹配已标注的简历数据文本中的信息元词组，返回简历数据文本的信息元标签与信息元词组组对。2.根据权利要求1所述的一种基于深度神经网络的简历抽取方法，其特征在于，获取字向量特征及获得字向量数据集的步骤具体包括：将简历数据文本进行分割；利用分词模型对简历数据文本的词语、语句处理成多个单字；对得到的多个单字利用基于字的向量模型训练成字向量，得到字向量数据集。3.根据权利要求1所述的一种基于深度神经网络的简历抽取方法，其特征在于，获取字序列特征及得到字序列数据集的步骤具体包括：将简历数据文本进行分割；利用分词模型对简历数据文本的词语、语句处理成多个单字；定义字序列，将多个单字根据字序列的定义组合成字序列，得到字序列数据集。4.根据权利要求3所述的一种基于深度神经网络的简历抽取方法，其特征在于，字序列的定义为B＝{B_1，B_2，B_3……B_4|n>0}，其中B_n为汉字或者符号串，字序列用于描述语言片段的上下文语境特征。5.根据权利要求1-3任一项所述的一种基于深度神经网络的简历抽取方法，其特征在于，在得到字向量数据集或字序列数据集之后的步骤还可包括：观察采用的模型输入的数据集...

【专利技术属性】
技术研发人员：张剑，章志，
申请(专利权)人：东莞理工学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人