基于ALBERT的中文电子简历命名实体识别方法技术

技术编号:35189323 阅读:15 留言:0更新日期:2022-10-12 18:05
本发明专利技术属于计算机技术领域,特别涉及一种基于ALBERT的中文电子简历命名实体识别方法,利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取,将中文字符映射为融合字特征、位置特征和文本特征的字向量;通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;学习特征矩阵中相邻标签之间的依赖关系,并通过设置标签之间转移的约束条件来获取全局最优标签序列。本发明专利技术利用ALBERT模型来实现电子简历中文字符特征的提取,能够减少计算参数,加快训练速度;并进一步利用BiLSTM提取上下文语义信息,通过CRF学习标签之间以来关系来获取全局最优标签序列,具有较好的鲁棒性和实用性。棒性和实用性。棒性和实用性。

【技术实现步骤摘要】
基于ALBERT的中文电子简历命名实体识别方法


[0001]本专利技术属于计算机
,特别涉及一种基于ALBERT的中文电子简历命名实体识别 方法。

技术介绍

[0002]大数据和互联网技术的发展为人们的生活带来了便捷,网络招聘与在线简历投递已成为 当下人们寻求职务的主流方式,各大企业的人力资源部门会收到海量电子简历,如何快速高 效的从这些电子简历中提取出企业感兴趣的关键信息是一个亟待解决的问题。电子简历属于 文本信息,命名实体识别可以自动从大量的非结构化文本信息中抽取出事先定义好的实体类 型。不同于通用领域的实体识别只分辨出组织、时间和位置,电子简历信息中包含的实体类 型更丰富,且较为统一,实体识别难度更高。
[0003]目前电子简历命名实体识别(Named Entity Recognition,NER)的研究方法主要有三种:基 于规则和词典匹配的方法、基于统计机器学习的方法以及基于深度学习的方法。基于规则和 词典匹配的方法是由领域专家设计实体抽取规则,然后根据规则生成涵盖实体的词典,进而 对文本中的实体进行抽取。该方法只要有完整合理的语言规则或词典,就能取得良好的效果。 基于统计机器学习的方法将NER任务转换为将简历中的实体分配特定类型标签。通过分析语 料库特点,人工选定特征建立统计学习模型,在大规模语料上进行训练来完成实体标注。常 用的统计学习模型有最大熵模型(Maximum Entropy Model,MEM)、隐马尔可夫模型(HiddenMarkov Model,HMM)和条件随机场(Conditional Random Field,CRF)等。当下,深度学习方法 被广泛应用到命名实体识别任务中,其以低人工参与度和高识别准确率的优势迅速在NER任 务中占领了主要地位。其中,基于规则和词典匹配的方法依赖于专家经验,规则和词典的开 发不仅需要丰富的专业知识,而且极其耗时费力,在字典中完整列出所有规则或定义所有相 关实体概念也是相当困难的,这极大地限制了此类方法的识别效果和迁移能力;基于统计机 器学习的方法虽然能解决基于规则和词典匹配方法的问题,但仍旧需要准确的特征工程和庞 大的语料库;基于深度学习的BERT模型仍存在一些弊端,其具有大量的模型参数,对于模型 训练,其有效性依赖于较大的数据量和较长的时间。在某些特定领域,文本数据获取困难, 标注成本大,BERT模型的效果便不再理想。

技术实现思路

[0004]为此,本专利技术提供一种基于ALBERT的中文电子简历命名实体识别方法,使用较少的模 型参数和较短的训练时间达到更优的电子简历命名实体识别性能,便于实际场景应用。
[0005]按照本专利技术所提供的设计方案,提供一种基于ALBERT的中文电子简历命名实体识别方 法,包含如下内容:
[0006]利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取,将中文字符
映射 为融合字特征、位置特征和文本特征的字向量;
[0007]通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;
[0008]学习特征矩阵中相邻标签之间的依赖关系,并通过设置标签之间转移的约束条件来获取 全局最优标签序列。
[0009]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 包含字嵌入层和编码层,其中,针对输入的中文字符序列,字嵌入层通过查询词汇表将每个 字符转换为字向量,并利用文本向量区分不同句子,位置向量区分输入字符序列的时序性, 将字向量、文本向量和位置向量进行相加;并利用编码层对三向量相加的结果进行训练学习 获取融合字特征、位置特征和文本特征的字向量。
[0010]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 采用O(V
×
H)

O(V
×
E+E
×
H)当H>>E的因式分解过程来设置字向量维度,其中,E表示字 向量大小,H表示隐藏层大小,V表示词汇表大小,模型参数规模由O(V
×
H)转换为 O(V
×
E+E
×
H)。
[0011]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 中共享全连接层和注意力层的全部参数,其中,共享参数过程表示为 O(12
×
L
×
H
×
H)

O(12
×
H
×
H),L为隐藏层数量,H表示隐藏层大小。
[0012]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 中利用注意力机制将每个字向量分解为Q、K、V三个子向量,利用每个字符的Q子向量与 上下文字符的子向量K、子向量V,通过子向量之间的点乘运算使字符融合上下文语义信息。
[0013]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,子向量之间的 点乘运算表示为Attention(Q,K,V)=Softmax(QK
T
/d
k

1/2
)V,其中,d
k
表示字向量维。
[0014]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 中利用多头注意力机制从不同角度计算输入中文字符之间的相似度,进而依据相似度来获取 每个中文字符的动态字向量。
[0015]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,利用BiLSTM 提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;并通过条件随机场CRF学习 特征矩阵中相邻标签之间的依赖关系来获取全局最优标签序列。
[0016]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,CRF中,利用 标签转移矩阵来生成标签序列概率,并通过对标签序列概率进行归一化处理来获取标签序列 条件概率;对于给定的训练样本,利用训练样本的对数似然函数的最大化求解来获取输入中 文字符的最优标签序列。
[0017]作为本专利技术基于ALBERT的中文电子简历命名实体识别方法,进一步地,训练样本p(y,x) 的对数似然函数表示为:其中,
y

k
表示预设标签组合中第 k个正确标签序列。
[0018]本专利技术的有益效果:
[0019]本专利技术利用ALBERT模型来实现电子简历中文字符特征的提取,能够减少计算参数,加 快训练速度;并进一步利用BiLSTM提取上下文语义信息,通过CRF学习标签之间以来关系 来获取全局最优标签序列,具有较好的鲁棒性和实用性。
附图说明:
[0020]图1为实施例中基于ALBERT的中文电子简历命名实体识别流程示意;
[0021]图2为实施例中ALBERT嵌入层示意;
[0022]图3为实施例中整本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ALBERT的中文电子简历命名实体识别方法,其特征在于,包含如下内容:利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取,将中文字符映射为融合字特征、位置特征和文本特征的字向量;通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;学习特征矩阵中相邻标签之间的依赖关系,并通过设置标签之间转移的约束条件来获取全局最优标签序列。2.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型包含字嵌入层和编码层,其中,针对输入的中文字符序列,字嵌入层通过查询词汇表将每个字符转换为字向量,并利用文本向量区分不同句子,位置向量区分输入字符序列的时序性,将字向量、文本向量和位置向量进行相加;并利用编码层对三向量相加的结果进行训练学习获取融合字特征、位置特征和文本特征的字向量。3.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型采用O(V
×
H)

O(V
×
E+E
×
H)当H>>E的因式分解过程来设置字向量维度,其中,E表示字向量大小,H表示隐藏层大小,V表示词汇表大小,模型参数规模由O(V
×
H)转换为O(V
×
E+E
×
H)。4.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型中共享全连接层和注意力层的全部参数,其中,共享参数过程表示为O(12
×
L
×
H
×
H)

O(12
×
H
×

【专利技术属性】
技术研发人员:余丹丹黄洁党同心张克王硕熊芳勇
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1