当前位置: 首页 > 专利查询>中国人民解放军战略支援部队信息工程大学专利>正文

基于ALBERT的中文电子简历命名实体识别方法技术

技术编号：35189323 阅读：15 留言：0更新日期：2022-10-12 18:05

本发明专利技术属于计算机技术领域，特别涉及一种基于ALBERT的中文电子简历命名实体识别方法，利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取，将中文字符映射为融合字特征、位置特征和文本特征的字向量；通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；学习特征矩阵中相邻标签之间的依赖关系，并通过设置标签之间转移的约束条件来获取全局最优标签序列。本发明专利技术利用ALBERT模型来实现电子简历中文字符特征的提取，能够减少计算参数，加快训练速度；并进一步利用BiLSTM提取上下文语义信息，通过CRF学习标签之间以来关系来获取全局最优标签序列，具有较好的鲁棒性和实用性。棒性和实用性。棒性和实用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于ALBERT的中文电子简历命名实体识别方法

[0001]本专利技术属于计算机
，特别涉及一种基于ALBERT的中文电子简历命名实体识别方法。

技术介绍

[0002]大数据和互联网技术的发展为人们的生活带来了便捷，网络招聘与在线简历投递已成为当下人们寻求职务的主流方式，各大企业的人力资源部门会收到海量电子简历，如何快速高效的从这些电子简历中提取出企业感兴趣的关键信息是一个亟待解决的问题。电子简历属于文本信息，命名实体识别可以自动从大量的非结构化文本信息中抽取出事先定义好的实体类型。不同于通用领域的实体识别只分辨出组织、时间和位置，电子简历信息中包含的实体类型更丰富，且较为统一，实体识别难度更高。
[0003]目前电子简历命名实体识别(Named Entity Recognition，NER)的研究方法主要有三种:基于规则和词典匹配的方法、基于统计机器学习的方法以及基于深度学习的方法。基于规则和词典匹配的方法是由领域专家设计实体抽取规则，然后根据规则生成涵盖实体的词典，进而对文本中的实体进行抽取。该方法只要有完整合理的语言规则或词典，就能取得良好的效果。基于统计机器学习的方法将NER任务转换为将简历中的实体分配特定类型标签。通过分析语料库特点，人工选定特征建立统计学习模型，在大规模语料上进行训练来完成实体标注。常用的统计学习模型有最大熵模型(Maximum Entropy Model,MEM)、隐马尔可夫模型(HiddenMarkov Model,HMM)和条件随机场(Condi...

【技术保护点】

【技术特征摘要】
1.一种基于ALBERT的中文电子简历命名实体识别方法，其特征在于，包含如下内容：利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取，将中文字符映射为融合字特征、位置特征和文本特征的字向量；通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵；学习特征矩阵中相邻标签之间的依赖关系，并通过设置标签之间转移的约束条件来获取全局最优标签序列。2.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型包含字嵌入层和编码层，其中，针对输入的中文字符序列，字嵌入层通过查询词汇表将每个字符转换为字向量，并利用文本向量区分不同句子，位置向量区分输入字符序列的时序性，将字向量、文本向量和位置向量进行相加；并利用编码层对三向量相加的结果进行训练学习获取融合字特征、位置特征和文本特征的字向量。3.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型采用O(V
×
H)
→
O(V
×
E+E
×
H)当H＞＞E的因式分解过程来设置字向量维度，其中，E表示字向量大小，H表示隐藏层大小，V表示词汇表大小，模型参数规模由O(V
×
H)转换为O(V
×
E+E
×
H)。4.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法，其特征在于，ALBERT模型中共享全连接层和注意力层的全部参数，其中，共享参数过程表示为O(12
×
L
×
H
×
H)
→
O(12
×
H
×

【专利技术属性】
技术研发人员：余丹丹，黄洁，党同心，张克，王硕，熊芳勇，
申请(专利权)人：中国人民解放军战略支援部队信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人