一种基于BERT的海运邮件命名实体识别方法技术

技术编号：33155242 阅读：15 留言：0更新日期：2022-04-22 14:11

本发明专利技术公开了一种基于BERT的海运邮件命名实体识别方法，其包括对海运邮件进行数据预处理，获得海运邮件数据集；统计高频词汇构建扩展词汇表；利用Word2Vec模型生成扩展词向量；利用BERT模型训练生成原生词向量；合并扩展词汇表和原生词汇表形成海运邮件词汇表，合并扩展词向量和原生词向量形成海运邮件词向量；利用BERT模型训练海运邮件词向量获得上下文信息即分布式特征；利用神经网络中的全连接层将分布式特征映射到样本标签空间和调用条件随机场标签序列。本发明专利技术利用BERT模型和注意力机制训练海运邮件词向量获得上下文信息，不需要频繁制定规则，使得在大量海运邮件中识别效果要更好。效果要更好。效果要更好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT的海运邮件命名实体识别方法

[0001]本专利技术涉及邮件识别领域，尤其涉及一种基于BERT的海运邮件命名实体识别方法。

技术介绍

[0002]现有的邮件命名实体识别方法指定的规则只能满足固定格式的邮件，使识别方法召回率低，信息准确率下降，同时海运邮件每个人的写作风格不同，长短句掺杂，缩略词多，专业词汇丰富，而且每封邮件每种实体出现次数绝大数只有一到两次，所以对于这种情况现有的识别方法很难在有限的信息中很好的学到海运邮件重要信息的相关特征。

技术实现思路

[0003]本专利技术提供一种基于BERT的海运邮件命名实体识别方法，以克服现有的识别方法无法得到海运邮件重要信息的相关特征等技术问题。
[0004]为了实现上述目的，本专利技术的技术方案是：
[0005]一种基于BERT的海运邮件命名实体识别方法，包括以下步骤：
[0006]步骤1、对海运邮件进行数据预处理，获得海运邮件数据集；
[0007]步骤2、统计海运邮件数据集中的高频词汇构建扩展词汇表；
[0008]步骤3、调用Word2Vec模型，利用Word2Vec模型和扩展词汇表生成扩展词向量；
[0009]步骤4、调用BERT模型，利用BERT模型和海运邮件数据集训练生成原生词向量；
[0010]步骤5、合并扩展词向量和原生词向量形成海运邮件词向量；
[0011]步骤6、基于海运邮件数据集使用BERT模型训练海运邮件词向量，获得海运邮件词向量所在整句的上下文信息，即分布...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的海运邮件命名实体识别方法，其特征在于，包括以下步骤：步骤1、对海运邮件进行数据预处理，获得海运邮件数据集；步骤2、统计海运邮件数据集中的高频词汇构建扩展词汇表；步骤3、调用Word2Vec模型，利用Word2Vec模型和扩展词汇表生成扩展词向量；步骤4、调用BERT模型，利用BERT模型和海运邮件数据集训练生成原生词向量；步骤5、合并扩展词向量和原生词向量形成海运邮件词向量；步骤6、基于海运邮件数据集使用BERT模型训练海运邮件词向量，获得海运邮件词向量所在整句的上下文信息，即分布式特征；步骤7、将分布式特征输入到神经网络中，利用神经网络中的全连接层将分布式特征映射到样本标签空间中，获得输入数据对应每个标签的归一化概率。步骤8、调用条件随机场，将归一化概率输入到条件随机场中获得标签序列，所述标签序列用于标明邮件命名实体类型。2.如权利要求1所述的一种基于BERT的海运邮件命名实体识别方法...

【专利技术属性】
技术研发人员：周新，刘彬，郭爱彬，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人