一种基于BERT的海运邮件命名实体识别方法技术

技术编号:33155242 阅读:15 留言:0更新日期:2022-04-22 14:11
本发明专利技术公开了一种基于BERT的海运邮件命名实体识别方法,其包括对海运邮件进行数据预处理,获得海运邮件数据集;统计高频词汇构建扩展词汇表;利用Word2Vec模型生成扩展词向量;利用BERT模型训练生成原生词向量;合并扩展词汇表和原生词汇表形成海运邮件词汇表,合并扩展词向量和原生词向量形成海运邮件词向量;利用BERT模型训练海运邮件词向量获得上下文信息即分布式特征;利用神经网络中的全连接层将分布式特征映射到样本标签空间和调用条件随机场标签序列。本发明专利技术利用BERT模型和注意力机制训练海运邮件词向量获得上下文信息,不需要频繁制定规则,使得在大量海运邮件中识别效果要更好。效果要更好。效果要更好。

【技术实现步骤摘要】
一种基于BERT的海运邮件命名实体识别方法


[0001]本专利技术涉及邮件识别领域,尤其涉及一种基于BERT的海运邮件命名实体识别方法。

技术介绍

[0002]现有的邮件命名实体识别方法指定的规则只能满足固定格式的邮件,使识别方法召回率低,信息准确率下降,同时海运邮件每个人的写作风格不同,长短句掺杂,缩略词多,专业词汇丰富,而且每封邮件每种实体出现次数绝大数只有一到两次,所以对于这种情况现有的识别方法很难在有限的信息中很好的学到海运邮件重要信息的相关特征。

技术实现思路

[0003]本专利技术提供一种基于BERT的海运邮件命名实体识别方法,以克服现有的识别方法无法得到海运邮件重要信息的相关特征等技术问题。
[0004]为了实现上述目的,本专利技术的技术方案是:
[0005]一种基于BERT的海运邮件命名实体识别方法,包括以下步骤:
[0006]步骤1、对海运邮件进行数据预处理,获得海运邮件数据集;
[0007]步骤2、统计海运邮件数据集中的高频词汇构建扩展词汇表;
[0008]步骤3、调用Word2Vec模型,利用Word2Vec模型和扩展词汇表生成扩展词向量;
[0009]步骤4、调用BERT模型,利用BERT模型和海运邮件数据集训练生成原生词向量;
[0010]步骤5、合并扩展词向量和原生词向量形成海运邮件词向量;
[0011]步骤6、基于海运邮件数据集使用BERT模型训练海运邮件词向量,获得海运邮件词向量所在整句的上下文信息,即分布式特征;
[0012]步骤7、将分布式特征输入到神经网络中,利用神经网络中的全连接层将分布式特征映射到样本标签空间中,获得输入数据对应每个标签的归一化概率。
[0013]步骤8、调用条件随机场,将归一化概率输入到条件随机场中获得标签序列,所述标签序列用于标明邮件命名实体类型。
[0014]进一步的,步骤1中对海运邮件进行数据预处理具体为:
[0015]步骤1.1、对海运邮件进行文本切分,短文本相邻时进行拼接,短文本和长文本相邻时进行切分并拼接,使切分或拼接后的文本不超过预设的长度;其中超过预设长度的文本为长文本,小于预设长度的文本为短文本;
[0016]步骤1.2、将切分或拼接后的文本删除停用词、网址和HTML标签,获得海运邮件数据集。
[0017]进一步的,所述步骤2中通过编写脚本统计海运邮件数据集中出现频率最高的80%的词汇,生成扩展词汇表。
[0018]进一步的,步骤4中在BERT模型中预设训练次数,将最后一次训练输出的词向量作为原生词向量。
[0019]进一步的,步骤6中利用BERT模型计算海运邮件词向量所在整句的注意力,即上下文信息。
[0020]有益效果:本专利技术利用BERT模型和注意力机制训练海运邮件词向量获得上下文信息,不需要频繁制定规则,使得在大量海运邮件中识别效果要更好;通过Word2Vec模型和BERT模型预先获得词向量,解决了通用模型在海运邮件领域具备未登陆词的问题;调用条件随机场,通过转移矩阵学习得到前后标签之间的关联信息,即注意力,从而提高序列标注的准确性
附图说明
[0021]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为基于BERT的海运邮件命名实体识别技术框架;
[0023]图2为BERT模型示意图;
[0024]图3为基于BERT的海运邮件命名实体识别方法流程图。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]本实施例提供了一种基于BERT的海运邮件命名实体识别方法,如图1

3,包括以下步骤:
[0027]步骤1、对海运邮件进行数据预处理,获得海运邮件数据集;
[0028]步骤2、统计海运邮件数据集中的高频词汇构建扩展词汇表;
[0029]步骤3、调用Word2Vec模型,利用Word2Vec模型和扩展词汇表生成扩展词向量;
[0030]步骤4、调用BERT模型,利用BERT模型和海运邮件数据集训练生成原生词向量;
[0031]步骤5、合并扩展词向量和原生词向量形成海运邮件词向量;
[0032]步骤6、基于海运邮件数据集使用BERT模型训练海运邮件词向量,获得海运邮件词向量所在整句的上下文信息,即分布式特征;
[0033]步骤7、将分布式特征输入到神经网络中,利用神经网络中的全连接层将分布式特征映射到样本标签空间中,获得输入数据对应每个标签的归一化概率;
[0034]步骤8、调用条件随机场(CRF),将归一化概率输入到条件随机场中获得标签序列,所述标签序列用于标明邮件命名实体类型;因CRF具有转移特性,它会考虑标签之间的上下文关联,通过函数计算自动输出一个概率最大的标注序列作为最终结果。
[0035]在具体实施例中,步骤1中对海运邮件进行数据预处理具体为:
[0036]步骤1.1、对海运邮件进行文本切分,短文本相邻时进行拼接,短文本和长文本相邻时进行切分并拼接,使切分或拼接后的文本不超过预设的长度;其中超过预设长度的文
本为长文本,小于预设长度的文本为短文本;
[0037]步骤1.2、将切分或拼接后的文本删除停用词、网址和HTML标签,获得海运邮件数据集,即文本增强。
[0038]在具体实施例中,所述步骤2中通过编写脚本统计海运邮件数据集中出现频率最高的80%的词汇,生成扩展词汇表。
[0039]在具体实施例中,步骤4中在BERT模型中预设训练次数,将最后一次训练(epoch)输出的词向量作为原生词向量。
[0040]在具体实施例中,步骤6中利用BERT模型计算整句的注意力,即上下文信息;具体的,利用BERT模型学习深度的双向语言表征,通过自注意力机制,维护三个矩阵(W
Q
,W
K
,W
V
),通过矩阵计算来获得当前词相对于整句话其他词的注意力(Attention),从而得到当前词的上下文信息。
[0041]在具体实施过程中,如图1所示,将海运邮件通过文本切分和文本增强,获得多个海运邮件文本段,即W1、W2、W3、

、W
l
‑1、W
l
,构成海运邮件数据集;海运邮件数据集通过高频词统计后得到m个高频词形成扩展词汇本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的海运邮件命名实体识别方法,其特征在于,包括以下步骤:步骤1、对海运邮件进行数据预处理,获得海运邮件数据集;步骤2、统计海运邮件数据集中的高频词汇构建扩展词汇表;步骤3、调用Word2Vec模型,利用Word2Vec模型和扩展词汇表生成扩展词向量;步骤4、调用BERT模型,利用BERT模型和海运邮件数据集训练生成原生词向量;步骤5、合并扩展词向量和原生词向量形成海运邮件词向量;步骤6、基于海运邮件数据集使用BERT模型训练海运邮件词向量,获得海运邮件词向量所在整句的上下文信息,即分布式特征;步骤7、将分布式特征输入到神经网络中,利用神经网络中的全连接层将分布式特征映射到样本标签空间中,获得输入数据对应每个标签的归一化概率。步骤8、调用条件随机场,将归一化概率输入到条件随机场中获得标签序列,所述标签序列用于标明邮件命名实体类型。2.如权利要求1所述的一种基于BERT的海运邮件命名实体识别方法...

【专利技术属性】
技术研发人员:周新刘彬郭爱彬
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1