一种基于特征融合的互联网金融领域命名实体识别方法技术

技术编号:37763907 阅读:16 留言:0更新日期:2023-06-06 13:21
本发明专利技术提出了一种基于特征融合的互联网金融领域命名实体识别方法,涉及自然语言处理领域。其包括对实体识别模型中的结构及参数进行定义;初始化训练参数,初始化当前训练轮次t=0;将S按照字符和词语级别分割;利用编码表分别编码文本序列;计算ALBERT的输入,ALBERT内部进行多层融合;融合字符和词语两种级别特征,使用BiLSTM提取语义特征;将特征划分为多种粒度的子窗口后进行池化,将池化后的特征进行拼接;计算单个头的注意力分数,拼接多个注意力头的输出;使用CRF进行标签解码,更新训练参数,更新迭代次数;重复多次后输出命名实体标签序列;其能够提高模型识别实体的性能。其能够提高模型识别实体的性能。其能够提高模型识别实体的性能。

【技术实现步骤摘要】
一种基于特征融合的互联网金融领域命名实体识别方法


[0001]本专利技术涉及自然语言处理领域,具体而言,涉及一种基于特征融合的互联网金融领域命名实体识别方法。

技术介绍

[0002]命名实体识别任务通常分为两个步骤:第一步为发现命名实体,即从给定的文本序列中识别出命名实体在该段文本序列中的位置及边界;第二步为分类命名实体,即根据预先定义好的类别将识别出的命名实体分类为正确的类别,如人员、位置和组织等类别。有越来越多的研究人员针对命名实体识别任务展开了研究,例如自动内容提取、信息提取与实体识别评价等一系列科学研究都对命名实体识别的发展产生了极大的积极意义。目前,用于解决命名实体识别任务的方法大致可分为三种类别,分别为基于规则的方法、基于机器学习的方法以及基于深度学习的方法。基于规则的方法是最先在命名实体识别任务中被使用的方法,这种方法非常依赖通过语言专家手工构造的规则模板。基于规则的方法能够有效地解决命名实体识别任务,但是这种方法也存在两个缺点,一方面手工创建的规则往往受限于具体的语言以及领域,所以针对不同的需求往往都需要对规则进行重新构建,从而本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合的互联网金融领域命名实体识别方法,其特征在于,包括如下步骤,1)对实体识别模型中的结构及参数进行定义:输入原始序列S,查询向量表e
c
和e
w
,超参数及优化器Adam,最大迭代次数T,子窗口大小注意力头部个数;2)初始化训练参数,初始化当前训练轮次t=0;3)将S按照字符和词语级别分割:基于字符进行分割表示为S
c
={c1,c2,...,c
m
‑1,c
m
};将S按照词语的级别进行分割得到基于词的句子表示,即S
w
={w1,w2,...,w
n
‑1,w
n
};c
i
表示句子中第i个字符,w
i
表示句子中第i个词,i=1,2,...,m

1,m;4)利用编码表分别编码文本序列:E
c
=e
c
(c
i
)及E
w
=e
w
(w
i
),其中,e
c
表示字向量表,e
w
表示词向量表;5)计算ALBERT的输入input
c
=E
c
+E
s
+E
p
及input
w
=E
w
+E
s
+E
p
...

【专利技术属性】
技术研发人员:陈竹刘奇刘剑群孟熹彭大祥
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1