【技术实现步骤摘要】
一种基于特征融合的互联网金融领域命名实体识别方法
[0001]本专利技术涉及自然语言处理领域,具体而言,涉及一种基于特征融合的互联网金融领域命名实体识别方法。
技术介绍
[0002]命名实体识别任务通常分为两个步骤:第一步为发现命名实体,即从给定的文本序列中识别出命名实体在该段文本序列中的位置及边界;第二步为分类命名实体,即根据预先定义好的类别将识别出的命名实体分类为正确的类别,如人员、位置和组织等类别。有越来越多的研究人员针对命名实体识别任务展开了研究,例如自动内容提取、信息提取与实体识别评价等一系列科学研究都对命名实体识别的发展产生了极大的积极意义。目前,用于解决命名实体识别任务的方法大致可分为三种类别,分别为基于规则的方法、基于机器学习的方法以及基于深度学习的方法。基于规则的方法是最先在命名实体识别任务中被使用的方法,这种方法非常依赖通过语言专家手工构造的规则模板。基于规则的方法能够有效地解决命名实体识别任务,但是这种方法也存在两个缺点,一方面手工创建的规则往往受限于具体的语言以及领域,所以针对不同的需求往往都需要对规 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征融合的互联网金融领域命名实体识别方法,其特征在于,包括如下步骤,1)对实体识别模型中的结构及参数进行定义:输入原始序列S,查询向量表e
c
和e
w
,超参数及优化器Adam,最大迭代次数T,子窗口大小注意力头部个数;2)初始化训练参数,初始化当前训练轮次t=0;3)将S按照字符和词语级别分割:基于字符进行分割表示为S
c
={c1,c2,...,c
m
‑1,c
m
};将S按照词语的级别进行分割得到基于词的句子表示,即S
w
={w1,w2,...,w
n
‑1,w
n
};c
i
表示句子中第i个字符,w
i
表示句子中第i个词,i=1,2,...,m
‑
1,m;4)利用编码表分别编码文本序列:E
c
=e
c
(c
i
)及E
w
=e
w
(w
i
),其中,e
c
表示字向量表,e
w
表示词向量表;5)计算ALBERT的输入input
c
=E
c
+E
s
+E
p
及input
w
=E
w
+E
s
+E
p
...
【专利技术属性】
技术研发人员:陈竹,刘奇,刘剑群,孟熹,彭大祥,
申请(专利权)人:天翼电子商务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。