一种标签增强的命名实体识别方法技术

技术编号:37987374 阅读:8 留言:0更新日期:2023-06-30 10:02
本发明专利技术提供一种标签增强的命名实体识别方法,涉及标签识别技术领域。包括采用深度强化学习的方式引入语义和标签差异进行建模,该方法包括以下步骤:S1、对于每一个实体类型,通过搜索引擎检索的方式获得候选的标签描述文本,由人工对候选的标签描述文本进行归纳总结,得到最终的标签描述文本,S2、按照实体标签种类,对句子中的实体进行分组,标签类型相同的分为一组,并记录每个实体在句子中的开始位置和结束位置。本发明专利技术在文本中融合标签的语义信息,以及对标签类型直接的关系进行建模,使得标签的命名实体识别效果大大增加,增加了后续的设备识别准确率,进而可以实现广泛推广使用。用。用。

【技术实现步骤摘要】
一种标签增强的命名实体识别方法


[0001]本专利技术涉及标签识别
,特别涉及一种标签增强的命名实体识别方法。

技术介绍

[0002]近年来,深度学习和机器学习在计算机视觉和自然语言处理方面取得很大进展,在计算机视觉方面,人们利用深度神经网络对图像进行分类,比如利用卷积神经网络对手写数字进行识别,并且在这方面取得了超过人类自身识别的准确率;在自然语言处理方面,深度学习更是被应用在了各个生活场景,比如利用神经网络分析用户的浏览记录和消费行为,推送用户可能喜欢的产品,以及利用大量的平行语料库训练翻译系统,使机器达到高水平的翻译能力。随着互联网用户的增多,其产生的信息也越来越多,如何在自动化地在这些大量用户信息中提取有用信息,具有十分重要的意义,中文命名实体识别作为信息提取的上游任务,其发展对于信息提取技术十分关键。
[0003]传统的命名实体识别对文本中的每一个字符进行分类,没有利用上标签的语义信息,此外此方法也未考虑到标签类型之间的依赖关系,导致大多忽略了标签与词之间的语义信息以及标签类型之间的依赖信息。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种标签增强的命名实体识别方法,解决了传统的识别方法忽略了标签与词之间的语义信息以及标签类型之间的依赖信息,本专利技术提出了一个标签感知的命名实体识别方法,在文本中融合标签的语义信息,以及对标签类型直接的关系进行建模的问题。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:一种标签增强的命名实体识别方法,包括采用深度强化学习的方式引入语义和标签差异进行建模,该方法包括以下步骤:
[0008]S1、对于每一个实体类型,通过搜索引擎检索的方式获得候选的标签描述文本,由人工对候选的标签描述文本进行归纳总结,得到最终的标签描述文本;
[0009]S2、按照实体标签种类,对句子中的实体进行分组,标签类型相同的分为一组,并记录每个实体在句子中的开始位置和结束位置;
[0010]S3、对于句子Sent,假设标签类型为A、B,A标签的描述文本为A_Text,B标签的描述文本为B_Text将句子的标签和句子文本拼接作为输入;
[0011]S4、将整个序列经过BERT编码,得到句子和标签语言之间交互以及标签与标签交互的隐藏层表示H;
[0012]S5、将所有标签类型取出来经过self

attention得到新的标签类型表示;
[0013]S6、对于每一种标签类型,采用一个条件融合函数CLN将标签类型信息整合到句子
中每一个字符的隐藏层表示;
[0014]S7、对于每一种实体类型,使用CRF建模序列之间的关系。
[0015]优选的,所述搜索引擎检索的方式具体采用网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术。
[0016]进一步,所述BERT编码是基于Transformers的双向编码。
[0017]更进一步,所述CLN是条件层规范化,所述CRF是条件随机场。
[0018]更加进一步,所述S6中对于类型和第i个字符隐藏表示h
i

[0019][0020]γ
t
=W
γ
t+b
γ
[0021]β
t
=W
β
t+b
β
[0022]其中:γ
t
和β
t
是基于条件信息动态生成的,μ和σ是h
i
的均值和方差。
[0023](三)有益效果
[0024]本专利技术提供了一种标签增强的命名实体识别方法。具备以下有益效果:本专利技术在文本中融合标签的语义信息,以及对标签类型直接的关系进行建模,使得标签的命名实体识别效果大大增加,增加了后续的设备识别准确率,进而可以实现广泛推广使用。
附图说明
[0025]图1为本专利技术整体步骤流程示意图;
[0026]图2为本专利技术建模流程示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]实施例一:
[0029]如图1所示,本专利技术实施例提供一种标签增强的命名实体识别方法,包括采用深度强化学习的方式引入语义和标签差异进行建模,建模过程是对于每一个实体类型,通过搜索引擎检索的方式获得候选的标签描述文本,由人工对候选的标签描述文本进行归纳总结,得到最终的标签描述文本,其中搜索引擎检索的方式具体采用网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术;
[0030]然后按照实体标签种类,对句子中的实体进行分组,标签类型相同的分为一组,并记录每个实体在句子中的开始位置和结束位置,并且对于句子Sent,假设标签类型为A、B,A标签的描述文本为A_Text,B标签的描述文本为B_Text将句子的标签和句子文本拼接作为输入,如:
[0031][CLS_A][A_Text][CLS_B][B_Text][Sent];
[0032]之后将将整个序列经过BERT编码,得到句子和标签语言之间交互以及标签与标签交互的隐藏层表示H,其中BERT编码是采用Transformers的双向编码,并且BERT架构是基于
Transformer原始实现的多层Transformer编码器,Transformer模型本身最初是用于机器翻译任务的,但BERT所做的主要改进是利用这部分架构来提供更好的语言建模,这种语言模型经过预训练后,能够提供对其所训练语言的全局理解,BERT还具有语言模型预训练任务,并且是建模过程中的主要之一,掩蔽语言建模是在输入(带有一些掩码标记的句子)上训练模型并获得作为填充了掩码标记的整个句子的输出的任务;
[0033]之后将所有标签类型取出来经过self

attent ion得到新的标签类型表示,以及对于每一种标签类型,采用一个条件融合函数CLN将标签类型信息整合到句子中每一个字符的隐藏层表示:
[0034]对于类型和第i个字符隐藏表示h
i

[0035][0036]γ
t
=W
γ
t+b
γ
[0037]β
t
=W
β
t+b
β
[0038]其中:γ
t
和β
t
是基于条件信息动态生成的,μ和σ是h
i
的均值和方差;
[0039]最后对于每一种实体类型,使用CRF建模序列之间的关系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签增强的命名实体识别方法,其特征在于:包括采用深度强化学习的方式引入语义和标签差异进行建模,该方法包括以下步骤:S1、对于每一个实体类型,通过搜索引擎检索的方式获得候选的标签描述文本,由人工对候选的标签描述文本进行归纳总结,得到最终的标签描述文本;S2、按照实体标签种类,对句子中的实体进行分组,标签类型相同的分为一组,并记录每个实体在句子中的开始位置和结束位置;S3、对于句子Sent,假设标签类型为A、B,A标签的描述文本为A_Text,B标签的描述文本为B_Text将句子的标签和句子文本拼接作为输入;S4、将整个序列经过BERT编码,得到句子和标签语言之间交互以及标签与标签交互的隐藏层表示H;S5、将所有标签类型取出来经过self

attention得到新的标签类型表示;S6、对于每一种标签类型,采用一个条件融合函数CLN将标签类型信息整合到句子中每一个字符的隐藏层表示;S7、对于每一种实体类型,使用CRF建模序列之间的关系。2.根据权利要求1所述的...

【专利技术属性】
技术研发人员:李杨静
申请(专利权)人:杭州合慕科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1