System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于对抗学习的域自适应命名实体识别方法技术_技高网

基于对抗学习的域自适应命名实体识别方法技术

技术编号:40868159 阅读:2 留言:0更新日期:2024-04-08 16:34
本发明专利技术公开了基于对抗学习的域自适应命名实体识别方法,所述方法包括:收集多类型文本的命名实体识别数据集;使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征;把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数;把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数;对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征;用文档编码器和命名实体识别模块进行命名实体识别。本发明专利技术创新性使用对抗学习的方式,通过文档编码器和文本类型分类器之间的对抗训练,使文档编码器提取出域无关的文档特征,实现域自适应命名实体识别。

【技术实现步骤摘要】

本专利技术涉及深度学习和自然语言处理领域,尤其涉及一种基于对抗学习的域自适应命名实体识别方法


技术介绍

1、命名实体是指具有独立身份或特定类别的实体,如人名、地名、组织机构名、日期、时间、货币、百分比等。命名实体识别任务的目标是在给定的文本中,标注出这些命名实体的边界,并为每个实体分配正确的类别标签。

2、命名实体识别方法包括:①传统的规则和规则模板方法:在早期的命名实体识别研究中,人们使用手工设计的规则和规则模板来识别命名实体。②基于机器学习的方法:随着机器学习技术的发展,研究者开始使用机器学习算法来自动学习命名实体的识别模型。常用的机器学习算法包括最大熵模型、隐马尔可夫模型、条件随机场等。这些方法通过训练数据集来学习命名实体的特征和上下文信息,从而对新的文本进行命名实体识别。③基于深度学习的方法:近年来,深度学习技术在自然语言处理领域取得了显著的进展。在命名实体识别中,研究者开始使用深度学习模型,如循环神经网络、长短期记忆网络、卷积神经网络以及最近的预训练语言模型,来提高命名实体的识别性能。这些深度学习模型可以自动学习文本中的上下文信息和语义特征,从而更准确地识别命名实体。然而上述的方法都存在着域自适应能力弱的问题,例如在新闻文本上训练出的命名实体识别模型,在网络自媒体文本上的表现远差于其在新闻文本上的表现。然而我们不可能在实际中搜集所有类型的文本来训练模型,因此如何训练出一个具有域自适应能力的,对不同类型文本都性能优秀的命名实体识别模型是一个待解决的,有意义的问题。


技术实现思路</b>

1、本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开了基于对抗学习的域自适应命名实体识别方法。所述方法能够实现域自适应命名实体识别,相比现有方法,本方法创新性地使用对抗学习的方式,通过文档编码器和文本类型分类器之间的对抗训练,使文档编码器提取出域无关的文档特征,实现域自适应命名实体识别。

2、本专利技术的目的是通过如下技术方案实现的,基于对抗学习的域自适应命名实体识别方法,所述方法包括:

3、步骤1,收集多类型文本的命名实体识别数据集;

4、步骤2,使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征;

5、步骤3,把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数;

6、步骤4,把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数;

7、步骤5,对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征;

8、步骤6,用文档编码器和命名实体识别模块进行命名实体识别。

9、所述的收集多类型文本的命名实体识别数据集,包括以下步骤:

10、步骤101,收集现有的命名实体识别数据集,包括新闻报道、社交媒体帖子和科技论文,收集数据集并记录文本类型;

11、步骤102,扩充数据集,为命名实体识别数据集上的数据打上命名实体识别标注和文本类型标注。

12、所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征,包括以下步骤:

13、对文档进行分词,在句首和句尾加上起始标记“<cls>”和结束标记“<sep>”;用bert-large的词嵌入模型将分词映射到低维连续的特征空间中;

14、分词后的文档为 ,其中第  个词为 , 表示文档中词的总数, 表示词嵌入的维度, 表示bert-large预训练语言模型的词嵌入矩阵,则经过词嵌入后的文档表示为 ,表达式为:

15、;

16、其中表示起始标记“<cls>”的词嵌入, 表示第  个词 的词嵌入, 表示结束标记“<sep>”的词嵌入;

17、使用bert-large预训练语言模型的多层transformer网络对  进行特征提取,得到文档特征 ,表达式为:

18、;

19、其中  表示bert-large预训练语言模型中transformer网络的参数,表示用预训练语言模型bert-large对文档进行特征编码输出的文档特征。

20、所述的把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数,包括以下步骤:

21、步骤301,构造实体预测特征矩阵;将所述的文档特征的维度在第0维度进行扩充,得到,在第1维度进行扩充,得到,将在第0维度复制n+2次和在第1维度复制n+2次后进行拼接,得到实体预测特征矩阵;所述的文档特征的数据结构是张量,张量是一种高维矩阵,维度指的是张量的各个方向上的长度,第0维度指的是第0个方向,第1维度指的是第1个方向,对张量在某个维度进行扩充,是指对张量在某个方向上增加一个维度;

22、步骤302,使用两个全连接层预测出实体类型概率向量矩阵,表达式为:

23、;

24、其中,和是可学习的参数,relu和softmax是激活函数,softmax用于把向量归一化为概率向量,,是不包括负样本的实体类别数,中的元素表示第i个词到第j个词的片段是第k类实体的概率,表示第i个词到第j个词的片段是负样本的概率,负样本表示该词片段不构成一个实体;

25、步骤303,构造实体类型标注矩阵,表达式为:

26、;

27、其中,,是相同维度的张量,是实体类型标注矩阵;

28、步骤304,计算命名实体识别损失函数,表达式为:

29、;

30、其中,表示文档中词的总数,表示不包括负样本的实体类别数,表示命名实体识别损失函数。

31、所述的把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数,包括以下步骤:

32、步骤401,预测文本类型;使用两个嵌套的全连接层对所述的起始标记“<cls>”的词嵌入进行映射,获得对应的文本类型概率向量,表达式为:

33、;

34、其中,和是可学习的参数,relu和softmax是激活函数,表示文本类型概率向量,表示文本类型的总数量;

35、步骤402,构造文本类型标注向量;根据收集到的多类型文本的命名实体识别数据集,对每个文本进行文本类型标注,得到文本类型标注向量,表达式为:

36、;

37、其中,表示文本类型标注向量;

38、步骤403,计算文本类型分类损失函数;使用交叉熵损失函数计算文本类型分类器的损失,表达式为:

39、;

40、其中,表示文本类型分类损失函数,表示文本类型为第i类的概率。

41、所述的对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征,包括以下步骤:

42、步骤501,从命名实体识别数据集中随机采样一批数据,计本文档来自技高网...

【技术保护点】

1.基于对抗学习的域自适应命名实体识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的收集多类型文本的命名实体识别数据集,包括以下步骤:

3.根据权利要求2所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征,包括以下步骤:

4.根据权利要求3所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的把文档特征输入命名实体识别模块,预测实体,计算命名实体识别损失函数,包括以下步骤:

5.根据权利要求4所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的把文档特征输入文本类型分类器,判断文本类型,计算文本类型分类损失函数,包括以下步骤:

6.根据权利要求5所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的对文档编码器和文本类型分类器进行对抗学习,使文档编码器提取出域无关的文本特征,包括以下步骤:

【技术特征摘要】

1.基于对抗学习的域自适应命名实体识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的收集多类型文本的命名实体识别数据集,包括以下步骤:

3.根据权利要求2所述的基于对抗学习的域自适应命名实体识别方法,其特征在于,所述的使用基于预训练语言模型的文档编码器对命名实体识别数据集中的文档进行特征编码,获得文档特征,包括以下步骤:

4.根据权利要求3所述的基于对抗学习的域自适应命名实...

【专利技术属性】
技术研发人员:关相承鄢曙光马喜双马可盈伍慧弘
申请(专利权)人:武汉科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1