一种基于序列生成对抗网络的中文命名实体识别数据增强算法制造技术

技术编号:25836618 阅读:49 留言:0更新日期:2020-10-02 14:17
本发明专利技术提供了一种通过融合源领域和目标域中句子的语义差异和标签差异,来选择源领域数据中的正样本数据来扩展目标域的训练数据,达到增强目标域的命名实体识别性能的方法。在以往的Bi‑LSTM+CRF模型的基础上,为了融合源领域和目标域中句子的语义差异和标签差异,我们通过强化学习中的状态表示和奖励设置来引入语义差异和标签差异,使得训练的决策网络可以选择源领域的数据中对于目标域的命名实体识别的性能有正向影响的句子,扩展目标域的训练数据,解决目标域训练数据不足的问题,同时提升目标域的命名实体识别性能。

【技术实现步骤摘要】
一种基于序列生成对抗网络的中文命名实体识别数据增强算法
本专利技术涉及互联网
,尤其涉及一种采用序列生成对抗网络的方式,来进行数据增强,提高中文命名实体识别的性能。
技术介绍
近年来,深度学习在图像、语音和自然语言处理方面取得很大进展。深度学习作为机器学习算法的新兴技术,其动机在于建立,模拟人脑进行分析学习的神经网络。在图像领域,人们利用深度神经网络,实现了图像中的目标检测,比如利用卷积神经网络和候选窗结合,实现对图像中的行人进行检测;在语音领域,深度学习则被用于语音合成和识别,为我们提供了智能的语音系统;在自然语言处理领域,深度学习更是被应用在了各个生活场景,比如利用神经网络分析用户的浏览记录和消费行为,推送用户可能喜欢的产品,以及利用大量的平行语料库训练翻译系统,使机器达到高水平的翻译能力。随着互联网的迅速发展,其产生的用户信息也越来越多,如何能够自动化地从用户信息中提取有用信息,来服务用户,具有十分重要的意义。中文命名实体识别作为信息提取的上游任务,其发展对于信息提取技术十分关键。中文命名实体识别是指给定一段中文文本本文档来自技高网...

【技术保护点】
1.一种基于序列生成对抗网络的中文命名实体识别数据增强算法,其特征在于,采用序列生成对抗网络的方式,学习训练集中实体和非实体的关系,来进行数据增强,提高命名实体识别的性能,该方法包括以下步骤:/n(1)对语料库中的句子进行处理,根据句子的实体标注信息,将每个句子分成实体和非实体部分,同时将实体和非实体部分加入字典;/n(2)根据实体和非实体形成的字典,将每个句子中的实体和非实体部分映射成字典中对应的索引,形成索引序列;/n(3)随机初始化索引到向量的映射字典,将每个句子映射成实体和非实体对应的向量连接而成的数值矩阵;/n(4)生成器采用从左到右的策略进行文本生成,双向长短期记忆神经网络(Bid...

【技术特征摘要】
1.一种基于序列生成对抗网络的中文命名实体识别数据增强算法,其特征在于,采用序列生成对抗网络的方式,学习训练集中实体和非实体的关系,来进行数据增强,提高命名实体识别的性能,该方法包括以下步骤:
(1)对语料库中的句子进行处理,根据句子的实体标注信息,将每个句子分成实体和非实体部分,同时将实体和非实体部分加入字典;
(2)根据实体和非实体形成的字典,将每个句子中的实体和非实体部分映射成字典中对应的索引,形成索引序列;
(3)随机初始化索引到向量的映射字典,将每个句子映射成实体和非实体对应的向量连接而成的数值矩阵;
(4)生成器采用从左到右的策略进行文本生成,双向长短期记忆神经网络(BidirectionalLong-ShortTermMemory,Bi-LSTM)用于提取输出单元与之前时刻相关的特征信息,前馈神经网络将特征信息映射成所有可能的输出单元的概率;
(5)考虑当前单元的输出对于整个输出序列的影响,采用蒙特卡洛搜索的roll-out策略对之后时刻的输出单元进行采样;
(6)判别器对采样后形成的完整序列进行判断,给出相应的分数,指导生成器的数据生成。;
(7)根据步骤(6)得到的判别器分数,计算当前句子的奖励和生成器的目标函数,利用反向传播和梯度更新获得良好的生成器模型,来自动生成大量数据;
(8)将步骤(7)中生成数据与步骤(1)的字典进行字符串匹配,得到生成数据对应的实体标签;
(9)将生成的文本数据用于扩大训练集,并通过字向量字典将训练集中的句子数值化为向量矩阵;
(10)采用双向长短期记忆神经网络(BidirectionalLong-ShortTermMemory,Bi-LSTM)来提取输入句子中每个字符上下文相关的特征向量表示;
(11)采用条件随机场解码获得每个字符对应的预测标签,计算损失函数,利用反向传播计算模型中的参数。
(12)不断重复步骤(9)到步骤(11),在开发集上测试训练的命名实体识别模型,选取在开发集上F值最大的模型,进行保存。


2.其特征在于,非训练情况下,实体识别的过程包括:
(2.1)将测试集中句子通过字向量字典映射成对应的向量矩阵;
(2.2)将每个句子的向量表示输入到双向长短期记忆神经网络,得到每个句子和上下文相关的特征表示;
(2.3)采用条件随机场,解码得到测试集中每个句子的最优标签序列,作为命名实体识别的结果。


3.如权利要求1所述的方法,其特征在于,所述步骤(1)中,对语料库中的...

【专利技术属性】
技术研发人员:李思王蓬辉李明正孙忆南
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1