命名实体识别模型训练方法、命名实体识别方法和介质技术

技术编号:25836610 阅读:38 留言:0更新日期:2020-10-02 14:17
本发明专利技术实施例提供了命名实体识别模型训练方法、命名实体识别方法和介质,本发明专利技术考虑先用源领域标记数据和目标领域未标记数据集对第一训练模型进行训练,基于第一训练模型的参数设置第二训练模型,再用目标领域标记数据集对第二训练模型进行微调,从而得到最终的命名实体识别模型,由此,避免了需要大量标记目标领域的样本用于训练的问题。

【技术实现步骤摘要】
命名实体识别模型训练方法、命名实体识别方法和介质
本专利技术涉及自然语言处理
,具体来说涉及命名实体识别
,更具体地说,涉及命名实体识别模型训练方法、命名实体识别方法和介质。
技术介绍
自然语言处理是为了让计算机理解人类的语言,从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析等。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理(NaturalLanguageProcessing,简称NLP)的一个重要组成部分。命名实体识别是指识别文本中具有特定意义的事物名称或者符号的过程,命名实体主要包括人名、地名、机构名、日期、专有名词等。许多下游NLP任务或应用程序都依赖NER进行信息提取,例如问题回答、关系提取、事件提取和实体链接等。若能更准确地识别出文本中的命名实体,有助于计算机更好地理解语言的语义、更好地执行任务,从而提高人机交互体验。基于深度神经网络的命名实体识别方法通常将命名实体识别看做多分类本文档来自技高网...

【技术保护点】
1.一种命名实体识别模型训练方法,其特征在于,所述方法包括:/nA1、构建第一训练模型,所述第一训练模型包括特征提取模块、识别模块和领域区分模块;/nA2、对第一训练模型进行多轮训练,其中,每轮训练中,用第一数据集对识别模块进行训练、用第一数据集和第二数据集对特征提取模块和领域区分模块进行对抗训练,每轮训练后至少根据识别模块的损失函数和领域区分模块的损失函数对特征提取模块的参数进行调整,同时更新第一数据集和第二数据集,以更新后的第一数据集和第二数据集进行下一轮训练,其中,第一数据集是以单词向量形式表示的有实体标签的源领域标记数据集,第二数据集是以单词向量形式表示的无实体标签的目标领域未标记数据...

【技术特征摘要】
1.一种命名实体识别模型训练方法,其特征在于,所述方法包括:
A1、构建第一训练模型,所述第一训练模型包括特征提取模块、识别模块和领域区分模块;
A2、对第一训练模型进行多轮训练,其中,每轮训练中,用第一数据集对识别模块进行训练、用第一数据集和第二数据集对特征提取模块和领域区分模块进行对抗训练,每轮训练后至少根据识别模块的损失函数和领域区分模块的损失函数对特征提取模块的参数进行调整,同时更新第一数据集和第二数据集,以更新后的第一数据集和第二数据集进行下一轮训练,其中,第一数据集是以单词向量形式表示的有实体标签的源领域标记数据集,第二数据集是以单词向量形式表示的无实体标签的目标领域未标记数据集;
A3、构建第二训练模型,所述第二训练模型包括特征提取模块和识别模块,第二训练模型的特征提取模块的初始参数采用经步骤A2训练后的第一训练模型的特征提取模块的参数进行设置,识别模块的初始参数采用随机初始化的方式进行设置;
A4、用第三数据集以监督训练的方式对由步骤A3构建的第二训练模型的特征提取模块和识别模块的进行参数微调,将经参数微调后的第二训练模型作为命名实体识别模型,其中,第三数据集是以单词向量形式表示的有实体标签的目标领域标记数据集。


2.根据权利要求1所述的命名实体识别模型训练方法,其特征在于,所述源领域标记数据集的规模与所述目标领域未标记数据集的规模相同或者大致相同,所述目标领域标记数据集的规模小于所述目标领域未标记数据集的规模。


3.根据权利要求2所述的命名实体识别模型训练方法,其特征在于,规模相同或者大致相同是指源领域标记数据集与目标领域未标记数据集的数据量之比为:10:14~10:9。


4.根据权利要求2所述的命名实体识别模型训练方法,其特征在于,所述第一训练模型中的特征提取模块包括预处理层、CNN模型、Word2Vec模型、包含前向LSTM和后向LSTM的BiLSTM模型,其中,前向LSTM、后向LSTM分别包括多个依次连接的LSTM单元;
该特征提取模块分别对非单词向量形式表示的源领域标记数据集、目标领域未标记数据集、目标领域标记数据集进行如下处理以获得第一数据集、第二数据集、第三数据集:
用所述预处理层对数据集的单词进行包含统一大小写和去除停用词的预处理;
用CNN模型提取数据集中各单词的字符级别嵌入特征;
用Word2Vec模型提取数据集中各单词的单词嵌入特征;
对数据集中各单词的字符级别嵌入特征和单词嵌入特征进行串联拼接,得到各单词的向量表示;
将数据集中各单词的向量表示输入特征提取模块的BiLSTM模型中进行处理,得到包含上下文信息的以单词向量形式表示的数据集。


5.根据权利要求1至4任一所述的命名实体识别模型训练方法,其特征在于,第一训练模型和第二训练模型的识别模块均包括BiLSTM-CRF模型,其中,采用源领域标记数据的实体标签设置第一训练模型中识别模块的BiLSTM-CRF模型的CRF层的标签取值空间,采用的目标领域标记数据集的实体标签设置第二训练模型的识别模块的BiLSTM-CRF模型的CRF层的标签设置。


6.根据权利要求4所述的命名实体识别模型训练方法,其特征在于,所述第一训练模型还包括梯度反转层,对特征提取模块和领域区分模块进行对抗训练过程中,在正向传播时通过梯度反...

【专利技术属性】
技术研发人员:程学旗郭嘉丰范意兴张儒清刘艺菲
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1