一种基于主动学习的领域命名实体识别方法及系统技术方案

技术编号:35230130 阅读:43 留言:0更新日期:2022-10-15 10:51
本发明专利技术涉及一种基于主动学习的领域命名实体识别方法及系统,涉及领域命名实体识别技术领域。所述方法包括根据通用文本集合中的各文本与待识别领域的文本之间的距离,对通用文本集合内的各文本进行聚类得到文本集合;将文本集合内的各文本和待识别领域的文本组成扩充文本集合;根据扩充文本集合对预训练模型进行自监督学习得到训练好的预训练模型和待识别领域对应的文本特征向量;构建领域命名实体识别模型,采用主动学习的方法根据扩充文本集合和待识别领域对应的文本特征向量对领域命名实体识别模型进行训练得到训练好的领域命名实体识别模型。本发明专利技术能够将通用的文本特征迁移到具体的领域任务上且无需大量标注数据的领域命名实体识别方法。的领域命名实体识别方法。的领域命名实体识别方法。

【技术实现步骤摘要】
一种基于主动学习的领域命名实体识别方法及系统


[0001]本专利技术涉及领域命名实体识别
,特别是涉及一种基于主动学习的领域命名实体识别方法及系统。

技术介绍

[0002]近年来,在命名实体识别领域,基于深度学习的方法占据了主导的地位。利用深度学习的命名实体识别方法从输入序列到标签序列,可以分解为三个部分:1.输入的分布式表示,即将输入转化为向量的方法,将输入的字词映射到一个低维向量,同时保留其语义属性,所使用的向量表达方法包括词向量、字向量和混合向量。2.上下文编码器,即通过模型挖掘文本的关联信息。目前主要的方法包括了使用循环神经网络及其变种,门控递归单元和长短期记忆网络,以及基于Transformer的语言建模模型在未标记的数据上进行无监督任务,以学习初始参数,结合上下文特征和静态特征进行编码。3.标签解码器,将模型输出的高维特征映射到标签分类上,例如采用多层神经元和Softmax作为标签解码器,即将输出到标签的映射看作一个多分类任务,每个输出的映射是相互独立的。但具体应用到领域文本上,其方法主要存在以下问题:一、领域文本特征提取不充分或依赖于手工构建领域特征。现有文本特征提取主要依赖于构建自监督任务来获取文本间的联系,进而获取保留文本语义信息的特征向量。这一类自监督学习模型一般被称为预训练模型,它们均在大量的语料数据上进行训练,以获取能适用于大多数下游任务的文本向量。然而,领域文本通常在主题、体裁、风格等方面都与通用文本有别,因此仅依赖于在通用文本上预训练获取的文本向量,在任务的精准度上会有所局限。因此,具体到领域文本的命名实体识别任务,在提取文本特征向量时,为了获取更高的模型精度,往往会加入一些领域特征,但是若细化到每个领域或每个任务,手工地构造文本特征向量都非轻易之举,因此,需要一种方法能自动地将通用的文本特征迁移到具体的领域任务上的方法。
[0003]二、基于深度学习的命名实体识别模型依赖于大量标注数据,但人工标注成本较高。基于深度学习的模型因其深度的结构能从数据中学习复杂的特征,而被广泛应用于命名实体识别任务。但随之而来的问题是,这些模型包含大量参数,若要获得满意精度的模型,必须首先收集大量的标注数据,以供模型进行监督学习,并通过梯度下降的方式更新其参数。若是研究学习,有大量的公开标注数据集以供使用。但是具体到应用环境中,命名实体识别任务不可能仅局限于对人物、地点、日期等实体的识别,可能要根据业务场景进行进一步地细化,所以首先要收集标注的数据,但是人工标注又需要投入人力。所以急需一种能够将通用的文本特征迁移到具体的领域任务上且无需大量标注数据的领域命名实体识别方法。

技术实现思路

[0004]本专利技术的目的是提供一种基于主动学习的领域命名实体识别方法及系统,能够将
通用的文本特征迁移到具体的领域任务上且无需大量标注数据的领域命名实体识别方法。
[0005]为实现上述目的,本专利技术提供了如下方案:一种基于主动学习的领域命名实体识别方法,包括:获取通用文本集合和待识别领域的文本;根据所述通用文本集合中的各文本与所述待识别领域的文本之间的距离,对所述通用文本集合内的各文本进行聚类得到文本集合;将所述文本集合内的各文本和所述待识别领域的文本确定为所述待识别领域扩充后的文本组成扩充文本集合;根据所述扩充文本集合对预训练模型进行自监督学习得到训练好的预训练模型和所述待识别领域对应的文本特征向量,所述预训练模型包括依次连接的上下文编码器、前馈神经网络和softmax层;构建领域命名实体识别模型;所述领域命名实体识别模型依次连接的上下文编码器和标签解码器;所述上下文编码器为所述训练好的预训练模型中的上下文编码器;采用主动学习的方法根据所述扩充文本集合和所述待识别领域对应的文本特征向量对所述领域命名实体识别模型进行训练得到训练好的领域命名实体识别模型,所述训练好的领域命名实体识别模型用于对待识别领域的文本进行领域命名实体识别。
[0006]可选的,所述根据所述通用文本集合中的各文本与所述待识别领域的文本之间的距离,对所述通用文本集合内的各文本进行聚类得到文本集合,具体包括:确定所述通用文本集合内的各文本的文本向量和所述待识别领域的文本的文本向量;根据所述通用文本集合内的各文本的文本向量与所述待识别领域的文本的文本向量之间的距离,对所述通用文本内的各文本的文本向量进行聚类得到文本向量集合;将所述文本向量集合内的各文本向量对应的文本确定为文本集合。
[0007]可选的,所述确定所述通用文本集合内的各文本的文本向量和所述待识别领域的文本的文本向量,具体包括:对所述通用文本集合内的各文本和所述待识别领域的文本分别进行分词得到各文本对应的分词集合;将各所述文本对应的分词集合分别输入编码器得到所述通用文本集合内的各文本的文本向量和所述待识别领域的文本的文本向量。
[0008]可选的,所述将所述文本集合内的各文本和所述待识别领域的文本确定为所述待识别领域扩充后的文本组成扩充文本集合,具体包括:将所述文本向量集合内的各文本向量分别输入解码器,得到各文本向量对应的文本;将各所述文本向量对应的文本和所述待识别领域的文本确定为所述待识别领域扩充后的文本组成扩充文本集合。
[0009]可选的,所述采用主动学习的方法根据所述扩充文本集合和所述待识别领域对应的文本特征向量对所述领域命名实体识别模型进行训练得到训练好的领域命名实体识别模型,具体包括:在当前迭代次数下,对于所述扩充文本集合内的任意一个文本,将待识别领域对
应的文本特征向量和所述文本输入所述领域命名实体识别模型得到所述文本的标签序列以及所述标签序列中的各标签在所述文本对应的分词集合中各分词下的预测概率;所述文本的标签序列包括所述文本分词后各分词对应的标签;根据所述文本的预测标签序列中所有预测标签对应的预测概率确定所述文本的信息量;所述文本的预测标签序列包括所述文本对应的分词集合中各分词的预测标签,任意一个所述分词的预测标签为各标签在所述分词下的预测概率中最大预测概率对应的标签;根据所述扩充文本集合内各所述文本的信息量对所述扩充文本集合内的所有文本进行降序排序;选取前M个文本进行领域命名实体的标注得到已标注的文本;根据所述已标注的文本对所述领域命名实体识别模型进行训练得到下一迭代次数下的领域命名实体识别模型,并将所述扩充文本集合内未标注的文本确定为下一迭代次数下的扩充文本集合,进入下次迭代,直到达到迭代停止条件得到训练好的领域命名实体识别模型。
[0010]一种基于主动学习的领域命名实体识别系统,包括:获取模块,用于获取通用文本集合和待识别领域的文本;聚类模块,用于根据所述通用文本集合中的各文本与所述待识别领域的文本之间的距离,对所述通用文本集合内的各文本进行聚类得到文本集合;扩充模块,用于将所述文本集合内的各文本和所述待识别领域的文本确定为所述待识别领域扩充后的文本组成扩充文本集合;预训练模块,用于根据所述扩充文本集合对预训练模型进行自监督学习得到训练好的预训练模型和所述待识别领域对应的文本特征向量,所述预训练模型包括依次连接的上下文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主动学习的领域命名实体识别方法,其特征在于,包括:获取通用文本集合和待识别领域的文本;根据所述通用文本集合中的各文本与所述待识别领域的文本之间的距离,对所述通用文本集合内的各文本进行聚类得到文本集合;将所述文本集合内的各文本和所述待识别领域的文本确定为所述待识别领域扩充后的文本组成扩充文本集合;根据所述扩充文本集合对预训练模型进行自监督学习得到训练好的预训练模型和所述待识别领域对应的文本特征向量,所述预训练模型包括依次连接的上下文编码器、前馈神经网络和softmax层;构建领域命名实体识别模型;所述领域命名实体识别模型依次连接的上下文编码器和标签解码器;所述上下文编码器为所述训练好的预训练模型中的上下文编码器;采用主动学习的方法根据所述扩充文本集合和所述待识别领域对应的文本特征向量对所述领域命名实体识别模型进行训练得到训练好的领域命名实体识别模型,所述训练好的领域命名实体识别模型用于对待识别领域的文本进行领域命名实体识别。2.根据权利要求1所述的一种基于主动学习的领域命名实体识别方法,其特征在于,所述根据所述通用文本集合中的各文本与所述待识别领域的文本之间的距离,对所述通用文本集合内的各文本进行聚类得到文本集合,具体包括:确定所述通用文本集合内的各文本的文本向量和所述待识别领域的文本的文本向量;根据所述通用文本集合内的各文本的文本向量与所述待识别领域的文本的文本向量之间的距离,对所述通用文本内的各文本的文本向量进行聚类得到文本向量集合;将所述文本向量集合内的各文本向量对应的文本确定为文本集合。3.根据权利要求2所述的一种基于主动学习的领域命名实体识别方法,其特征在于,所述确定所述通用文本集合内的各文本的文本向量和所述待识别领域的文本的文本向量,具体包括:对所述通用文本集合内的各文本和所述待识别领域的文本分别进行分词得到各文本对应的分词集合;将各所述文本对应的分词集合分别输入编码器得到所述通用文本集合内的各文本的文本向量和所述待识别领域的文本的文本向量。4.根据权利要求3所述的一种基于主动学习的领域命名实体识别方法,其特征在于,所述将所述文本集合内的各文本和所述待识别领域的文本确定为所述待识别领域扩充后的文本组成扩充文本集合,具体包括:将所述文本向量集合内的各文本向量分别输入解码器,得到各文本向量对应的文本;将各所述文本向量对应的文本和所述待识别领域的文本确定为所述待识别领域扩充后的文本组成扩充文本集合。5.根据权利要求1所述的一种基于主动学习的领域命名实体识别方法,其特征在于,所述采用主动学习的方法根据所述扩充文本集合和所述待识别领域对应的文本特征向量对所述领域命名实体识别模型进行训练得到训练好的领域命名实体识别模型,具体包括:在当前迭代次数下,对于所述扩充文本集合内的任意一个文本,将待识别领域对应的文本特征向量和所述文本输入所述领域命名实体识别模型得到所述文本的标签序列以及
所述标签序列中的各标签在所述文本对应的分词集合中各分词下的预测概率;所述文本的标签序列包括所述文本分词后各分词对应的标签;根据所述文本的预测标签序列中所有预测标签对应的预测概率确定所述文本的信息量;所述文本的预测标签序列包括所述文本对应的分词集合中各分词的预测标签,任意一个所述分词的预测标签为各标签在所述分词下的预测概率中最大预测概率对应的标签;根据所述扩充文本集合内各所述文本的信息量对所述扩充文本集合内的所有文本进行降序排序;选取前M个文本进行领域命名实体的标注得到已标注的文本;根据所述已标注的文本对所述领域命名实体识别模型进行训练得到下一迭代次数下的领域命名实体识别模型,并将所述扩充文本集合内未标注的文本确定为下一迭代次数下的扩充文本集合,进入下次迭代,直到达到迭代停止条件...

【专利技术属性】
技术研发人员:王海泉杜博文孙磊磊颜炜
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1