当前位置: 首页 > 专利查询>中南大学专利>正文

一种长文本的关键要素抽取方法、系统及终端设备技术方案

技术编号:36358671 阅读:11 留言:0更新日期:2023-01-14 18:15
本发明专利技术提供了一种长文本的关键要素抽取方法、系统及终端设备,该关键要素抽取方法包括将标注样本集划分为训练集、验证集和测试集;对训练集进行基于语义的数据增强,得到增强集;通过增强集对多个关键要素抽取基模型进行参数更新;通过将未标注样本转换为已标注价值样本集对训练集进行扩充后进行循环训练;最终确认最优关键要素抽取基模型等步骤。该关键要素抽取系统包括数据增强模块、模型优化模块和样本扩充模块等模块;该终端设备包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序;本发明专利技术解决了基于传统小样本学习框架的关键要素抽取方法中生成的标注样本质量较低、要素抽取精度低下的问题。问题。问题。

【技术实现步骤摘要】
一种长文本的关键要素抽取方法、系统及终端设备


[0001]本专利技术涉及文本信息抽取
,具体涉及一种长文本的关键要素抽取方法、系统及终端设备。

技术介绍

[0002]命名实体识别任务旨在从大量的文本数据中获得具有特定意义的实体及实体类别,如人名、地名、机构名等。该任务是自然语言处理的重要子任务之一,并作为一项关键技术为智能问答、知识图谱、句法分析等多项任务提供底层支撑。
[0003]命名实体识别技术不断发展,从早期基于统计和人工定义规则的方法发展到基于特征工程和机器学习的方法,再到近年来比较受欢迎的基于深度学习的方法,模型识别效果显著提升。随着网络信息资源的激增和智能信息抽取技术的不断发展,通用性的命名实体识别技术难以满足领域命名实体识别的需求,网络长文本关键要素抽取任务更加关注与舆情业务相关的命名实体,然而在网络长文本关键要素抽取过程中存在以下问题:(1)现有技术中面向网络长文本的关键要素抽取算法都是采用深度学习,抽取性能很大程度上依赖于标注语料的规模与质量,由于标注网络长文本语料稀缺,往往难以采集充足的数据来训练模型,不足以使模型捕获到足够的数据模式;现有的研究通常利用小样本学习进行关键要素抽取以有效解决训练样本数据量小的问题,但是传统的小样本学习方案往往采用单一的策略,包括基于数据增强的方法、基于迁移学习的方法、基于主动学习的方法、基于弱监督学习的方法等,在一定程度上存在各自的策略弊端,例如:1)基于主动学习的关键要素抽取方法普遍存在采样准则单一的问题,仅考虑不确定性、多样性等指标之一,且仍需专家参与数据标注过程;2)基于简单数据增强的关键要素抽取方法在扩充数据的过程中易于忽略文本的句法、语义等层面的高阶特征信息,无法针对数据的特点进行全面的建模,导致训练样本质量较低,反而为关键要素抽取模型引入了更多的噪声;3)现有技术未充分结合已有模型的知识及多种策略来对海量未标注网络长文本数据进行有效利用,训练模型的成本仍然较大。
[0004](2)与公共领域的命名实体识别不同,网络长文本关键要素抽取任务重点关注与舆情领域密切相关的命名实体,旨在从非结构化的网络长文本中提取舆情命名实体的边界及类别。然而,细粒度的舆情命名实体具有类别繁多、领域特征性较强等特点,例如舆情领域对于“涉事主体”的定义可能会分为“涉事个人”、“涉事自媒体”、“涉事公司”等带有舆情领域性质的要素,这些要素的分类与上下文表述密切相关。现有的网络长文本关键要素抽取方法难以处理舆情命名实体间的长距离依赖特征,易造成实体分类错误。
[0005]针对现有网络长文本中对关键要素抽取技术存在的高质量文本数据匮乏、抽取精度不高的技术问题,暂未提出有效的解决方案。因此,如何面向少量标注样本和大量未标注样本构建训练样本扩充方案,以及面向网络长文本构建关键要素抽取模型,得到高精度的关键要素抽取结果,已成为当下亟需解决的问题。
[0006]综上所述,急需一种长文本的关键要素抽取方法、系统及终端设备以解决现有技
术中存在的问题。

技术实现思路

[0007]本专利技术目的在于提供一种长文本的关键要素抽取方法、系统及终端设备,以解决提高长文本关键要素抽取精度的问题。
[0008]为实现上述目的,本专利技术提供了一种长文本的关键要素抽取方法,包括以下步骤:步骤一:获取长文本数据集,并将长文本数据集划分为标注样本集L和未标注样本集U;将标注样本集L划分为训练集Tr、验证集Va和测试集Te;将未标注样本集U划分为多个子集;步骤二:对训练集Tr进行预处理,获取训练集Tr中各训练样本的文本序列和标签序列;步骤三:通过对开源模型进行继续预训练获取多个预训练语言模型,通过预训练语言模型进行模型迁移,得到多个关键要素抽取基模型;步骤四:结合训练集Tr中各训练样本的文本序列和标签序列,对训练集Tr进行基于语义的数据增强,得到增强集En;步骤五:通过增强集En对多个关键要素抽取基模型进行参数更新;步骤六:对验证集Va进行预处理,获取验证集Va中各验证样本的文本序列和标签序列后分别输入至各个关键要素抽取基模型中,确定各个关键要素抽取基模型对应的最优关键要素抽取基模型;步骤七:判断是否满足训练停止准则;若满足训练停止准则,执行步骤十,若不满足训练停止准则,执行步骤八;步骤八:将未标注样本集U中的一个子集输入各个最优关键要素抽取基模型中,获取对应的已标注价值样本集;步骤九:将步骤八中获取的已标注价值样本集加入训练集Tr中,将步骤八中的子集从未标注样本集U中移除;再重复步骤四至步骤九,直至满足训练停止准则;步骤十:通过最优关键要素抽取基模型对测试集Te进行关键要素抽取。
[0009]优选的,所述步骤三包括:步骤3.1:通过舆情语料库对开源模型进行继续预训练,得到相应的预训练语言模型,所述预训练语言模型包括:DeBERTa模型、LEBERT模型、CogBERT模型、SyntaxBERT模型和Sentence

BERT模型;步骤3.2:对部分预训练语言模型进行模型迁移,得到的关键要素抽取基模型包括:DeBERTa

BiONLSTM

MHA

MCRF模型、LEBERT

BiONLSTM

MHA

MCRF模型和CogBERT

BiONLSTM

MHA

MCRF模型。
[0010]优选的,所述步骤四包括:步骤4.1:定义训练集Tr中的第i个训练样本tr
i
的文本序列为s
i
、标签序列为l
i
,通过SyntaxBERT模型获取文本序列s
i
中各字符的语义向量,并根据文本序列s
i
、标签序列l
i
提取训练样本tr
i
中的各个实体样本形成实体样本子集Ent
i
,实体样本子集中的第j个实体样本ent
j
=<StrEnt
j
,Type
j
>,其中StrEnt
j
为实体样本ent
j
的字符串表示,Type
j
为实体样本ent
j
的实体类别;
步骤4.2:对StrEnt
j
的字符的语义向量求平均值,获取实体样本ent
j
对应的实体向量entEmb
j
;步骤4.3:将所有训练样本对应的实体样本子集中的实体样本构成训练集的实体样本集Ent,计算实体样本集Ent中任意两个实体样本的实体向量之间的余弦相似度Sim,当Sim≥σ且两个实体样本的实体类别相同时,将这两个实体样本分别加入对方的语义邻居集合中,σ为预设的实体相似性阈值;步骤4.4:遍历每一个训练样本tr
i
,若实体样本ent
j
的语义邻居集合不是空集,则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本的关键要素抽取方法,其特征在于,包括以下步骤:步骤一:获取长文本数据集,并将长文本数据集划分为标注样本集L和未标注样本集U;将标注样本集L划分为训练集Tr、验证集Va和测试集Te;将未标注样本集U划分为多个子集;步骤二:对训练集Tr进行预处理,获取训练集Tr中各训练样本的文本序列和标签序列;步骤三:通过对开源模型进行继续预训练获取多个预训练语言模型,通过预训练语言模型进行模型迁移,得到多个关键要素抽取基模型;步骤四:结合训练集Tr中各训练样本的文本序列和标签序列,对训练集Tr进行基于语义的数据增强,得到增强集En;步骤五:通过增强集En对多个关键要素抽取基模型进行参数更新;步骤六:对验证集Va进行预处理,获取验证集Va中各验证样本的文本序列和标签序列后分别输入至各个关键要素抽取基模型中,确定各个关键要素抽取基模型对应的最优关键要素抽取基模型;步骤七:判断是否满足训练停止准则;若满足训练停止准则,执行步骤十,若不满足训练停止准则,执行步骤八;步骤八:将未标注样本集U中的一个子集输入各个最优关键要素抽取基模型中,获取对应的已标注价值样本集;步骤九:将步骤八中获取的已标注价值样本集加入训练集Tr中,将步骤八中的子集从未标注样本集U中移除;再重复步骤四至步骤九,直至满足训练停止准则;步骤十:通过最优关键要素抽取基模型对测试集Te进行关键要素抽取。2.根据权利要求1所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤三包括:步骤3.1:通过舆情语料库对开源模型进行继续预训练,得到相应的预训练语言模型,所述预训练语言模型包括:DeBERTa模型、LEBERT模型、CogBERT模型、SyntaxBERT模型和Sentence

BERT模型;步骤3.2:对部分预训练语言模型进行模型迁移,得到的关键要素抽取基模型包括:DeBERTa

BiONLSTM

MHA

MCRF模型、LEBERT

BiONLSTM

MHA

MCRF模型和CogBERT

BiONLSTM

MHA

MCRF模型。3.根据权利要求2所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤四包括:步骤4.1:定义训练集Tr中的第i个训练样本tr
i
的文本序列为s
i
、标签序列为l
i
,通过SyntaxBERT模型获取文本序列s
i
中各字符的语义向量,并根据文本序列s
i
、标签序列l
i
提取训练样本tr
i
中的各个实体样本形成实体样本子集Ent
i
,实体样本子集中的第j个实体样本ent
j
=<StrEnt
j
,Type
j
>,其中StrEnt
j
为实体样本ent
j
的字符串表示,Type
j
为实体样本ent
j
的实体类别;步骤4.2:对StrEnt
j
的字符的语义向量求平均值,获取实体样本ent
j
对应的实体向量entEmb
j
;步骤4.3:将所有训练样本对应的实体样本子集中的实体样本构成训练集的实体样本集Ent,计算实体样本集Ent中任意两个实体样本的实体向量之间的余弦相似度Sim,当Sim≥σ且两个实体样本的实体类别相同时,将这两个实体样本分别加入对方的语义邻居集合
中,σ为预设的实体相似性阈值;步骤4.4:遍历每一个训练样本tr
i
,若实体样本ent
j
的语义邻居集合不是空集,则在ent
j
的语义邻居集合中选取一个实体样本对ent
j
进行替换,得到增强文本序列s
i*
及其对应的标签序列l
i*
,从而得到待评估的句子对样本pair
i
=<s
i
,s
i*
>;步骤4.5:通过Sentence

BERT模型获取每一个待评估的句子对样本的句向量,其中s
i
的句向量为SenEmb
i
,s
i*
的句向量为SenEmb
i*
,计算SenEmb
i
和SenEmb
i*
之间的余弦相似性SimSem,当SimSem≥β时,将增强文本序列s
i*
及其对应的标签序列l
i*
作为扩充样本,并将所有的扩充样本加入训练集Tr中,得到增强集En;其中β为预设的句子相似性阈值。4.根据权利要求3所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤六中,以整个训练过程中各个关键要素抽取基模型中F1值最高的模型参数作为对应的各个最优关键要素抽取基模型的模型参数。5.根据权利要求4所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤七中,训练停止准则是各个最优关键要素抽取基模型在验证集Va上的性能均已达到预设性能阈值α,或者是训练集Tr已经达到预设数据量。6.根据权利要求4所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤八包括:步骤8.1:通过最优关键要素抽取基模型对子集US中的各个未标注样本u
m

【专利技术属性】
技术研发人员:李芳芳曾咏哲胡世雄罗垲炜甘甜
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1