【技术实现步骤摘要】
一种长文本的关键要素抽取方法、系统及终端设备
[0001]本专利技术涉及文本信息抽取
,具体涉及一种长文本的关键要素抽取方法、系统及终端设备。
技术介绍
[0002]命名实体识别任务旨在从大量的文本数据中获得具有特定意义的实体及实体类别,如人名、地名、机构名等。该任务是自然语言处理的重要子任务之一,并作为一项关键技术为智能问答、知识图谱、句法分析等多项任务提供底层支撑。
[0003]命名实体识别技术不断发展,从早期基于统计和人工定义规则的方法发展到基于特征工程和机器学习的方法,再到近年来比较受欢迎的基于深度学习的方法,模型识别效果显著提升。随着网络信息资源的激增和智能信息抽取技术的不断发展,通用性的命名实体识别技术难以满足领域命名实体识别的需求,网络长文本关键要素抽取任务更加关注与舆情业务相关的命名实体,然而在网络长文本关键要素抽取过程中存在以下问题:(1)现有技术中面向网络长文本的关键要素抽取算法都是采用深度学习,抽取性能很大程度上依赖于标注语料的规模与质量,由于标注网络长文本语料稀缺,往往难以采集充足的数据来训练模型,不足以使模型捕获到足够的数据模式;现有的研究通常利用小样本学习进行关键要素抽取以有效解决训练样本数据量小的问题,但是传统的小样本学习方案往往采用单一的策略,包括基于数据增强的方法、基于迁移学习的方法、基于主动学习的方法、基于弱监督学习的方法等,在一定程度上存在各自的策略弊端,例如:1)基于主动学习的关键要素抽取方法普遍存在采样准则单一的问题,仅考虑不确定性、多样性等指标之一,且仍需专家 ...
【技术保护点】
【技术特征摘要】
1.一种长文本的关键要素抽取方法,其特征在于,包括以下步骤:步骤一:获取长文本数据集,并将长文本数据集划分为标注样本集L和未标注样本集U;将标注样本集L划分为训练集Tr、验证集Va和测试集Te;将未标注样本集U划分为多个子集;步骤二:对训练集Tr进行预处理,获取训练集Tr中各训练样本的文本序列和标签序列;步骤三:通过对开源模型进行继续预训练获取多个预训练语言模型,通过预训练语言模型进行模型迁移,得到多个关键要素抽取基模型;步骤四:结合训练集Tr中各训练样本的文本序列和标签序列,对训练集Tr进行基于语义的数据增强,得到增强集En;步骤五:通过增强集En对多个关键要素抽取基模型进行参数更新;步骤六:对验证集Va进行预处理,获取验证集Va中各验证样本的文本序列和标签序列后分别输入至各个关键要素抽取基模型中,确定各个关键要素抽取基模型对应的最优关键要素抽取基模型;步骤七:判断是否满足训练停止准则;若满足训练停止准则,执行步骤十,若不满足训练停止准则,执行步骤八;步骤八:将未标注样本集U中的一个子集输入各个最优关键要素抽取基模型中,获取对应的已标注价值样本集;步骤九:将步骤八中获取的已标注价值样本集加入训练集Tr中,将步骤八中的子集从未标注样本集U中移除;再重复步骤四至步骤九,直至满足训练停止准则;步骤十:通过最优关键要素抽取基模型对测试集Te进行关键要素抽取。2.根据权利要求1所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤三包括:步骤3.1:通过舆情语料库对开源模型进行继续预训练,得到相应的预训练语言模型,所述预训练语言模型包括:DeBERTa模型、LEBERT模型、CogBERT模型、SyntaxBERT模型和Sentence
‑
BERT模型;步骤3.2:对部分预训练语言模型进行模型迁移,得到的关键要素抽取基模型包括:DeBERTa
‑
BiONLSTM
‑
MHA
‑
MCRF模型、LEBERT
‑
BiONLSTM
‑
MHA
‑
MCRF模型和CogBERT
‑
BiONLSTM
‑
MHA
‑
MCRF模型。3.根据权利要求2所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤四包括:步骤4.1:定义训练集Tr中的第i个训练样本tr
i
的文本序列为s
i
、标签序列为l
i
,通过SyntaxBERT模型获取文本序列s
i
中各字符的语义向量,并根据文本序列s
i
、标签序列l
i
提取训练样本tr
i
中的各个实体样本形成实体样本子集Ent
i
,实体样本子集中的第j个实体样本ent
j
=<StrEnt
j
,Type
j
>,其中StrEnt
j
为实体样本ent
j
的字符串表示,Type
j
为实体样本ent
j
的实体类别;步骤4.2:对StrEnt
j
的字符的语义向量求平均值,获取实体样本ent
j
对应的实体向量entEmb
j
;步骤4.3:将所有训练样本对应的实体样本子集中的实体样本构成训练集的实体样本集Ent,计算实体样本集Ent中任意两个实体样本的实体向量之间的余弦相似度Sim,当Sim≥σ且两个实体样本的实体类别相同时,将这两个实体样本分别加入对方的语义邻居集合
中,σ为预设的实体相似性阈值;步骤4.4:遍历每一个训练样本tr
i
,若实体样本ent
j
的语义邻居集合不是空集,则在ent
j
的语义邻居集合中选取一个实体样本对ent
j
进行替换,得到增强文本序列s
i*
及其对应的标签序列l
i*
,从而得到待评估的句子对样本pair
i
=<s
i
,s
i*
>;步骤4.5:通过Sentence
‑
BERT模型获取每一个待评估的句子对样本的句向量,其中s
i
的句向量为SenEmb
i
,s
i*
的句向量为SenEmb
i*
,计算SenEmb
i
和SenEmb
i*
之间的余弦相似性SimSem,当SimSem≥β时,将增强文本序列s
i*
及其对应的标签序列l
i*
作为扩充样本,并将所有的扩充样本加入训练集Tr中,得到增强集En;其中β为预设的句子相似性阈值。4.根据权利要求3所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤六中,以整个训练过程中各个关键要素抽取基模型中F1值最高的模型参数作为对应的各个最优关键要素抽取基模型的模型参数。5.根据权利要求4所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤七中,训练停止准则是各个最优关键要素抽取基模型在验证集Va上的性能均已达到预设性能阈值α,或者是训练集Tr已经达到预设数据量。6.根据权利要求4所述的一种长文本的关键要素抽取方法,其特征在于,所述步骤八包括:步骤8.1:通过最优关键要素抽取基模型对子集US中的各个未标注样本u
m
【专利技术属性】
技术研发人员:李芳芳,曾咏哲,胡世雄,罗垲炜,甘甜,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。