基于TextCNN模型的文本分类方法、装置、设备及介质制造方法及图纸

技术编号:39054528 阅读:14 留言:0更新日期:2023-10-12 19:47
本申请涉及人工智能技术领域以及数字医疗领域,公开了一种基于TextCNN模型的文本分类方法、装置、设备及介质,其方法包括:获取文本作为训练样本集,利用标注样本集对预训练模型进行微调,得到训练好的基于Bertbase的文本分类模型,基于训练好的Bertbase的文本分类模型对未标注样本集进行预测,选取logits中权重大于阈值∈的类别标签的文本,并将文本填充到标注样本集从而形成扩展样本集;基于扩展样本集训练TextCNN文本分类模型,利用标注样本集再次微调TextCNN文本分类模型,得到最终文本分类模型;基于训练后的最终文本分类模型,执行文本分类任务,本申请可提高模型分类的准确率。率。率。

【技术实现步骤摘要】
基于TextCNN模型的文本分类方法、装置、设备及介质


[0001]本申请是关于人工智能
以及数字医疗领域,特别是关于一种基于TextCNN模型的文本分类方法、装置、设备及介质。

技术介绍

[0002]在自然语言处理(NLP)领域,文本分类任务有广泛的应用,比如:垃圾过滤,新闻分类,情感分析、医疗文本分类等等。文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,医疗领域专业性较强,含有大量的医学专业名称,二是医疗领域中的文本数量偏少,难以在模型获得充分训练。
[0003]随着Bert等预训练模型在自然语言处理领域的快速发展,越来越多的预训练模型应运而生。在文本分类领域,通常将文本输入到预训练模型中,通过微调预训练模型完成分类模型的训练。但是由于Bert等预训练模型参数较多,且推理时间较长往往导致难以运用到实际的场景中。另一方面,模型训练过程中通常需要大量的数据,才能使得最终的结果较好,但是现实中往往没有大量的标注数据,而且标注数据需要大量的人力物力。如何提高文本分类的准确率是亟待解决的技术问题。

技术实现思路

[0004]本申请实施例针对上述情况,提出一种基于TextCNN模型的文本分类方法、装置、设备及介质,通过将实体词和关键词信息融入到Bert模型的输入中,提高模型分类的准确率。
[0005]第一方面,本申请实施例提供了一种基于TextCNN模型的文本分类方法,所述方法包括:
[0006]获取文本作为训练样本集,所述训练样本集包括有标注训练样本集和未标注训练样本集;
[0007]利用所述标注样本集D
A
对预训练模型进行微调,得到训练好的基于Bertbase的文本分类模型M
i
,所述预训练模型为Bert模型;
[0008]基于训练好的所述Bertbase的文本分类模型M
t
对所述未标注样本集D
B
进行预测,选取logits中权重大于阈值∈的类别标签的文本,并将所述文本填充到所述标注样本集D
A
从而形成扩展样本集
[0009]基于所述扩展样本集训练TextCNN文本分类模型M
s
,利用所述标注样本集D
A
再次微调所述TextCNN文本分类模型M
s
,得到最终文本分类模型
[0010]基于训练后的最终文本分类模型执行文本分类任务。
[0011]第二方面,本申请实施例还提供了基于TextCNN模型的文本分类装置,所述装置包括:
[0012]获取模块,获取文本作为训练样本集,所述训练样本集包括有标注训练样本集和
未标注训练样本集;
[0013]第一模型微调模块,用于利用所述标注样本集D
A
对预训练模型进行微调,得到训练好的基于Bertbase的文本分类模型M
t

[0014]扩展样本集模块,用于基于训练好的所述Bertbase的文本分类模型M
t
对所述未标注样本集D
B
进行预测,选取logits中权重大于阈值∈的类别标签的文本,并将所述文本填充到所述标注样本集D
A
从而形成扩展样本集
[0015]第二模型微调模块,基于所述扩展样本集训练TextCNN文本分类模型M
s
,利用所述标注样本集D
A
再次微调所述TextCNN文本分类模型M
s
,得到最终文本分类模型
[0016]预测模块,用于基于训练后的所述最终文本分类模型执行文本分类任务。
[0017]第三方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
[0018]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
[0019]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0020]本申请提出了一种基于TextCNN模型的文本分类方法,通过获取文本作为训练样本集,所述训练样本集包括有标注训练样本集和未标注训练样本集;利用所述标注样本集D
A
对预训练模型进行微调,得到训练好的基于Bertbase的文本分类模型M
t
,所述预训练模型为Bert模型;基于训练好的所述Bertbase的文本分类模型M
t
对所述未标注样本集D
B
进行预测,选取logits中权重大于阈值∈的类别标签的文本,并将所述文本填充到所述标注样本集D
A
从而形成扩展样本集基于所述扩展样本集训练TextCNN文本分类模型M
s
,利用所述标注样本集D
A
再次微调所述TextCNN文本分类模型M
s
,得到最终文本分类模型基于训练后的最终文本分类模型执行文本分类任务。本申请提出的基于TextCNN模型的文本分类方法,不仅能够在标注样本集上训练,同时利用模型蒸馏的方法,从Bert模型中学习未标注样本集数据,从而使得样本集得以扩充,进而在TextCNN模型上更加充分的训练,且实验结果表明,本申请提出的方法,在医疗文本分类场景中准确率明显的提升,推理速度也明显提升。
附图说明
[0021]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1示出根据本申请的第一实施例的基于TextCNN模型的新闻分类方法的流程示意图;
[0023]图2示出根据本申请的第二实施例的基于TextCNN模型文本分类装置的结构示意图;
[0024]图3为本申请实施例中一种电子设备的结构示意图。
具体实施方式
[0025]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0027]在自然语言处理(NLP)领域,文本分类任务有广泛的应用,比如:垃圾过滤,新闻分类,情感分析、医疗文本分类等等。文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,医疗领域专业性较强,含有大量的医学专业名称,二是医疗领域中的文本数量偏少,难以在模型获得充分训练。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于TextCNN模型的文本分类方法,其特征在于,所述方法包括:获取文本作为训练样本集,所述训练样本集包括有标注训练样本集和未标注训练样本集;利用所述标注样本集D
A
对预训练模型进行微调,得到训练好的基于Bertbase的文本分类模型M
t
,所述预训练模型为Bert模型;基于训练好的所述Bertbase的文本分类模型M
t
对所述未标注样本集D
B
进行预测,选取logits中权重大于阈值∈的类别标签的文本,并将所述文本填充到所述标注样本集D
A
从而形成扩展样本集基于所述扩展样本集训练TextCNN文本分类模型M
s
,利用所述标注样本集D
A
再次微调所述TextCNN文本分类模型M
s
,得到最终文本分类模型基于训练后的最终文本分类模型执行文本分类任务。2.如权利要求1所述的基于TextCNN模型的文本分类方法,其特征在于,利用所述标注样本集D
A
对预训练模型进行微调进一步包括:将标注样本集D
A
作为预训练模型的输入,对预训练模型进行训练,获得Bertbase的文本分类模型M
t
。3.如权利要求2所述的基于TextCNN模型的文本分类方法,其特征在于,所述将标注样本集D
A
作为预训练模型的输入,对预训练模型进行训练,获得Bertbase的文本分类模型M
t
进一步包括:将所述标注样本集D
A
转化为Token序列,所述Token序列利用tokenize转换为所述Token序列,其中所述tokenize为分词器;将所述Token序列输入预训练模型进行训练,得到Bertbase的文本分类模型M
t
。4.如权利要求1所述的基于TextCNN模型的文本分类方法,其特征在于,所述利用所述标注样本集D
A
再次微调所述TextCNN文本分类模型M
s
,进一步包括:将标注样本集D
A
...

【专利技术属性】
技术研发人员:陈浩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1