基于TextCNN模型的文本分类方法、装置、设备及介质制造方法及图纸

技术编号：39054528 阅读：14 留言：0更新日期：2023-10-12 19:47

本申请涉及人工智能技术领域以及数字医疗领域，公开了一种基于TextCNN模型的文本分类方法、装置、设备及介质，其方法包括：获取文本作为训练样本集，利用标注样本集对预训练模型进行微调，得到训练好的基于Bertbase的文本分类模型，基于训练好的Bertbase的文本分类模型对未标注样本集进行预测，选取logits中权重大于阈值∈的类别标签的文本，并将文本填充到标注样本集从而形成扩展样本集；基于扩展样本集训练TextCNN文本分类模型，利用标注样本集再次微调TextCNN文本分类模型，得到最终文本分类模型；基于训练后的最终文本分类模型，执行文本分类任务，本申请可提高模型分类的准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
基于TextCNN模型的文本分类方法、装置、设备及介质

[0001]本申请是关于人工智能
以及数字医疗领域，特别是关于一种基于TextCNN模型的文本分类方法、装置、设备及介质。

技术介绍

[0002]在自然语言处理(NLP)领域，文本分类任务有广泛的应用，比如：垃圾过滤，新闻分类，情感分析、医疗文本分类等等。文本分类的相关技术已经取得了很大进展，但是在医疗领域中，文本分类任务与普通场景下的文本分类任务有一定区别，医疗领域专业性较强，含有大量的医学专业名称，二是医疗领域中的文本数量偏少，难以在模型获得充分训练。
[0003]随着Bert等预训练模型在自然语言处理领域的快速发展，越来越多的预训练模型应运而生。在文本分类领域，通常将文本输入到预训练模型中，通过微调预训练模型完成分类模型的训练。但是由于Bert等预训练模型参数较多，且推理时间较长往往导致难以运用到实际的场景中。另一方面，模型训练过程中通常需要大量的数据，才能使得最终的结果较好，但是现实中往往没有大量的标注数据，而且标注数据需要大量的人力物力。如何提高文本分类的准确率是亟待解决的技术问题。

技术实现思路

[0004]本申请实施例针对上述情况，提出一种基于TextCNN模型的文本分类方法、装置、设备及介质，通过将实体词和关键词信息融入到Bert模型的输入中，提高模型分类的准确率。
[0005]第一方面，本申请实施例提供了一种基于TextCNN模型的文本分类方法，所述方法包括：
[0006]获取文本作为训练样本集，所...

【技术保护点】

【技术特征摘要】
1.一种基于TextCNN模型的文本分类方法，其特征在于，所述方法包括：获取文本作为训练样本集，所述训练样本集包括有标注训练样本集和未标注训练样本集；利用所述标注样本集D
A
对预训练模型进行微调，得到训练好的基于Bertbase的文本分类模型M
t
，所述预训练模型为Bert模型；基于训练好的所述Bertbase的文本分类模型M
t
对所述未标注样本集D
B
进行预测，选取logits中权重大于阈值∈的类别标签的文本，并将所述文本填充到所述标注样本集D
A
从而形成扩展样本集基于所述扩展样本集训练TextCNN文本分类模型M
s
，利用所述标注样本集D
A
再次微调所述TextCNN文本分类模型M
s
，得到最终文本分类模型基于训练后的最终文本分类模型执行文本分类任务。2.如权利要求1所述的基于TextCNN模型的文本分类方法，其特征在于，利用所述标注样本集D
A
对预训练模型进行微调进一步包括：将标注样本集D
A
作为预训练模型的输入，对预训练模型进行训练，获得Bertbase的文本分类模型M
t
。3.如权利要求2所述的基于TextCNN模型的文本分类方法，其特征在于，所述将标注样本集D
A
作为预训练模型的输入，对预训练模型进行训练，获得Bertbase的文本分类模型M
t
进一步包括：将所述标注样本集D
A
转化为Token序列，所述Token序列利用tokenize转换为所述Token序列，其中所述tokenize为分词器；将所述Token序列输入预训练模型进行训练，得到Bertbase的文本分类模型M
t
。4.如权利要求1所述的基于TextCNN模型的文本分类方法，其特征在于，所述利用所述标注样本集D
A
再次微调所述TextCNN文本分类模型M
s
，进一步包括：将标注样本集D
A
...

【专利技术属性】
技术研发人员：陈浩，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人