文本分类方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:38852984 阅读:33 留言:0更新日期:2023-09-17 10:00
本申请涉及人工智能技术领域及数字医疗技术领域,公开了一种文本分类方法、装置、电子设备及计算机可读存储介质,其方法包括:对待分类文本进行预处理,得到文本特征信息和额外特征信息;对额外特征信息进行编码处理,得到额外特征向量;基于文本分类模型的编码层,对文本特征信息与额外特征向量进行信息融合,得到编码层输出;基于文本分类模型的分类层,对编码层输出进行预测,得到文本分类结果。本申请通过在待分类文本中原本的文本特征向量中增加蕴含着特定场景的重要信息的额外特征向量,使得额外特征和文本特征充分融合,更加全面地利用待分类文本的特征,极大程度提升了文本分类的准确率;且处理逻辑简单,算力需求小,实用性强。实用性强。实用性强。

【技术实现步骤摘要】
文本分类方法、装置、电子设备及计算机可读存储介质


[0001]本公开涉及人工智能
及数字医疗
,具体而言,涉及一种文本分类方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]在自然语言处理领域,文本分类任务所使用的模型的输入通常仅包含文本形式的数据,比如,字、词语、单词等,而在现实场景中,一条文本往往不仅包括文本形式的数据,而且还包含蕴含着特定场景的重要信息的额外特征数据,比如,标题、表情符号等。如何将这些额外特征数据融入到模型中,成为了许多学者研究的热点。
[0003]现有技术中,通常只考虑文本特征数据,而忽略了上述的额外特征数据,导致文本分类任务的准确率较低。因此,亟需一种提高文本分类任务准确率的方法。

技术实现思路

[0004]针对上述情况,本申请实施例提供了一种文本分类方法、装置、电子设备及计算机可读存储介质,旨在解决提高文本分类任务的准确率的问题。
[0005]第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
[0006]对待分类文本进行预处理,得到文本特征本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:对待分类文本进行预处理,得到文本特征信息和额外特征信息,其中,所述额外特征信息包括以下至少一项:额外文本特征信息、离散型特征信息和连续型特征信息;对所述额外特征信息进行编码处理,得到额外特征向量;基于文本分类模型的编码层,对所述文本特征信息与所述额外特征向量进行信息融合,得到编码层输出;基于所述文本分类模型的分类层,对所述编码层输出进行预测,得到文本分类结果。2.根据权利要求1所述的方法,其特征在于,所述额外特征信息包括所述额外文本特征信息、所述离散型特征信息和所述连续型特征信息;所述对所述额外特征信息进行编码处理,得到额外特征向量,包括:对所述额外文本特征信息进行分词处理,得到词集合,并基于词向量模型对所述词集合进行编码处理,得到额外文本向量;对所述离散型特征信息进行分类处理,得到离散型向量;对所述连续型特征信息进行归一化以及向量化处理,得到连续型向量;将所述额外文本向量、所述离散型向量和所述连续型向量融合,得到所述额外特征向量。3.根据权利要求2所述的方法,其特征在于,所述将所述额外文本向量、所述离散型向量和所述连续型向量融合,得到所述额外特征向量,包括:对所述额外文本向量、所述离散型向量和所述连续型向量进行平均化处理,得到所述额外特征向量。4.根据权利要求1所述的方法,其特征在于,所述基于文本分类模型的编码层,对所述文本特征信息与所述额外特征向量进行信息融合,得到编码层输出,包括:基于所述编码层,对所述文本特征信息进行编码处理,得到多个token;将所述额外特征向量与各所述token分别融合,得到多个融合token;将所述多个融合token作为所述编码层输出。5.根据权利要求1所述的方法,其特征在于,所述文本分类模型是根据下述方法训练得到的:获取训练样本集,所述训练样本集中包括多个训练文本和对应的样本标签;对所述训练样本集中的各训练文本进行预处理,得到多个文本特征信息和多个额外特征信息;其中,所述额外特征信息包括以下至少一项...

【专利技术属性】
技术研发人员:陈浩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1