文本分类方法、装置、介质及电子设备制造方法及图纸

技术编号:37846442 阅读:22 留言:0更新日期:2023-06-14 22:31
本公开涉及一种文本分类方法、装置、介质及电子设备,方法包括:获取文本图像,其中,所述文本图像为携带待分类文本的图像;确定所述待分类文本的语义向量,以及确定所述待分类文本中所有字符的字符概率对应的字符概率向量;对所述语义向量和所述字符概率向量进行融合,得到融合向量;通过预训练好的分类器对所述融合向量进行分类处理,得到所述待分类文本的分类结果,使得文本分类过程中具备文本清晰度的区分能力,进而能够在分类时可以同时考虑文本的语义信息和文本的清晰度,从而提高分类器的准确性,进而提升分类效果。进而提升分类效果。进而提升分类效果。

【技术实现步骤摘要】
文本分类方法、装置、介质及电子设备


[0001]本公开涉及自然语言处理领域,具体地,涉及一种文本分类方法、装置、介质及电子设备。

技术介绍

[0002]在信息爆炸的互联网时代,对信息的归类和结构化处理是必不可少的,而人工进行处理无法满足互联网的效率要求,因此,文本分类作为自然语言处理的最基础任务,是至关重要且不可缺少的。
[0003]在相关技术中,文本分类通常只考虑了单一的文本涵盖的语义信息,对于某些场景而言,可能存在分类不准确的情况。

技术实现思路

[0004]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]第一方面,本公开提供一种文本分类法方法,包括:
[0006]获取文本图像,其中,所述文本图像为携带待分类文本的图像;
[0007]确定所述待分类文本的语义向量,以及确定所述待分类文本中所有字符的字符概率对应的字符概率向本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取文本图像,其中,所述文本图像为携带待分类文本的图像;确定所述待分类文本的语义向量,以及确定所述待分类文本中所有字符的字符概率对应的字符概率向量;对所述语义向量和所述字符概率向量进行融合,得到融合向量;通过预训练好的分类器对所述融合向量进行分类处理,得到所述待分类文本的分类结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述待分类文本的语义向量,以及确定所述待分类文本中所有字符的字符概率对应的字符概率向量包括:通过预训练好的BERT模型提取所述待分类文本的语义向量;通过独立于所述BERT模型之外的嵌入层对所述待分类文本中所有字符的字符概率进行处理,得到所述待分类文本中所有字符的字符概率对应的字符概率向量。3.根据权利要求1所述的方法,其特征在于,所述对所述语义向量和所述字符概率向量进行融合,得到融合向量,包括:基于注意力机制对所述语义向量和所述字符概率向量进行处理,得到融合有上下文信息的字符概率向量;根据所述语义向量和融合有上下文信息的字符概率向量进行融合,得到融合向量。4.根据权利要求3所述的方法,其特征在于,所述根据所述语义向量和融合上下文信息的字符概率向量进行融合,得到融合向量,包括:采用门控融合机制对所述语义向量和融合上下文信息的字符概率向量进行融合,得到融合向量。5.根据权利要求4所述的方法,其特征在于,所述通过预训练好的分类器对所述融合向量进行分类处理,得到所述待分类文本的分类结果,包括:对所述融合向量进行残差连接和层归一化操作,得到第一融合向量;将所述第一融合向量输入到全连接层,得到所述全连接层输出的用于表征所述第一融合向量中第一个位置的...

【专利技术属性】
技术研发人员:刘泽周多友黄凯
申请(专利权)人:北京闪星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1