文本分类展示方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号：34935625 阅读：11 留言：0更新日期：2022-09-15 07:32

本公开的实施例公开了文本分类展示方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取待分类文本；将上述待分类文本输入至预先训练的文本分类模型包括的动态规划切分层，得到待分类子文本集合；将上述待分类子文本集合输入至上述向量生成层，得到待分类子文本向量集合；将上述待分类子文本向量集合输入至上述向量融合层，得到待分类文本向量；将上述待分类文本向量输入至上述分类输出层，得到文本类别标签；在文本展示窗口包括的对应上述文本类别标签的文本展示区域对上述待分类文本进行展示。该实施方式提高了对文本进行分类的准确率。对文本进行分类的准确率。对文本进行分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类展示方法、装置、电子设备和计算机可读介质

[0001]本公开的实施例涉及文本分类
，具体涉及文本分类展示方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]随着互联网的发展，在各种各样的场景下往往会产生大量的文本。在使用或处理文本前，通常需要对文本进行分类。例如，对于新闻文本，需要将新闻文本进一步分类为体育新闻、社会新闻等，再分门别类地呈现给观看新闻的用户。目前，在进行文本分类时，可以采用BERT模型。
[0003]然而，当采用上述方式进行文本分类时，经常会存在如下技术问题：第一，对于篇幅较长的文本，BERT模型会采取截断处理，丢弃文本中超出预设文本长度阈值的部分，无法根据整个文本生成文本类别标签，导致文本的分类准确率较低。
[0004]第二，预先指定待训练的模型以及模型的损失函数，无法通过比较将表现效果更好的模型和损失函数作为待训练的模型和损失函数，进一步造成模型对于文本的分类准确率的降低。
[0005]第三，未引入软负例，无法在构造噪声的基础上训练文本分类模型，导致模型的泛化能力较差，对文本的分类准确率较低。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0007]本公开的一些实施例提出了文本分类展示方法、装置、电子设备和计算机可读介质，来解决以上
技术介绍
部分...

【技术保护点】

【技术特征摘要】
1.一种文本分类展示方法，包括：获取待分类文本，其中，所述待分类文本的文本长度大于等于预设文本长度阈值；将所述待分类文本输入至预先训练的文本分类模型包括的动态规划切分层，得到待分类子文本集合，其中，所述文本分类模型包括所述动态规划切分层、向量生成层、向量融合层和分类输出层；将所述待分类子文本集合输入至所述向量生成层，得到待分类子文本向量集合；将所述待分类子文本向量集合输入至所述向量融合层，得到待分类文本向量；将所述待分类文本向量输入至所述分类输出层，得到文本类别标签；在文本展示窗口包括的对应所述文本类别标签的文本展示区域对所述待分类文本进行展示。2.根据权利要求1所述的方法，其中，所述文本分类模型是通过以下步骤训练得到的：获取初始样本集合，其中，所述初始样本集合中的初始样本包括样本文本，以及与所述样本文本对应的样本文本类别标签，所述样本文本的样本文本长度大于等于所述预设文本长度阈值；从所述初始样本集合中提取至少一个初始样本作为样本集合；对于样本集合包括的每个样本，执行以下向量生成步骤：将所述样本包括的样本文本输入至所述动态规划切分层，以对所述样本文本进行动态规划切分处理，得到样本子文本集合；对于所述样本子文本集合中的每个样本子文本，将所述样本子文本输入至所述向量生成层包括的预先训练的向量生成模型，得到样本子文本向量，以生成对应所述样本子文本集合的样本子文本向量集合；将所述样本子文本向量集合输入至所述向量融合层包括的图神经网络模型，得到样本文本向量；基于样本集合和所得到的各个样本文本向量，对待训练的文本分类模型进行模型训练，得到训练完成的文本分类模型作为所述文本分类模型。3.根据权利要求2所述的方法，其中，所述对待训练的文本分类模型进行模型训练，包括：将所得到的各个样本文本向量输入至所述分类输出层包括的目标神经网络模型，得到样本集合中的每个样本对应的预测样本文本类别标签；将所述样本集合中的每个样本对应的预测样本文本类别标签与所述样本包括的样本文本类别标签进行比较；根据比较结果确定文本分类模型是否达到预设的优化目标；响应于确定文本分类模型达到所述优化目标，将达到所述优化目标的文本分类模型作为训练完成的文本分类模型；响应于确定文本分类模型未达到所述优化目标，调整文本分类模型的网络参数，以及使用所述初始样本集合中未提取过的初始样本组成样本集合，使用调整后的文本分类模型作为待训练的文本分类模型，再次执行所述向量生成步骤和对待训练的文本分类模型进行的模型训练。4.根据权利要求2所述的方法，其中，所述将所述样本包括的样本文本输入至所述动态
规划切分层，包括：根据所述样本包括的样本文本中的标点符号，对所述样本文本进行分割处理，得到分割处理后的各个样本子片段作为样本子片段集合；根据所述样本子片段集合，生成候选样本子文本集合；根据所述候选样本子文本集合，构建候选节点有向无环图，其中，所述候选节点有向无环图包括至少一个候选节点和一个虚拟节点，每个候选节点对应一个候选样本子文本；根据所述候选节点有向无环图，生成至少一个候选路径；从所述至少一个候选路径中选择满足预设路径条件的候选路径作为目标路径；将所述目标路径对应的各个候选节点确定为目标节点集合；将所述目标节点集合中...

【专利技术属性】
技术研发人员：赵祥，李建华，王静宇，张昆鹏，马亚中，王辉，郭宝松，
申请(专利权)人：中关村科学城城市大脑股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人