超长文本的分类方法技术

技术编号：39656689 阅读：15 留言：0更新日期：2023-12-09 11:25

本申请提供一种超长文本的分类方法

全部详细技术资料下载

【技术实现步骤摘要】
超长文本的分类方法、装置、设备及存储介质

[0001]本申请涉及人工智能技术，尤其涉及一种超长文本的分类方法
、
装置
、
设备及存储介质
。

技术介绍

[0002]随着社会以及工作需要发展，产生大量数据，其中的数据可以为超长文本，在一些场景中，为了对超长文本进行有序保存，可以将各超长文本进行分类，然后将同种类型或近同种类型保存至同一存储路径中，以实现超长文本的有序保存
。
[0003]现有技术中将一大串超长文本进行分割成多个文本片段，并得到各文本片段对应的特征向量，又将各对应的特征向量融合得到目标特征向量，然后将目标特征向量输入至预设分类模型中，以获得超长文本的分类结果
。
[0004]然而，现有技术中对超长文本按照从左到右依次平均分割，得到多个文本片段，基于多个文本片段进行分类时，容易导致超长文本的分类结果准确率较低
。

技术实现思路

[0005]本申请提供一种超长文本的分类方法
、
装置
、
设备及存储介质，用以解决超长文本的分类结果准确率较低的问题
。
[0006]第一方面，本申请提供一种超长文本的分类方法，所述方法包括：
[0007]获取待分类的目标超长文本；
[0008]对所述目标超长文本进行分割，以获得多个目标文本片段；所述多个目标文本片段的字符长度相同；任一所述目标文本片段中的部分片段与其相邻的目标文本片段的部分片段存在重叠；所述部分片段包括前...

【技术保护点】

【技术特征摘要】
1.
一种超长文本的分类方法，其特征在于，所述方法包括：获取待分类的目标超长文本；对所述目标超长文本进行分割，以获得多个目标文本片段；所述多个目标文本片段的字符长度相同；任一所述目标文本片段中的部分片段与其相邻的目标文本片段的部分片段存在重叠；所述部分片段包括前部分片段及后部分片段的至少一种；确定各目标文本片段对应的目标文本向量；将各所述目标文本向量输入至训练至收敛的文本分类模型，采用所述训练至收敛的文本分类模型获得所述目标超长文本的分类结果；所述训练至收敛的文本分类模型采用训练样本集对初始文本分类模型进行训练获得的，所述训练样本集中包括多个训练样本；所述训练样本包括多个训练文本向量及其对应的实际分类子结果；所述多个训练文本向量是基于所述多个训练文本片段获得的；所述多个训练文本片段是所述训练超长文本分割而成的；所述多个训练文本片段的字符长度相同；任一所述训练文本片段的部分片段与其相邻的训练文本片段的部分片段存在重叠
。2.
根据权利要求1所述的方法，其特征在于，所述目标文本片段中包括至少一个目标字符；所述确定各目标文本片段对应的目标文本向量，包括：针对各目标文本片段，分别采用预设编码算法对其包括的至少一个目标字符进行向量编码，以获得至少一个目标字符对应的向量；针对各目标文本片段，将至少一个目标字符对应的向量进行拼接，以获得各目标文本片段对应的目标文本向量
。3.
根据权利要求1所述的方法，其特征在于，所述将各所述目标文本向量输入至训练至收敛的文本分类模型之前，所述方法还包括：获取多个训练超长文本；将各所述训练超长文本分别分割成多个训练文本片段；所述多个训练文本片段的字符长度相同；任一所述训练文本片段的部分片段与其相邻的训练文本片段的部分片段存在重叠；针对各训练超长文本，基于所述多个训练文本片段获得对应的多个训练文本向量，并将所述多个训练文本向量及其对应的实际分类子结果确定为训练样本，以获得训练样本集；采用所述训练样本集对初始文本分类模型进行训练，以获得训练至收敛的文本分类模型
。4.
根据权利要求3所述的方法，其特征在于，所述采用所述训练样本集对初始文本分类模型进行训练，以获得训练至收敛的文本分类模型，包括：针对各训练样本的各训练文本向量，根据当前训练文本向量确定当前输入特征；将当前输入特征输入至所述初始文本分类模型中，以获得当前输出特征；响应于获得当前输出特征后，将排序在下一位的训练文本向量作为当前训练文本向量，并继续执行从根据当前训练文本向量确定当前输入特征到将当前输入特征输入至所述初始文本分类模型中的步骤，直到获得所有训练文本向量对应的输出特征；根据各训练文本向量对应的输出特征确定是否满足预设收敛条件；
响应于满足预设收敛条件，将满足收敛条件的文本分类模型确定为训练至收敛的文本分类模型
。5.
根据权利要求4所述的方法，其特征在于，若所述当前训练文本向量为排序在第一位的训练文本向量；所述根据当前训练文本向量确定当前输入特征，包括：将所述当前训练文本向量确定为当前输入特征
。6.
根据权利要求4所述的方法，其特征在于，若所述当前训练文本向量不为排序在第一位的训练文本向量；所述根据当前训练文本向量确定当前输入特征，包括：将上一训练文本向量的输出特...

【专利技术属性】
技术研发人员：卢健，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人