超长文本的分类方法技术

技术编号:39656689 阅读:15 留言:0更新日期:2023-12-09 11:25
本申请提供一种超长文本的分类方法

【技术实现步骤摘要】
超长文本的分类方法、装置、设备及存储介质


[0001]本申请涉及人工智能技术,尤其涉及一种超长文本的分类方法

装置

设备及存储介质


技术介绍

[0002]随着社会以及工作需要发展,产生大量数据,其中的数据可以为超长文本,在一些场景中,为了对超长文本进行有序保存,可以将各超长文本进行分类,然后将同种类型或近同种类型保存至同一存储路径中,以实现超长文本的有序保存

[0003]现有技术中将一大串超长文本进行分割成多个文本片段,并得到各文本片段对应的特征向量,又将各对应的特征向量融合得到目标特征向量,然后将目标特征向量输入至预设分类模型中,以获得超长文本的分类结果

[0004]然而,现有技术中对超长文本按照从左到右依次平均分割,得到多个文本片段,基于多个文本片段进行分类时,容易导致超长文本的分类结果准确率较低


技术实现思路

[0005]本申请提供一种超长文本的分类方法

装置

设备及存储介质,用以解决超长文本的分类结果准确率较低的问题

[0006]第一方面,本申请提供一种超长文本的分类方法,所述方法包括:
[0007]获取待分类的目标超长文本;
[0008]对所述目标超长文本进行分割,以获得多个目标文本片段;所述多个目标文本片段的字符长度相同;任一所述目标文本片段中的部分片段与其相邻的目标文本片段的部分片段存在重叠;所述部分片段包括前部分片段及后部分片段的至少一种;
[0009]确定各目标文本片段对应的目标文本向量;
[0010]将各所述目标文本向量输入至训练至收敛的文本分类模型,采用所述训练至收敛的文本分类模型获得所述目标超长文本的分类结果;所述训练至收敛的文本分类模型采用训练样本集对初始文本分类模型进行训练获得的,所述训练样本集中包括多个训练样本;所述训练样本包括多个训练文本向量及其对应的实际分类子结果;所述多个训练文本向量是基于所述多个训练文本片段获得的;所述多个训练文本片段是所述训练超长文本分割而成的;所述多个训练文本片段的字符长度相同;任一所述训练文本片段的部分片段与其相邻的训练文本片段的部分片段存在重叠

[0011]第二方面,本申请提供一种超长文本的分类装置,所述装置包括:
[0012]获取模块,用于获取待分类的目标超长文本;
[0013]分割模块,用于对所述目标超长文本进行分割,以获得多个目标文本片段;所述多个目标文本片段的字符长度相同;任一所述目标文本片段中的部分片段与其相邻的目标文本片段的部分片段存在重叠;所述部分片段包括前部分片段及后部分片段的至少一种;
[0014]确定模块,用于确定各目标文本片段对应的目标文本向量;
[0015]获得模块,用于将各所述目标文本向量输入至训练至收敛的文本分类模型,采用所述训练至收敛的文本分类模型获得所述目标超长文本的分类结果;所述训练至收敛的文本分类模型采用训练样本集对初始文本分类模型进行训练获得的,所述训练样本集中包括多个训练样本;所述训练样本包括多个训练文本向量及其对应的实际分类子结果;所述多个训练文本向量是基于所述多个训练文本片段获得的;所述多个训练文本片段是所述训练超长文本分割而成的;所述多个训练文本片段的字符长度相同;任一所述训练文本片段的部分片段与其相邻的训练文本片段的部分片段存在重叠

[0016]第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器和收发器;
[0017]所述存储器存储计算机执行指令;所述收发器,用于收发数据;
[0018]所述处理器执行所述存储器存储的计算机执行指令,以实现如上述第一方面或任一项方式中所述的方法

[0019]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述第一方面或任一项方式中所述的方法

[0020]第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述第一方面或任一项方式中所述的方法

[0021]第六方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述第一方面或任一项方式中所述的方法
[0022]本申请提供的一种超长文本的分类方法

装置

设备及存储介质,本申请中超长文本的分类装置
(
以下简称分类装置
)
获取待分类的目标超长文本后,对其进行分割,从而获得多个目标文本片段,本申请中任一目标文本片段中的部分片段与其相邻的目标文本片段的部分片段存在重叠,由于存在部分重叠,所以各目标文本片段之间具有联系,从而将各目标文本片段中的字符能够有所连接,任一目标文本片段能够承上启下,而不是互相脱离状态,所以目标文本片段更加合理,进一步使得目标文本向量更加合理,接着确定各目标文本片段对应的目标文本向量,进而将各目标文本向量输入至训练至收敛的文本分类模型,以获得分类结果;本申请中的训练至收敛的文本分类模型是基于多个训练样本训练而成的,而本申请中的训练文本片段也是与其相邻的训练文本片段存在部分重叠,由此可见,在训练阶段,也是控制训练文本片段之间具有联系,从而使得训练文本片段更加合理,从而基于合理的训练文本片段训练而成的模型也会更加优化,进而本申请中采用更加优化的训练至收敛的文本分类模型对目标文本向量进行分类,从而能够获得准确度更好的分类结果

附图说明
[0023]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理

[0024]图1为本申请提供的一种超长文本的分类方法的应用场景图;
[0025]图2为实施例一提供的一种超长文本的分类方法流程示意图;
[0026]图3为实施例一提供的多个目标文本片段示意图;
[0027]图4为实施例三提供的一种超长文本的分类方法流程示意图;
[0028]图5为实施例四提供的一种超长文本的分类方法流程示意图;
[0029]图6为实施例六提供的一种超长文本的分类方法流程示意图;
[0030]图7为实施例七提供的一种超长文本的分类方法流程示意图;
[0031]图8为实施例九提供的一种超长文本的分类装置结构示意图;
[0032]图9为实施例十提供的一种电子设备结构示意图

[0033]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述

这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念

具体实施方式
[0034]这里将详细地对示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种超长文本的分类方法,其特征在于,所述方法包括:获取待分类的目标超长文本;对所述目标超长文本进行分割,以获得多个目标文本片段;所述多个目标文本片段的字符长度相同;任一所述目标文本片段中的部分片段与其相邻的目标文本片段的部分片段存在重叠;所述部分片段包括前部分片段及后部分片段的至少一种;确定各目标文本片段对应的目标文本向量;将各所述目标文本向量输入至训练至收敛的文本分类模型,采用所述训练至收敛的文本分类模型获得所述目标超长文本的分类结果;所述训练至收敛的文本分类模型采用训练样本集对初始文本分类模型进行训练获得的,所述训练样本集中包括多个训练样本;所述训练样本包括多个训练文本向量及其对应的实际分类子结果;所述多个训练文本向量是基于所述多个训练文本片段获得的;所述多个训练文本片段是所述训练超长文本分割而成的;所述多个训练文本片段的字符长度相同;任一所述训练文本片段的部分片段与其相邻的训练文本片段的部分片段存在重叠
。2.
根据权利要求1所述的方法,其特征在于,所述目标文本片段中包括至少一个目标字符;所述确定各目标文本片段对应的目标文本向量,包括:针对各目标文本片段,分别采用预设编码算法对其包括的至少一个目标字符进行向量编码,以获得至少一个目标字符对应的向量;针对各目标文本片段,将至少一个目标字符对应的向量进行拼接,以获得各目标文本片段对应的目标文本向量
。3.
根据权利要求1所述的方法,其特征在于,所述将各所述目标文本向量输入至训练至收敛的文本分类模型之前,所述方法还包括:获取多个训练超长文本;将各所述训练超长文本分别分割成多个训练文本片段;所述多个训练文本片段的字符长度相同;任一所述训练文本片段的部分片段与其相邻的训练文本片段的部分片段存在重叠;针对各训练超长文本,基于所述多个训练文本片段获得对应的多个训练文本向量,并将所述多个训练文本向量及其对应的实际分类子结果确定为训练样本,以获得训练样本集;采用所述训练样本集对初始文本分类模型进行训练,以获得训练至收敛的文本分类模型
。4.
根据权利要求3所述的方法,其特征在于,所述采用所述训练样本集对初始文本分类模型进行训练,以获得训练至收敛的文本分类模型,包括:针对各训练样本的各训练文本向量,根据当前训练文本向量确定当前输入特征;将当前输入特征输入至所述初始文本分类模型中,以获得当前输出特征;响应于获得当前输出特征后,将排序在下一位的训练文本向量作为当前训练文本向量,并继续执行从根据当前训练文本向量确定当前输入特征到将当前输入特征输入至所述初始文本分类模型中的步骤,直到获得所有训练文本向量对应的输出特征;根据各训练文本向量对应的输出特征确定是否满足预设收敛条件;
响应于满足预设收敛条件,将满足收敛条件的文本分类模型确定为训练至收敛的文本分类模型
。5.
根据权利要求4所述的方法,其特征在于,若所述当前训练文本向量为排序在第一位的训练文本向量;所述根据当前训练文本向量确定当前输入特征,包括:将所述当前训练文本向量确定为当前输入特征
。6.
根据权利要求4所述的方法,其特征在于,若所述当前训练文本向量不为排序在第一位的训练文本向量;所述根据当前训练文本向量确定当前输入特征,包括:将上一训练文本向量的输出特...

【专利技术属性】
技术研发人员:卢健
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1