一种长文本分类方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:44845903 阅读:21 留言:0更新日期:2025-04-01 19:41
本发明专利技术提供一种长文本分类方法、装置、设备、介质及程序产品,该方法包括:在目标长文本中随机添加第一标记和第二标记对目标长文本进行分割,将目标长文本分为前中后三部分;对目标长文本分的前中后三部分的文本进行处理,得到目标短文本,组成句子片段集合;获取得到所有目标短文本的处理过程中形成的长文本分割层次;根据句子片段集合和长文本分割层次,得到长文本图结构及其对应的长文本图向量;根据目标短文本的子标签,得到标签图结构及其对应的标签图向量;将长文本图结构及其对应的长文本图向量与标签图结构及其对应的标签图向量进行对比匹配,确定长文本的分类结果。本发明专利技术中,通过层次填充分割,有效准确的分割长文本。

【技术实现步骤摘要】

本专利技术实施例涉及人工智能,尤其涉及一种长文本分类方法、装置、设备、介质及程序产品


技术介绍

1、在目前文本分类中,长文本层次标签的分类算是比较典型的一类任务,对于长文本,通过文本截断,提取文本前n个字符、尾部n个字符或者头尾结合的方式,把长文本当做一般文本的方式去处理算是一种快捷的方式。在此基础上,就是将长文本切分成多段,然后通过编码器分别去提取多段文本的特征向量,通过融合特征向量的形式对长文本进行分类。但将长文本通过简单截断,这种简单粗暴的方式必然会丢失大量文本的信息,没有考虑到标签之间的内在联系,包括标签之间的层次性和互斥性,以偏概全的对文本进行处理,从而影响长文本整体的语义判断。


技术实现思路

1、本专利技术实施例提供一种长文本分类方法、装置、设备、介质及程序产品,以解决现有的长文本的截断分割的分类过程中容易丢失文本信息,影响长文本的语义判断的问题。

2、为了解决上述技术问题,本专利技术是这样实现的:

3、第一方面,本专利技术实施例提供了一种长文本分类方法,包括:

<本文档来自技高网...

【技术保护点】

1.一种长文本分类方法,其特征在于,包括:

2.根据权利要求1所述的长文本分类方法,其特征在于,所述将所述长文本图结构及其对应的所述长文本图向量与所述标签图结构及其对应的标签图向量进行对比匹配,确定长文本的分类结果,包括:

3.根据权利要求1所述的长文本分类方法,其特征在于,所述基于预设的最短文本阈值和最长文本阈值,对所述目标长文本分的前中后三部分的文本进行处理,包括:

4.根据权利要求1所述的长文本分类方法,其特征在于,所述根据所述句子片段集合和所述长文本分割层次,得到长文本图结构及其对应的长文本图向量,包括:

5.根据权利要求4所述的长...

【技术特征摘要】

1.一种长文本分类方法,其特征在于,包括:

2.根据权利要求1所述的长文本分类方法,其特征在于,所述将所述长文本图结构及其对应的所述长文本图向量与所述标签图结构及其对应的标签图向量进行对比匹配,确定长文本的分类结果,包括:

3.根据权利要求1所述的长文本分类方法,其特征在于,所述基于预设的最短文本阈值和最长文本阈值,对所述目标长文本分的前中后三部分的文本进行处理,包括:

4.根据权利要求1所述的长文本分类方法,其特征在于,所述根据所述句子片段集合和所述长文本分割层次,得到长文本图结构及其对应的长文本图向量,包括:

5.根据权利要求4所述的长文本分类方法,其特征在于,所述根据所述句子特征向量计算所述句子片段集合中的每个所述目标短文本与其对应的子标签的匹配关系,包括:<...

【专利技术属性】
技术研发人员:钱博文张媛媛
申请(专利权)人:中移苏州软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1