System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多粒度文本特征的文本分类方法及系统技术方案_技高网

一种基于多粒度文本特征的文本分类方法及系统技术方案

技术编号:40601321 阅读:3 留言:0更新日期:2024-03-12 22:05
本发明专利技术涉及多粒度文本技术领域,具体为一种基于多粒度文本特征的文本分类方法及系统,包括:其中,所述文本样本包括三通道的文本向量模型层、基分类器层和集成结果层;所述三通道的文本向量模型层包括第一通道、第二通道以及第三通道,所述基分类器层包括第一基分类器组A、第二基分类器组B以及第三基分类器组C。本发明专利技术通过在第一通道的作用下,实现将文本样本传输至包含字符级信息的文本向量,通过在第二通道的作用下,实现将文本样本传输至包含词语级信息的文本向量,通过在第三通道的作用下,实现将文本样本传输至包含句子级信息的文本向量,通过文本样本在第一通道和第二通道以及第三通道的作用下,实现将文本样本采用知识补充的方法进行分类。

【技术实现步骤摘要】

本专利技术涉及多粒度文本,具体为一种基于多粒度文本特征的文本分类方法及系统


技术介绍

1、chatgpt进行多粒度文本分类的实现方法是基于多层次的特征提取和融合的模型,对文本进行分类,具体实现时,可以使用深度学习模型,例如rnn、cnn、transformeer等,对文本的不同粒度特征进行提取,在特征融合方面,可以利用多种融合方法,例如特征叠加、特征加权、特征拼接等,将不同粒度的特征进行融合,现有的半监督文本分类的做法,使用单一种类的分类器,以及运用重采样和随机子空间的方法获取样本分歧时,存在样本或特征丢失的问题,对半监督分类的效果有较大的影响;另外,传统的半监督文本分类模型主要使用单一粒度的语言模型,会存在语义不完整、无法解决一词多义等问题,也会导致半监督文本分类效果不理想。


技术实现思路

1、本专利技术的目的在于提供一种基于多粒度文本特征的文本分类方法及系统,以解决上述
技术介绍
中提出的现有的半监督文本分类的做法,使用单一种类的分类器,以及运用重采样和随机子空间的方法获取样本分歧时,存在样本或特征丢失的问题,对半监督分类的效果有较大的影响;另外,传统的半监督文本分类模型主要使用单一粒度的语言模型,会存在语义不完整、无法解决一词多义等问题,也会导致半监督文本分类效果不理想的问题。

2、为实现上述目的,本专利技术提供如下技术方案,一种基于多粒度文本特征的文本分类方法及系统,包括:

3、其中,所述文本样本包括三通道的文本向量模型层、基分类器层和集成结果层;所述三通道的文本向量模型层包括第一通道、第二通道以及第三通道,所述基分类器层包括第一基分类器组a、第二基分类器组b以及第三基分类器组c。

4、优选的,所述第一通道连接有包含字符级信息的文本向量,所述文本样本通过第一通道传输至包含字符级信息的文本向量。

5、优选的,所述第二通道连接有包含词语级信息的文本向量,所述文本样本通过第二通道传输至包含词语级信息的文本向量。

6、优选的,所述第三通道连接有包含句子级信息的文本向量,所述文本样本通过第三通道传输至包含句子级信息的文本向量,所述包含字符级信息的文本向量和包含词语级信息的文本向量,以及包含句子级信息的文本向量通过采用知识补充的方法,融合文本自生信息和外部引入知识信息,实现细粒度短文本分类。

7、优选的,其中,所述短文本分类连接有基分类器组a,所述基分类器组a连接集成结果层。

8、优选的,所述短文本分类连接有基分类器组b,所述基分类器组b连接集成结果层。

9、优选的,所述短文本分类连接有基分类器组c,所述基分类器组c连接集成结果层。

10、与现有技术相比,本专利技术的有益效果是:

11、1、通过在第一通道的作用下,实现将文本样本传输至包含字符级信息的文本向量,通过在第二通道的作用下,实现将文本样本传输至包含词语级信息的文本向量,通过在第三通道的作用下,实现将文本样本传输至包含句子级信息的文本向量,通过文本样本在第一通道和第二通道以及第三通道的作用下,实现将文本样本采用知识补充的方法进行分类,达到降低样本或特征丢失的效果。

12、2、通过在基分类器组a的作用下,实现将分类后短文本进行处理的作用,通过在基分类器组b的作用下,实现将分类后短文本进行处理的作用,通过在基分类器组c的作用下,实现将分类后短文本进行处理的作用,通过在基分类器组a和基分类器组b以及基分类器组c的作用下,实现将文本进行处理的作用,达到将结果传输至集成结果层的效果。

本文档来自技高网...

【技术保护点】

1.一种基于多粒度文本特征的文本分类方法及系统,包括文本样本,其特征在于:

2.根据权利要求1所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述第一通道连接有包含字符级信息的文本向量,所述文本样本通过第一通道传输至包含字符级信息的文本向量。

3.根据权利要求1所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述第二通道连接有包含词语级信息的文本向量,所述文本样本通过第二通道传输至包含词语级信息的文本向量。

4.根据权利要求1所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述第三通道连接有包含句子级信息的文本向量,所述文本样本通过第三通道传输至包含句子级信息的文本向量,所述包含字符级信息的文本向量和包含词语级信息的文本向量,以及包含句子级信息的文本向量通过采用知识补充的方法,融合文本自生信息和外部引入知识信息,实现细粒度短文本分类。

5.根据权利要求1所述的一种基于多粒度文本特征的文本分类方法及系统,包括短文本分类,其特征在于:其中,所述短文本分类连接有基分类器组A,所述基分类器组A连接集成结果层。

6.根据权利要求5所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述短文本分类连接有基分类器组B,所述基分类器组B连接集成结果层。

7.根据权利要求5所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述短文本分类连接有基分类器组C,所述基分类器组C连接集成结果层。

...

【技术特征摘要】

1.一种基于多粒度文本特征的文本分类方法及系统,包括文本样本,其特征在于:

2.根据权利要求1所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述第一通道连接有包含字符级信息的文本向量,所述文本样本通过第一通道传输至包含字符级信息的文本向量。

3.根据权利要求1所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述第二通道连接有包含词语级信息的文本向量,所述文本样本通过第二通道传输至包含词语级信息的文本向量。

4.根据权利要求1所述的一种基于多粒度文本特征的文本分类方法及系统,其特征在于:所述第三通道连接有包含句子级信息的文本向量,所述文本样本通过第三通道传输至包含句子级信息的文本向量,所述包...

【专利技术属性】
技术研发人员:符甜
申请(专利权)人:深圳火星语盟科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1