System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类方法、装置、计算机设备及计算机可读存储介质制造方法及图纸_技高网

文本分类方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:40099568 阅读:4 留言:0更新日期:2024-01-23 17:28
本申请公开了一种文本分类方法、装置、计算机设备及计算机可读存储介质,该方法包括:对获取的目标分类文本进行预处理,得到第一文本数据;对第一文本数据进行统计分析,得到第一统计特征;根据第一文本数据和第一统计特征,确定第一融合向量;根据第一文本数据和第一融合向量,确定目标分类文本的分类结果。本申请可以利用上下文信息及第一融合向量进行文本分类,提高分类结果的准确率。

【技术实现步骤摘要】

本申请涉及计算机,具体涉及一种文本分类方法、装置、计算机设备及计算机可读存储介质


技术介绍

1、随着大数据、深度学习及5g网络的发展,出现了图像处理、自然语言处理、语音处理等研究方向。文本分类是自然语言处理中的一项基础任务,文本分类的应用场景包括情感分析、问答任务、意图识别等,根据不同的分类需求可以设计出特定的分类算法进行文本分类。然而,现有文本分类算法的分类结果准确率低。

2、因此,现有技术还有待改进和发展。


技术实现思路

1、本申请实施例提供一种文本分类方法、装置、计算机设备及计算机可读存储介质,旨在解决现有文本分类算法的分类结果准确率低的问题。

2、本专利技术解决问题所采用的技术方案如下:

3、一方面,本申请提供一种文本分类方法,包括:

4、对获取的目标分类文本进行预处理,得到第一文本数据;

5、对第一文本数据进行统计分析,得到第一统计特征;

6、根据第一文本数据和第一统计特征,确定第一融合向量;

7、根据第一文本数据和第一融合向量,确定目标分类文本的分类结果。

8、在本申请一些实施方案中,对获取的目标分类文本进行预处理,得到第一文本数据,包括:

9、对获取的目标分类文本进行数据清洗,得到清洗后的目标分类文本;

10、对清洗后的目标分类文本进行断句处理,得到第一文本数据。

11、在本申请一些实施方案中,第一统计特征包括第一文本数据的数据特征、词频特征及主题特征,对第一文本数据进行统计分析,得到第一统计特征,包括:

12、对第一文本数据分别进行数据统计、词频分析及主题分析,得到第一文本数据的数据特征、词频特征及主题特征。

13、在本申请一些实施方案中,根据第一文本数据和第一统计特征,确定第一融合向量,包括:

14、根据第一文本数据,确定第一语义向量;

15、根据预先确定的第一融合权重对第一语义向量和第一统计特征进行融合,得到第一融合向量。

16、在本申请一些实施方案中,根据第一文本数据和第一统计特征,确定第一融合向量之前,方法还包括:

17、对获取的训练数据集中的若干训练文本分别进行预处理,得到若干训练文本中每个训练文本的第二文本数据,训练数据集中包括若干训练文本及每个训练文本的真实类别;

18、对第二文本数据进行统计分析,得到每个训练文本的第二统计特征;

19、根据第二文本数据、第二统计特征及真实类别,确定第一融合权重。

20、在本申请一些实施方案中,方法应用于文本分类模型,文本分类模型通过预设网络模型训练得到,预设网络模型包括数据映射模块和分类模块,根据第二文本数据、第二统计特征及真实类别,确定第一融合权重,包括:

21、将第二文本数据输入数据映射模块,通过数据映射模块输出每个训练文本的第二语义向量;

22、根据第二统计特征和第二语义向量,确定每个训练文本的第二融合向量;

23、将第二文本数据和第二融合向量输入分类模块,通过分类模块输出每个训练文本的预测类别;

24、基于预测类别、真实类别及预设网络模型的损失函数,确定第一融合权重。

25、在本申请一些实施方案中,根据第二统计特征和第二语义向量,确定每个训练文本的第二融合向量,包括:

26、根据第二统计特征、第二语义向量及预设的业务场景分类映射规则,确定第二融合权重;

27、根据第二融合权重对第二统计特征和第二语义向量进行融合,得到每个训练文本的第二融合向量。

28、在本申请一些实施方案中,根据第二统计特征、第二语义向量及预设的业务场景分类映射规则,确定第二融合权重,包括:

29、根据预设的第三融合权重对第二统计特征和第二语义向量进行融合,得到每个训练文本的第三融合向量;

30、对第三融合向量进行聚类,得到若干初始聚类簇;

31、根据业务场景分类映射规则和若干初始聚类簇,确定若干目标聚类簇;

32、基于若干目标聚类簇,确定第二融合权重。

33、在本申请一些实施方案中,基于若干目标聚类簇,确定第二融合权重,包括:

34、基于若干目标聚类簇,确定若干目标聚类簇中每个目标聚类簇的质心;

35、当每个目标聚类簇的质心不满足预设的第一条件时,对第三融合权重进行更新,并继续执行根据第三融合权重对第二统计特征和第二语义向量进行融合,得到每个训练文本的第三融合向量的步骤,直至每个目标聚类簇的质心满足第一条件;

36、将第三融合权重,确定为第二融合权重。

37、在本申请一些实施方案中,基于预测类别、真实类别及预设网络模型的损失函数,确定第一融合权重,包括:

38、基于预测类别、真实类别及预设网络模型的损失函数,确定损失值;

39、当损失值不满足预设的第二条件时,根据预设的参数学习率对预设网络模型的模型参数进行修正,并继续执行将第二文本数据输入数据映射模块,通过数据映射模块输出每个训练文本的第二语义向量的步骤,直至损失值满足第二条件;

40、将第二融合权重,确定为第一融合权重。

41、在本申请一些实施方案中,根据第一文本数据和第一融合向量,确定目标分类文本的分类结果,包括:

42、对第一文本数据进行词嵌入处理,得到词向量序列;

43、对词向量序列和第一融合向量进行融合,得到第四融合向量;

44、根据第四融合向量,确定目标分类文本的分类结果。

45、第二方面,本专利技术实施例还提供一种文本分类装置,包括:

46、预处理单元,用于对获取的目标分类文本进行预处理,得到第一文本数据;

47、文本分析单元,用于对第一文本数据进行统计分析,得到第一统计特征;

48、第一确定单元,用于根据第一文本数据和第一统计特征,确定第一融合向量;

49、第二确定单元,用于根据第一文本数据和第一融合向量,确定目标分类文本的分类结果。

50、第三方面,本申请还提供一种计算机设备,计算机设备包括:

51、一个或多个处理器;

52、存储器;以及

53、一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现第一方面中任一项的文本分类方法。

54、第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行第一方面中任一项的文本分类方法中的步骤。

55、本专利技术的有益效果:根据第一文本数据和第一融合向量确定目标分类文本的分类结果,可以利用上下文信息及第一融合向量进行文本分类,解决文本语义信息不全、文本适用于不同业务场景及实际业务场景与语义定义存在冲突导致的分类结果准确率低的问题。

本文档来自技高网...

【技术保护点】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对获取的目标分类文本进行预处理,得到第一文本数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述第一统计特征包括所述第一文本数据的数据特征、词频特征及主题特征,所述对所述第一文本数据进行统计分析,得到第一统计特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本数据和所述第一统计特征,确定第一融合向量,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本数据和所述第一统计特征,确定第一融合向量之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法应用于文本分类模型,所述文本分类模型通过预设网络模型训练得到,所述预设网络模型包括数据映射模块和分类模块,所述根据所述第二文本数据、所述第二统计特征及所述真实类别,确定所述第一融合权重,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述第二统计特征和所述第二语义向量,确定所述每个训练文本的第二融合向量,包括:

8.根据权利要求7所述的方法,其特征在于,所述根据所述第二统计特征、所述第二语义向量及预设的业务场景分类映射规则,确定第二融合权重,包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述若干目标聚类簇,确定第二融合权重,包括:

10.根据权利要求7所述的方法,其特征在于,所述基于所述预测类别、所述真实类别及所述预设网络模型的损失函数,确定所述第一融合权重,包括:

11.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本数据和所述第一融合向量,确定所述目标分类文本的分类结果,包括:

12.一种文本分类装置,其特征在于,包括:

13.一种计算机设备,其特征在于,所述计算机设备包括:

14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至11任一项所述的文本分类方法中的步骤。

...

【技术特征摘要】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对获取的目标分类文本进行预处理,得到第一文本数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述第一统计特征包括所述第一文本数据的数据特征、词频特征及主题特征,所述对所述第一文本数据进行统计分析,得到第一统计特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本数据和所述第一统计特征,确定第一融合向量,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本数据和所述第一统计特征,确定第一融合向量之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法应用于文本分类模型,所述文本分类模型通过预设网络模型训练得到,所述预设网络模型包括数据映射模块和分类模块,所述根据所述第二文本数据、所述第二统计特征及所述真实类别,确定所述第一融合权重,包括:

7.根据权利要求6所述的方法,其特征在于,所述根...

【专利技术属性】
技术研发人员:毛俊峰
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1