System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据分类方法、装置、电子设备及计算机可读介质制造方法及图纸_技高网

一种数据分类方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:39993735 阅读:6 留言:0更新日期:2024-01-09 02:33
本申请公开了数据分类方法、装置、电子设备及计算机可读介质,涉及计算机技术领域,一具体实施方式包括响应于数据分类请求,获取对应的工作消息文本;获取工作消息文本对应的分类标识,进而根据分类标识,确定待分类工作消息文本;基于待分类工作消息文本,生成文本向量;调用分类模型,以将文本向量输入至分类模型,得到对应于各个工作分类的概率;基于概率确定待分类工作消息文本的工作分类。可以实现实时对工作文本分类有利于解放监控工作消息的人力,降低人力成本,提高消息处理效率。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种数据分类方法、装置、电子设备及计算机可读介质


技术介绍

1、目前,在传统的工作场景中,通常需要人工关注各类社交软件、工作软件上的消息提示,可能包括数十个社交软件,例如钉钉、微信、企业微信、企业内部通讯工具、邮件信息等,每个通讯工具中包括上百个长期或临时组建的群组,需要耗费大量的精力关注各类消息并逐一回复。消息处理效率低,人工成本高。


技术实现思路

1、有鉴于此,本申请实施例提供一种数据分类方法、装置、电子设备及计算机可读介质,能够解决现有的消息处理效率低,人工成本高的问题。

2、为实现上述目的,根据本申请实施例的一个方面,提供了一种数据分类方法,包括:

3、响应于数据分类请求,获取对应的工作消息文本;

4、获取工作消息文本对应的分类标识,进而根据分类标识,确定待分类工作消息文本;

5、基于待分类工作消息文本,生成文本向量;

6、调用分类模型,以将文本向量输入至分类模型,得到对应于各个工作分类的概率;

7、基于概率确定待分类工作消息文本的工作分类。

8、可选地,在调用分类模型之前,方法还包括:

9、对卷积核进行初始化,以得到初始化卷积核;

10、获取训练集,其中训练集包括样本文本向量和样本文本分类;

11、根据样本文本向量、样本文本分类和初始化卷积核,计算隐含层和输出层的单元输出;

12、根据单元输出与目标输出确定输出偏量

13、根据输出偏量和预设阈值训练得到分类模型。

14、可选地,确定待分类工作消息文本,包括:

15、将不包含预设标识的分类标识对应的工作消息文本确定为待分类工作消息文本。

16、可选地,生成文本向量,包括:

17、基于预设维度对工作消息文本进行分词,以得到分词文本;

18、基于预训练的词向量文件,以将分析文本转化为对应的文本向量。

19、可选地,在生成文本向量之前,方法还包括:

20、获取分词文本在工作消息文本中的使用频率;

21、将低于预设频率阈值的使用频率对应的分词文本删除。

22、可选地,在生成文本向量之前,方法还包括:

23、确定分词文本的词类型;

24、将对应于语气词的词类型对应的分词文本删除。

25、可选地,在获取对应的工作消息文本之前,方法还包括:

26、响应于获取到数据下载完成标识,触发数据分类进程,进而发起数据分类请求。

27、另外,本申请还提供了一种数据分类装置,包括:

28、获取单元,被配置成响应于数据分类请求,获取对应的工作消息文本;

29、确定单元,被配置成获取工作消息文本对应的分类标识,进而根据分类标识,确定待分类工作消息文本;

30、文本向量生成单元,被配置成基于待分类工作消息文本,生成文本向量;

31、分类概率确定单元,被配置成调用分类模型,以将文本向量输入至分类模型,得到对应于各个工作分类的概率;

32、分类单元,被配置成基于概率确定待分类工作消息文本的工作分类。

33、可选地,装置还包括模型训练单元,被配置成:

34、对卷积核进行初始化,以得到初始化卷积核;

35、获取训练集,其中训练集被配置成样本文本向量和样本文本分类;

36、根据样本文本向量、样本文本分类和初始化卷积核,计算隐含层和输出层的单元输出;

37、根据单元输出与目标输出确定输出偏量;

38、根据输出偏量和预设阈值训练得到分类模型。

39、可选地,确定单元进一步被配置成:

40、将不包含预设标识的分类标识对应的工作消息文本确定为待分类工作消息文本。

41、可选地,文本向量生成单元进一步被配置成:

42、基于预设维度对工作消息文本进行分词,以得到分词文本;

43、基于预训练的词向量文件,以将分析文本转化为对应的文本向量。

44、可选地,装置还包括删除单元,被配置成:

45、获取分词文本在工作消息文本中的使用频率;

46、将低于预设频率阈值的使用频率对应的分词文本删除。

47、可选地,装置还包括删除单元,被配置成:

48、确定分词文本的词类型;

49、将对应于语气词的词类型对应的分词文本删除。

50、可选地,获取单元进一步被配置成:

51、响应于获取到数据下载完成标识,触发数据分类进程,进而发起数据分类请求。

52、另外,本申请还提供了一种数据分类电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的数据分类方法。

53、另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的数据分类方法。

54、为实现上述目的,根据本申请实施例的又一个方面,提供了一种计算机程序产品。

55、本申请实施例的一种计算机程序产品,包括计算机程序,程序被处理器执行时实现本申请实施例提供的数据分类方法。

56、上述专利技术中的一个实施例具有如下优点或有益效果:本申请通过响应于数据分类请求,获取对应的工作消息文本;获取工作消息文本对应的分类标识,进而根据分类标识,确定待分类工作消息文本;基于待分类工作消息文本,生成文本向量;调用分类模型,以将文本向量输入至分类模型,得到对应于各个工作分类的概率;基于概率确定待分类工作消息文本的工作分类。可以实现实时对工作文本分类有利于解放监控工作消息的人力,降低人力成本,提高消息处理效率。

57、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

本文档来自技高网...

【技术保护点】

1.一种数据分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述调用分类模型之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述确定待分类工作消息文本,包括:

4.根据权利要求1所述的方法,其特征在于,所述生成文本向量,包括:

5.根据权利要求4所述的方法,其特征在于,在所述生成文本向量之前,所述方法还包括:

6.根据权利要求4所述的方法,其特征在于,在所述生成文本向量之前,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,在所述获取对应的工作消息文本之前,所述方法还包括:

8.一种数据分类装置,其特征在于,包括:

9.根据权利要求8所述的装置,其特征在于,所述装置还包括模型训练单元,被配置成:

10.根据权利要求8所述的装置,其特征在于,所述确定单元进一步被配置成:

11.根据权利要求8所述的装置,其特征在于,所述文本向量生成单元进一步被配置成:

12.根据权利要求11所述的装置,其特征在于,所述装置还包括删除单元,被配置成:

13.根据权利要求11所述的装置,其特征在于,所述装置还包括删除单元,被配置成:

14.一种数据分类电子设备,其特征在于,包括:

15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种数据分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述调用分类模型之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述确定待分类工作消息文本,包括:

4.根据权利要求1所述的方法,其特征在于,所述生成文本向量,包括:

5.根据权利要求4所述的方法,其特征在于,在所述生成文本向量之前,所述方法还包括:

6.根据权利要求4所述的方法,其特征在于,在所述生成文本向量之前,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,在所述获取对应的工作消息文本之前,所述方法还包括:

8.一种数据分类装置,其特征在于,包括:

9.根据权利要求8所述的装置,其特征在于,所述装置还包...

【专利技术属性】
技术研发人员:张碧辉
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1