短信文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37677438 阅读:16 留言:0更新日期:2023-05-26 04:42
本发明专利技术提供一种短信文本分类方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,该方法包括:获取待分类短信文本;对待分类短信文本进行预处理,获得目标短信文本;调用预先构建的短信特征库;短信特征库包括至少一个短信文本模板和各短信文本模板的标签类型;短信特征库是基于目标短信分类模型和聚类算法构建的;目标短信分类模型是基于多个样本短信文本和标签类型进行训练得到的;样本短信文本中包括异形字;聚类算法用于对多个样本短信文本进行聚类,基于聚类簇得到多个短信文本模板;基于各短信文本模板和各标签类型,确定目标短信文本对应的目标类型,提升待分类短信文本的研判效率和分类准确性。本的研判效率和分类准确性。本的研判效率和分类准确性。

【技术实现步骤摘要】
短信文本分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种短信文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]短信服务是移动通信网络的一种基本业务,能够为用户提供便捷的通信消息发送与接收渠道。
[0003]近年来,学术界也开始研究如何将传统机器学习模型应用到短文本分类识别上来,然而传统机器学习算法需要手动提取特征,得出超参数的较佳值集,计算繁琐、复杂度高,可扩展性差,传统机器学习不能完全适用于异常短信分类的实际情况。
[0004]随着深度学习算法的兴起,基于深度学习算法的短文本分类开始得到研究。然而,一般深度学习算法需要大量的训练样本来训练神经网络的参数,搜集每一类异常短信数据的过程较长,且针对每一种异常手法训练一个模型的训练成本过高,模型分类结果的准确性低。

技术实现思路

[0005]本专利技术提供一种短信文本分类方法、装置、电子设备及存储介质,用以解决现有技术中模型分类结果的准确性低的问题。
[0006]本专利技术提供一种短信文本分类方法,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种短信文本分类方法,其特征在于,包括:获取待分类短信文本;对所述待分类短信文本进行预处理,获得目标短信文本;调用预先构建的短信特征库;所述短信特征库包括至少一个短信文本模板和各所述短信文本模板的标签类型;所述短信特征库是基于目标短信分类模型和聚类算法构建的;所述目标短信分类模型是基于多个样本短信文本和标签类型进行训练得到的,用于对所述待分类短信文本对应的目标类型进行分类;所述样本短信文本中包括异形字;所述聚类算法用于对所述多个样本短信文本进行聚类,基于聚类簇得到多个短信文本模板;基于各所述短信文本模板和各所述标签类型,确定所述目标短信文本对应的所述目标类型。2.根据权利要求1所述的短信文本分类方法,其特征在于,所述基于各所述短信文本模板和各所述标签类型,确定所述目标短信文本对应的所述目标类型,包括:将所述目标短信文本分别与各所述短信文本模板进行匹配;在匹配成功的情况下,基于所述标签类型,确定所述目标短信文本对应的目标类型;在匹配失败的情况下,基于所述目标短信分类模型,确定所述目标短信文本对应的所述目标类型。3.根据权利要求2所述的短信文本分类方法,其特征在于,所述基于所述目标短信分类模型,确定所述目标短信文本对应的所述目标类型,包括:将所述目标短信文本输入至所述目标短信分类模型,得到所述目标短信分类模型输出的所述目标短信文本对应的所述目标类型。4.根据权利要求1

3任一项所述的短信文本分类方法,其特征在于,所述目标短信分类模型是基于以下步骤训练得到的:获取训练短信文本集;所述训练短信文本集包括多个有标注样本短信文本和多个无标注样本短信文本;采用各所述无标注样本短信文本,对初始短信分类模型进行预训练,得到第一短信分类模型;采用各所述有标注样本短信文本,对所述第一短信分类模型进行微调得到所述目标短信分类模型。5.根据权利要求4所述的短信文本分类方法,其特征在于,所述方法还包括:将各所述无标注样本短信文本分别输入至所述目标短信分类模型,得到各所述无标注样本短信文本对应的标签类型;对各所述无标注样本短信文本分别进行分词处理,得到各所述无标注样本短信文本分别对应的分词集合;基于所述标签类型、各所述无标注样本短信文本、各所述分词集合和所述聚类算法,确定各所述...

【专利技术属性】
技术研发人员:常雯王栩晨杜伟刘妍妍王建宇
申请(专利权)人:中国信息通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1