短信分类方法、装置及电子设备制造方法及图纸

技术编号:23562421 阅读:37 留言:0更新日期:2020-03-25 07:03
本申请公开了短信分类方法和装置,短信类别预测模型构建方法和装置,以及电子设备。其中,短信分类方法包括:获取待处理的短信文本;对所述短信文本执行词嵌入,得到所述短信文本包括的词向量;将所述短信文本包括的词向量作为短信类别预测模型的输入数据,所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络,通过所述短信特征抽取子网络,根据所述短信文本包括的词向量抽取所述短信文本的特征;通过所述多类别预测子网络,根据所述特征获取所述短信文本的多类别预测值。采用这种处理方式,使得结合深度多标签学习模型以提高特征的表达能力;因此,可以有效提升短信分类的准确度。

SMS classification method, device and electronic equipment

【技术实现步骤摘要】
短信分类方法、装置及电子设备
本申请涉及文本分类
,具体涉及短信分类方法和装置,短信类别预测模型构建方法和装置,以及电子设备。
技术介绍
一种典型的短信发送场景是,商家通过网络平台向消费者发送短信,以便于将商品促销等信息及时送至消费者处,从而确保商家销售计划的有效实施,并提升用户体验。然而,伴随着这些有益效果的同时,也出现了大量垃圾短信。垃圾短信泛滥,已经严重影响到消费者正常生活、网络平台形象乃至社会稳定。随着互联网技术的不断发展,越来越多的网络平台利用短信内容安全系统对商对客(Business-to-Customer,B2C)的短信进行内容分析,并进行智能短信拦截和通道优化。其中,短信分类是短信内容安全系统的一个重要功能,通过对短信进行分类,可以有效地对短信的各个属性维度进行分析,从而合理地调度短信发送的通道,使得业务更加安全,并降低整个发送成本。短信分类方法主要分为三类:基于二分类模型的方法、基于多分类模型的方法、基于多标签学习的方法。其中,基于二分类模型的方法要为每个属性类别构建二分类,因此无法很好的刻画类别之间的依本文档来自技高网...

【技术保护点】
1.一种短信分类方法,其特征在于,包括:/n获取待处理的短信文本;/n对所述短信文本执行词嵌入,得到所述短信文本包括的词向量;/n将所述短信文本包括的词向量作为短信类别预测模型的输入数据,所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络,通过所述短信特征抽取子网络,根据所述短信文本包括的词向量抽取所述短信文本的特征;/n通过所述多类别预测子网络,根据所述特征获取所述短信文本的多类别预测值。/n

【技术特征摘要】
1.一种短信分类方法,其特征在于,包括:
获取待处理的短信文本;
对所述短信文本执行词嵌入,得到所述短信文本包括的词向量;
将所述短信文本包括的词向量作为短信类别预测模型的输入数据,所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络,通过所述短信特征抽取子网络,根据所述短信文本包括的词向量抽取所述短信文本的特征;
通过所述多类别预测子网络,根据所述特征获取所述短信文本的多类别预测值。


2.根据权利要求1所述的方法,其特征在于,
所述短信特征抽取子网络的网络结构包括双向长短期记忆网络结构Bi-LSTM;
所述将所述短信文本包括的词向量作为短信类别预测模型的输入数据,包括:
将所述短信文本包括的词向量的正向序列作为第一LSTM的输入数据;以及,将所述短信文本包括的词向量的反向序列作为第二LSTM的输入数据。


3.根据权利要求1所述的方法,其特征在于,还包括:
获取所述短信文本对应的签名信息;
对所述签名信息执行词嵌入,得到所述签名信息的词向量;
所述通过所述多类别预测子网络,根据所述特征获取所述短信文本的多类别预测值,包括:
通过所述多类别预测子网络,根据所述特征和所述签名信息的词向量,获取所述多类别预测值。


4.根据权利要求3所述的方法,其特征在于,所述对所述签名信息执行词嵌入,得到所述签名信息的词向量,包括:
获取所述签名信息中字的字向量;
根据所述字向量,确定所述签名信息的词向量。


5.根据权利要求1所述的方法,其特征在于,所述对所述短信文本执行词嵌入,得到所述短信文本包括的词向量,包括:
获取所述短信文本包括的第一词向量;以及,获取所述短信文本中字的字向量;
根据所述第一词向量和所述字向量,确定所述短信文本包括的词向量。


6.根据权利要求1所述的方法,其特征在于,还包括:
获取包括类别标注信息的训练用短信文本集;
从所述训练用短信文本集中学习得到所述短信类别预测模型。


7.根据权利要求6所述的方法,其特征在于,还包括:
获取所述训练用短信文本对应的签名信息;
所述从所述训练用短信文本集中学习得到所述短信类别预测模型,包括:
根据所述训练用短信文本集和所述训练用短信文本对应的签名信息,学习得到所述短信类别预测模型。


8.根据权利要求6所述的方法,其特征在于,所述多类别预测子网络的损失函数包括二值交叉熵函数。


9.一种短信分类装置,其特征在于,包括:
短信文本获取单元,用于获取待处理的短信文本;
第一词嵌入单元,用于对所述短信文本执行词嵌入,得到所述短信文本包括的词向量;
特征抽取单元,用于将所述短信文本包括的词向量作为短信类别预测模型的输入数据,所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络,通过所述短信特征抽取子网络,根据所述短信文本包括的词向量抽取所述短信文本的特征;
多类别预测单元,用于通过所述多类别预测子网络,根据所述特征获取所述短信文本的多类别预测值。


10.根据权利要求9所述的装置,其特征在于,
所述短信特征抽取子网络的网络结构包括双向长短期记忆网络结构Bi-LSTM;
所述特征抽取单元,具体用于将所述短信文本包括的词向量的正向序列作为第一LSTM的输入数据;以及,将所述短信文本包括的词向量的反向序列作为第二LSTM的输入数据。


11.根据权利要求9所述的装置,其特征在于,还包括:
签名信息获取单元,用于获取所述短信文本对应的签名信息;
第二词嵌入单元,用于对所述签名信息执行词嵌入,得到所述签名信息的词向量;
所述多类别预测单元,具体用于通过所述多类别预测子网络,根据所述特征和所述签名信息的词向量,获取所述多类别预测值。


12.根据权利要求11所述的装置,其特征在于,所述第二词嵌入单元包括:
字向量获取子单元,用于获取所述签名信息中字的字向量;
词向量确定子单元,用于根据所述字向量,确定所述签名信息的词向量。


13.根据权利要求9所述的装置,其特征在于,所述第一词嵌入单元包括:
第一词向量获取子单元,用于获取所述短信文本包括的第一词向量;
字向量获取子单元,用于获取所述短信文本中字的字向量;
词向量确定子单元,用于根据所述第一词向量和所述字向量,确定所述短信文本包括的词向...

【专利技术属性】
技术研发人员:高喆康杨杨周笑添孙常龙刘晓钟司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1