一种短信类别的识别方法及装置制造方法及图纸

技术编号:32589657 阅读:20 留言:0更新日期:2022-03-09 17:23
本公开提供了一种短信类别的识别方法及装置,包括:获取短信的待识别文本,待识别文本由多个字符组成,字符包括特殊符号、标点符号、运算符号和/或文字;从待识别文本中提取字符向量组成字符向量矩阵;将转置后的字符向量矩阵计算每个字符的前向隐向量和后向隐向量,拼接前向隐向量和后向隐向量,得到第一拼接向量,所有字符对应的第一拼接向量组成第一语义矩阵;将第一语义矩阵与字符向量矩阵的转置相加,得到第二语义矩阵;将第二语义矩阵与多组参数矩阵相乘,得到多组中间矩阵,根据多组中间矩阵得到对应的多个注意力值,多个注意力值组成注意力矩阵;对注意力矩阵进行识别,得到概率值,确定概率值满足条件的类别为待识别文本的短信的类别。本的短信的类别。本的短信的类别。

【技术实现步骤摘要】
一种短信类别的识别方法及装置


[0001]本公开涉及短信识别
,尤其涉及一种短信类别的识别方法及装置。

技术介绍

[0002]目前在诈骗短信的识别中,主要使用的是短信发送行为特征数据来构建模型,通过拟合输入在短信发送过程当中产生的行为数据特征进行建模,例如主叫被叫比、某时段内发送间隔、发送频率、平均短信收发间隔等各种行为特征,然后使用逻辑回归的方式进行诈骗短信的识别,这是一个二分类问题,用于识别短信是正常短信还是诈骗短信。除了行为特征很难进行区分外,还存在难以对诈骗短信的类型进行详细的识别的情况,不同的诈骗短信类型例如刷单行为和游戏充钱,仅仅只是把短信的内容做一个替换,而对于短信的发送行为几乎一模一样,因此,也无法通过短信的发送行为作为一个诈骗类型的识别。
[0003]由于近些年微信、QQ、钉钉等交流软件的出现与发展,现如今使用短信进行交流的人越来越少,短信的用途更多是应用在了验证码接收、商户的推销、行业短信的接收等商业方面,而这类的短信所涉及到的行为特性与诈骗短信发送的行为特征很难进行区分。尤其现在诈骗短信层出不穷,其最终目的是向接收者传递特定的语义信息,因此无论发送行为特征如何改变,内容顺序怎样变换,其语义信息始终被蕴含在短信内容中。因此,若不结合短信内容本身,仅通过搜集和分析现有的行为特征来识别短信类型的准确率较低。

技术实现思路

[0004]本公开提供一种短信类别的识别方法及装置,以至少解决现有技术中存在的以上技术问题。
[0005]本公开一方面提供一种短信类别的识别方法,包括:获取短信的待识别文本,所述待识别文本由多个字符组成,所述字符包括特殊符号、标点符号、运算符号和/或文字;从所述待识别文本中提取每个字符的字符向量,所述字符向量组成字符向量矩阵;将转置后的所述字符向量矩阵从前向和后向分别计算每个字符的前向隐向量和后向隐向量,拼接每个字符对应的所述前向隐向量和所述后向隐向量,得到每个字符对应的第一拼接向量,所有字符对应的第一拼接向量组成第一语义矩阵;将所述第一语义矩阵与所述字符向量矩阵的转置相加,得到第二语义矩阵;将所述第二语义矩阵与多组参数矩阵相乘,得到多组中间矩阵,根据多组所述中间矩阵得到对应的多个注意力值,将每个字符对应的多个所述注意力值进行拼接,得到每个字符对应的第二拼接向量,所有字符对应的所述第二拼接向量组成注意力矩阵;对所述注意力矩阵进行识别,得到所述短信对应各类别的概率值,确定所述概率值满足条件的类别为所述待识别文本的短信的类别。
[0006]在一可实施方式中,所述获取短信的待识别文本,包括:
获取短信文本数据;对所述短信文本数据去除停用词;对去除了停用词的短信文本数据进行文本掩码。
[0007]在一可实施方式中,所述对所述短信文本数据去除停用词包括去除助词、语气词和日期。
[0008]在一可实施方式中,所述文本掩码包括对网址、微信号、手机号和QQ号的非运营商、地区以及网址的部分,采用替代符号的方式进行替换。
[0009]在一可实施方式中,所述将转置后所述字符向量矩阵从前向和后向分别计算每个字符的前向隐向量和后向隐向量,包括:对所述字符向量矩阵从前向计算第n个字符的前向隐向量时,根据从前往后开始的第1至第n个字符对应的所述字符向量,计算出第n个字符的前向隐向量;对所述字符向量矩阵从后向计算第n个字符的后向隐向量时,根据从后向前开始的第1至第n个字符对应的所述字符向量,计算出第n个字符的后向隐向量。
[0010]在一可实施方式中,所述将所述第二语义矩阵与多组参数矩阵相乘,得到多组中间矩阵,包括:获取多组参数矩阵,每组所述参数矩阵包括Q、K和V三个所述参数矩阵,通过将每组所述Q、K和V分别乘以所述第二语义矩阵,得到对应的每组所述中间矩阵,每组所述中间矩阵包括q、k、v三个所述中间矩阵。
[0011]在一可实施方式中,所述根据多组所述中间矩阵得到对应的多个注意力值,包括:根据所述中间矩阵,按如下公式得到每个字符的所述注意力值:所述q、k和v为所述中间矩阵,所述i为第i组,所述j为第j个字符,所述n为所述字符的个数,所述i、所述j和所述o依次从1取到n,所述softmax为归一化,所述为每个字符的所述注意力值。
[0012]本公开另一方面提供一种诈骗短信类别的识别装置,包括:获取模块,用于获取短信的待识别文本,所述待识别文本由多个字符组成,所述字符包括特殊符号、标点符号、运算符号和/或文字;处理模块,用于从所述待识别文本中提取每个字符的字符向量,所述字符向量组成字符向量矩阵;所述处理模块,还用于将转置后的所述字符向量矩阵从前向和后向分别计算每个字符的前向隐向量和后向隐向量,拼接每个字符对应的所述前向隐向量和所述后向隐向量,得到每个字符对应的第一拼接向量,所有字符对应的第一拼接向量组成第一语义矩阵;所述处理模块,还用于将所述第一语义矩阵与所述字符向量矩阵的转置相加,得到第二语义矩阵;
所述处理模块,还用于将所述第二语义矩阵与多组参数矩阵相乘,得到多组中间矩阵,根据多组所述中间矩阵得到对应的多个注意力值,将每个字符对应的多个所述注意力值进行拼接,得到每个字符对应的第二拼接向量,所有字符对应的所述第二拼接向量组成注意力矩阵;识别模块,用于对所述注意力矩阵进行识别,得到所述短信对应各类别的概率值,确定所述概率值满足条件的类别为所述待识别文本的短信的类别。
[0013]在一可实施方式中,所述获取模块,还用于获取短信文本数据;对所述短信文本数据去除停用词;对去除了停用词的短信文本数据进行文本掩码。
[0014]在一可实施方式中,所述获取模块,还用于对所述短信文本数据去除停用词包括去除助词、语气词和日期。
[0015]基于上述方案,本公开提供一种短信类别的识别方法,获取短信的待识别文本,待识别文本中保留有凸显诈骗短信相关特征的字符,通过对每个字符进行字符向量的提取,得到表征待识别文本的字符向量矩阵,基于字符在待识别文本中的组成次序,字符向量本身能够以前后文关系提供更多的语义隐藏信息,将字符向量从前向和后向进行处理以提取更多语义,得到用于解释每个字符的对应的第一拼接向量,全部的第一拼接向量组成表征待识别文本的第一语义矩阵,通过将第一语义矩阵与字符向量矩阵相加得到第二语义矩阵,以避免在上述处理过程中丢失信息,基于对第二语义矩阵的进一步处理,得到注意力矩阵,通过注意力矩阵确定待识别文本中,每个字符表征的语义特征的关注度,最后通过对注意力矩阵的识别,能够有效确定待识别文本对应的短信类别。
附图说明
[0016]图1所示为本公开一实施例提供的短信类别的识别方法的流程示意图;图2所示为本公开一实施例提供的短信类别的识别框架示意图;图3所示为本公开另一实施例提供的短信类别的识别方法的流程示意图;图4所示为本公开一实施例提供的短信类别的识别方法的操作示意图;图5所示为本公开一实施例提供的短信类别的识别方法的部分操作示意图;图6所示为本公开一实施例提供的短信类别的识别方法的部分操作示意图;图7所示为本公开一实施例提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短信类别的识别方法,其特征在于,包括:获取短信的待识别文本,所述待识别文本由多个字符组成,所述字符包括特殊符号、标点符号、运算符号和/或文字;从所述待识别文本中提取每个字符的字符向量,所述字符向量组成字符向量矩阵;将转置后的所述字符向量矩阵从前向和后向分别计算每个字符的前向隐向量和后向隐向量,拼接每个字符对应的所述前向隐向量和所述后向隐向量,得到每个字符对应的第一拼接向量,所有字符对应的第一拼接向量组成第一语义矩阵;将所述第一语义矩阵与所述字符向量矩阵的转置相加,得到第二语义矩阵;将所述第二语义矩阵与多组参数矩阵相乘,得到多组中间矩阵,根据多组所述中间矩阵得到对应的多个注意力值,将每个字符对应的多个所述注意力值进行拼接,得到每个字符对应的第二拼接向量,所有字符对应的所述第二拼接向量组成注意力矩阵;对所述注意力矩阵进行识别,得到所述短信对应各类别的概率值,确定所述概率值满足条件的类别为所述待识别文本的短信的类别。2.根据权利要求1所述的短信类别的识别方法,其特征在于,所述获取短信的待识别文本,包括:获取短信文本数据;对所述短信文本数据去除停用词;对去除了停用词的短信文本数据进行文本掩码。3.根据权利要求2所述的短信类别的识别方法,其特征在于,所述对所述短信文本数据去除停用词包括去除助词、语气词和日期。4.根据权利要求2所述的短信类别的识别方法,其特征在于,所述文本掩码包括对网址、微信号、手机号和QQ号的非运营商、地区以及网址的部分,采用替代符号的方式进行替换。5.根据权利要求1至4任一项所述的短信类别的识别方法,其特征在于,所述将转置后所述字符向量矩阵从前向和后向分别计算每个字符的前向隐向量和后向隐向量,包括:对所述字符向量矩阵从前向计算第n个字符的前向隐向量时,根据从前往后开始的第1至第n个字符对应的所述字符向量,计算出第n个字符的前向隐向量;对所述字符向量矩阵从后向计算第n个字符的后向隐向量时,根据从后往前开始的第1至第n个字符对应的所述字符向量,计算出第n个字符的后向隐向量。6.根据权利要求1所述的短信类别的识别方法,其特征在于,所述将所述第二语义矩阵与多组参数矩阵相乘,得到多组中间矩阵,包括:获取多组参数矩阵,每组所述参数矩阵包括...

【专利技术属性】
技术研发人员:刘登涛孙悦蔡准郭晓鹏
申请(专利权)人:北京芯盾时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1