一种应用于短信数据安全的管理方法技术

技术编号:27935612 阅读:15 留言:0更新日期:2021-04-02 14:15
本发明专利技术提供了一种应用于短信数据安全的管理方法,该方法应用于短信数据安全管理系统中,该短信数据安全管理系统包括短信数据安全管理远程服务器和用户终端,短信数据个性化分类引擎运行在用户终端上,短信数据个性化分类引擎将用到存储在用户终端并与短信数据安全管理远程服务器实现同步更新的数据。本发明专利技术基于文本内容和机器学习的短信分类算法,设计基于短信接收者个性化选择和服务器端集中监控过滤的二层分类模型,实现了高精度短信智能分类。

【技术实现步骤摘要】
一种应用于短信数据安全的管理方法
本专利技术涉及数据安全管理
,具体涉及一种应用于短信数据安全的管理方法。
技术介绍
短信在人们生活中作为一种重要的交流方式,已然获得了高度广泛的现实应用。手机短信既是人们喜爱的交流工具,又是各种不良信息的传播手段,短信的泛滥对网络产生冲击,更造成严重的不良社会影响.加强短信,特别是垃圾短信的过滤拦截是维护短信市场的正常秩序,保障信息安全的关键。当短信进入了大批量、各范畴的使用领域时,其中却瑕瑜互见地混杂有某些经由不法商户制造形成的带有欺诈行为性质的短信内容。目前对垃圾短信的过滤技术有黑白名单过滤,短信长度及流量门限过滤、以及运用文本分类算法的人工智能过滤方法,但各类方法均有利弊,对垃圾短信的过滤效果不佳,如何提高垃圾短信的过滤效果,提升短信数据的安全性,已成为了亟需解决的技术问题。
技术实现思路
本申请提供了一种应用于短信数据安全的管理方法,以解决上述提到的一种或多种技术问题,本申请利用基于文本内容和机器学习的短信分类算法,本专利技术基于文本内容和机器学习的短信分类算法,设计基于短信接收者个性化选择和服务器端集中监控过滤的二层分类模型,实现了高精度短信智能分类。本申请所采用的技术方案如下:一种应用于短信数据安全的管理方法,该方法应用于短信数据安全管理系统中,该短信数据安全管理系统包括短信数据安全管理远程服务器和用户终端,短信数据个性化分类引擎运行在用户终端上,短信数据个性化分类引擎将用到存储在用户终端并与短信数据安全管理远程服务器实现同步更新的数据;该管理方法包括如下步骤:步骤1、短信数据安全管理远程服务器收到短信后,进行短信文本预处理操作,将预处理后的短信文本送入公共分类器,依据公共特征库对短信进行第一层过滤,未通过第一层过滤的垃圾短信被屏蔽;通过第一层过滤的短信送入个性分类器;步骤2、通过第一层过滤的短信送入个性分类器后,依据个性化特征库,应用贝叶斯分类进行第二层个性化分类,并将分类结果通过短信数据安全管理远程服务器发送短信通知接收方用户是否接收该类型短信;如果接收方用户选择接收,则将短信转发至接收方用户的用户终端,否则短信数据安全管理远程服务器屏蔽该短信;步骤3、接收方用户接收到经过二层分类过滤的短信后,根据接收方用户的用户终端上的个性化分类引擎和分类特征库,调用分词处理模块和贝叶斯分类模块,将短信进行第一次初分类,并呈现给接收方用户;步骤4、接收方用户根据自己的需求来确定短信分类类别,将短信进行第二次个性分类;步骤5、通过网络向短信数据安全管理远程服务器反馈短信的第二次个性分类类别、信息发送者号码、发送时间、以及接收者号码信息;步骤6、短信数据安全管理远程服务器接收用户反馈信息,调用贝叶斯训练模块,更新个性化特征库;步骤7、接收方用户通过网络定期从短信数据安全管理远程服务器下载更新的个性化特征库,并采用更新后的个性化特征库对新收到的短信进行分类判别。进一步的,所述短信文本预处理操作,具体包括如下步骤:步骤101、将短信读入内存中,使用整型变量记录读入的每一个字符对应的ASCII编码,读入第一个字符;步骤102、判断读入字符的数值范围,若该数值范围在中文字符集中的中文字符编码范围内,则将读入字符加入到字符串变量中,否则,该读入字符为字符串变量,并添加一个空格;步骤103、返回步骤101,直到短信的所有字符均被读入后,结束预处理操作。进一步的,所述贝叶斯分类具体包括如下步骤:步骤201、读入训练样本短信,并统计各类短信数目;步骤202、读入分词词典,对训练样本短信进行分词处理,得到各词条及对应的文档频率DF值;步骤203、根据特征向量选取方法,按文档频率DF值从大到小,各类选前50个特征词形成特征向量;步骤204、读入训练样本短信,对贝叶斯分类器进行训练;步骤205、读入待分类短信,用训练后的贝叶斯分类器进行识别,并给出分类结果。进一步的,所述贝叶斯分类器的计算步骤包括:步骤301、数据样本短信经文本分词后,应用向量空间模型,将其表示为一个n维特征向量X(w1,w2,w3,……,wn),其中wi为绝对词频;步骤302、设共有m个类型C1,……,Cm,给定一个待分类的样本X,计算X归属类Ci的概率Pi(Ci|X),最终X归属于Pi(Ci|X)值最大的类Ci,即贝叶斯分类将未知的样本X分配给类Ci,当且仅当Pi(Ci|X)>Pi(Cj|X),其中1≤j≤m、i≠j,最大化Pi(Ci|X),其中Pi(Ci|X)最大的类称为最大后验假定,根据贝叶斯定理有:Pi(Ci|X)=(P(X|Ci)P(Ci))/P(X),由于P(X)对所有类为常数,只需要P(X|Ci)P(Ci)最大即可;步骤303、首先计算P(Ci)=si/s,其中si为类Ci中的样本数,s为训练样本总数;步骤304、再计算P(X|Ci),给定具有多属性的数据集,计算P(X|Ci)的开销,假定各类型相互独立,这样,其中可由训练样本计算得出;步骤305、对未知样本X分类,分别对每个类Ci,计算P(X|Ci)P(Ci),则X属于P(X|Ci)P(Ci)值最大的类Ci。进一步的,短信数据安全管理远程服务器包括特征库维护更新模块和短信内容处理模块;特征库维护更新模块,用于公共特征库和个性化特征库的维护更新;短信内容处理模块,包括短信预处理模块、分词处理模块、特征提取模块,所述短信预处理模块,用于对短信文本进行预处理操作;所述分词处理模块,用于对短信进行分词;所述特征提取模块,用于提取短信长度特征、频率特征、规则特征、文本特征信息。进一步的,所述维护更新包括两种方式,第一种是训练学习方式,接收用户终端反馈的短信分类信息后,触发机器训练算法进行机器学习,更新个性化特征库;第二种是在短信数据安全管理远程服务器维护公共特征库,由人工更新公共特征库。进一步的,公共特征库为所有用户共有,设置黑白名单过滤特征库和关键词库,由人工随时更新。进一步的,个性化特征库为每个用户私有,以用户的手机号码为关键字,系统为每个用户建立个性化分类器,生成二个表:个性分类类别表和类别特征表,分别存储用户个性分类的类别。进一步的,用户终端通过网络向服务器端传输反馈的个性分类信息,包括短信分类类别、是否垃圾短信、信息发送者号码、发送时间、接收者号码信息。进一步的,公共特征库由服务器端人工以及根据用户终端反馈的短信分类信息维护,定期或随时更新黑白名单以及关键词表;个性化特征库则由服务器端接收客户终端反馈的短信分类信息,进行增量学习,收到用户反馈的短信后自动触发机器训练算法,进行机器学习,更新个性化特征库。通过本申请实施例,可以获得如下技术效果:本专利技术基于文本内容和机器学习的短信分类算法,设计基于短信接收者个性化选择和服务器端集中监控过滤的二层分类模型,实现了高精度短信智能分类。...

【技术保护点】
1.一种应用于短信数据安全的管理方法,其特征在于,该方法应用于短信数据安全管理系统中,该短信数据安全管理系统包括短信数据安全管理远程服务器和用户终端,短信数据个性化分类引擎运行在用户终端上,短信数据个性化分类引擎将用到存储在用户终端并与短信数据安全管理远程服务器实现同步更新的数据;/n该管理方法包括如下步骤:/n步骤1、短信数据安全管理远程服务器收到短信后,进行短信文本预处理操作,将预处理后的短信文本送入公共分类器,依据公共特征库对短信进行第一层过滤,未通过第一层过滤的垃圾短信被屏蔽;通过第一层过滤的短信送入个性分类器;/n步骤2、通过第一层过滤的短信送入个性分类器后,依据个性化特征库,应用贝叶斯分类进行第二层个性化分类,并将分类结果通过短信数据安全管理远程服务器发送短信通知接收方用户是否接收该类型短信;如果接收方用户选择接收,则将短信转发至接收方用户的用户终端,否则短信数据安全管理远程服务器屏蔽该短信;/n步骤3、接收方用户接收到经过二层分类过滤的短信后,根据接收方用户的用户终端上的个性化分类引擎和分类特征库,调用分词处理模块和贝叶斯分类模块,将短信进行第一次初分类,并呈现给接收方用户;/n步骤4、接收方用户根据自己的需求来确定短信分类类别,将短信进行第二次个性分类;/n步骤5、通过网络向短信数据安全管理远程服务器反馈短信的第二次个性分类类别、信息发送者号码、发送时间、以及接收者号码信息;/n步骤6、短信数据安全管理远程服务器接收用户反馈信息,调用贝叶斯训练模块,更新个性化特征库;/n步骤7、接收方用户通过网络定期从短信数据安全管理远程服务器下载更新的个性化特征库,并采用更新后的个性化特征库对新收到的短信进行分类判别。/n...

【技术特征摘要】
1.一种应用于短信数据安全的管理方法,其特征在于,该方法应用于短信数据安全管理系统中,该短信数据安全管理系统包括短信数据安全管理远程服务器和用户终端,短信数据个性化分类引擎运行在用户终端上,短信数据个性化分类引擎将用到存储在用户终端并与短信数据安全管理远程服务器实现同步更新的数据;
该管理方法包括如下步骤:
步骤1、短信数据安全管理远程服务器收到短信后,进行短信文本预处理操作,将预处理后的短信文本送入公共分类器,依据公共特征库对短信进行第一层过滤,未通过第一层过滤的垃圾短信被屏蔽;通过第一层过滤的短信送入个性分类器;
步骤2、通过第一层过滤的短信送入个性分类器后,依据个性化特征库,应用贝叶斯分类进行第二层个性化分类,并将分类结果通过短信数据安全管理远程服务器发送短信通知接收方用户是否接收该类型短信;如果接收方用户选择接收,则将短信转发至接收方用户的用户终端,否则短信数据安全管理远程服务器屏蔽该短信;
步骤3、接收方用户接收到经过二层分类过滤的短信后,根据接收方用户的用户终端上的个性化分类引擎和分类特征库,调用分词处理模块和贝叶斯分类模块,将短信进行第一次初分类,并呈现给接收方用户;
步骤4、接收方用户根据自己的需求来确定短信分类类别,将短信进行第二次个性分类;
步骤5、通过网络向短信数据安全管理远程服务器反馈短信的第二次个性分类类别、信息发送者号码、发送时间、以及接收者号码信息;
步骤6、短信数据安全管理远程服务器接收用户反馈信息,调用贝叶斯训练模块,更新个性化特征库;
步骤7、接收方用户通过网络定期从短信数据安全管理远程服务器下载更新的个性化特征库,并采用更新后的个性化特征库对新收到的短信进行分类判别。


2.根据权利要求1所述的管理方法,其特征在于,所述短信文本预处理操作,具体包括如下步骤:
步骤101、将短信读入内存中,使用整型变量记录读入的每一个字符对应的ASCII编码,读入第一个字符;
步骤102、判断读入字符的数值范围,若该数值范围在中文字符集中的中文字符编码范围内,则将读入字符加入到字符串变量中,否则,该读入字符为字符串变量,并添加一个空格;
步骤103、返回步骤101,直到短信的所有字符均被读入后,结束预处理操作。


3.根据权利要求1所述的管理方法,其特征在于,所述贝叶斯分类具体包括如下步骤:
步骤201、读入训练样本短信,并统计各类短信数目;
步骤202、读入分词词典,对训练样本短信进行分词处理,得到各词条及对应的文档频率DF值;
步骤203、根据特征向量选取方法,按文档频率DF值从大到小,各类选前50个特征词形成特征向量;
步骤204、读入训练样本短信,对贝叶斯分类器进行训练;
步骤205、读入待分类短信,用训练后的贝叶斯分类器进行识别,并给出分类结果。


4.根据权利要求1所述的管理方法,其特征在于,所述贝叶斯分类器的计算步骤包括:
步骤301、数据样...

【专利技术属性】
技术研发人员:曾永明
申请(专利权)人:深圳市诚立业科技发展有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1