System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大数据的垃圾短信筛选方法技术_技高网

基于大数据的垃圾短信筛选方法技术

技术编号:40998086 阅读:4 留言:0更新日期:2024-04-18 21:37
本发明专利技术涉及数据处理技术领域,提出了基于大数据的垃圾短信筛选方法,包括:获取待检测短信和垃圾短信的文本分词向量并计算结构频度,获取短信文本词语特征向量并计算关键筛选系数,计算垃圾短信关键筛选阈值,获取垃圾短信关键表征向量集合;将所有待检测短信文本分词向量记为待检测短信文本分词向量集合,获取待检测短信和垃圾短信文本分词向量集合的相似性,计算待检测短信和垃圾短信文本分词向量的互相关系数和互相关系数界定阈值,利用互相关系数界定阈值获取N‑Gram语言模型参数并对待检测短信进行垃圾短信筛选。本发明专利技术实现了对垃圾短信的准确筛选。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及基于大数据的垃圾短信筛选方法


技术介绍

1、随着以智能手机为主的可移动终端设备的不断普及,不同用户之间日常通信的代价不断降低,短信消息通信作为一种便捷化、低成本的即时消息通信手段,被不同领域的广大用户群体所广泛接受。随着短信的日益普及,垃圾短信成为干扰用户群体正常生活一大严重阻碍。


技术实现思路

1、本专利技术提供基于大数据的垃圾短信筛选方法,以解决传统垃圾短信筛选n-gram参数不确定导致垃圾短信筛选精确性较差的问题,所采用的技术方案具体如下:

2、本专利技术一个实施例基于大数据的垃圾短信筛选方法,该方法包括以下步骤:

3、获取待检测短信和垃圾短信的文本分词向量;

4、根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度,根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量,根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数,根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值,根据垃圾短信关键筛选阈值获取垃圾短信关键表征向量集合;

5、将所有待检测短信文本分词向量记为待检测短信文本分词向量集合,获取待检测短信和垃圾短信文本分词向量集合的相似性,根据待检测短信和垃圾短信文本分词向量集合的相似性计算待检测短信和垃圾短信文本分词向量的互相关系数;

6、根据待检测短信和垃圾短信文本分词向量的互相关系数计算互相关系数界定阈值,利用互相关系数界定阈值获取n-gram语言模型参数并对待检测短信进行垃圾短信筛选。

7、优选地,所述根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度的数学公式为:

8、

9、上式中,n表示了所有不同垃圾短信的总个数,表示了以数字2为底的对数函数,,分别表示了最大值和最小值函数,,分别表示了第k条垃圾短信在第i个文本分词向量出现的次数和在全部垃圾短信中的第i个文本分词向量出现的次数,第k条垃圾短信中第i个文本分词向量的位置,表示了第i个文本分词向量的结构频度大小。

10、优选地,所述根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量的方法为:

11、将垃圾短信分词文本分词向量作为短信文本词语特征向量的第一维度,并将文本分词向量的结构频度作为短信文本词语特征向量的第二维度,构建得到短信文本词语特征向量。

12、优选地,所述根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数的具体方法为:

13、将每个不同短信文本词语特征向量与其他短信文本词语特征向量余弦相似性与点积的乘积结果记为第一乘积,将第一乘积累加和的均值记为垃圾短信每个文本分词向量的关键筛选系数。

14、优选地,所述根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值的方法为:

15、将垃圾短信每个文本分词向量对应文本数据的信息熵与垃圾短信所有文本分词向量对应文本数据的信息熵比值记为第一比值,将第一比值与垃圾短信每个文本分词向量的关键筛选系数乘积记为第二乘积,将第二乘积累加和的均值记为垃圾短信关键筛选阈值。

16、优选地,所述根据垃圾短信关键筛选阈值获取垃圾短信关键表征向量集合的方法为:

17、将垃圾短信文本分词向量关键筛选系数大于垃圾短信关键筛选阈值的所有垃圾短信文本分词向量记为垃圾短信关键表征向量集合。

18、优选地,所述获取待检测短信和垃圾短信文本分词向量集合的相似性的具体方法为:

19、将待检测短信和垃圾短信文本分词向量集合作为dice相似系数算法的输入,将算法输出结果作为待检测短信和垃圾短信文本分词向量集合的相似性。

20、优选地,所述根据待检测短信和垃圾短信文本分词向量集合的相似性计算待检测短信和垃圾短信文本分词向量的互相关系数为:

21、

22、上式中,dice表示了待检测短信文本分词向量集合与垃圾短信关键表征向量集合之间的相似系数的数值大小,表示了垃圾短信关键表征向量集合中文本分词向量的总个数,表示了向量取模函数,表示了卷积操作,表示了第i个待检测短信文本分词向量的语义特征向量,表示了在垃圾短信关键表征向量集合中第k个文本分词向量的语义特征向量, 表示了第i个待检测短信中所有不同文本分词向量和垃圾短信关键表征向量集合中所有不同向量之间的互相关系。

23、优选地,所述待检测短信和垃圾短信文本分词向量的语义分词向量的语义特征向量的计算方法为:

24、将所有待检测短信和垃圾短信文本分词向量作为5层全卷积神经网络的输入,将神经网络输出结果分别记为待检测短信和垃圾短信文本分词向量的语义分词向量。

25、优选地,所述根据待检测短信和垃圾短信文本分词向量的互相关系数计算互相关系数界定阈值的计算方法为:

26、

27、上式中,mrg表示了所有待检测短信文本分词向量互相关关系最大值和最小值的差值,,分别表示了所有待检测短信文本分词向量的互相关系数的最大值和最小值,mean表示了所有待检测短信文本分词向量的互相关系数的均值,t表示了互相关系数界定阈值。

28、本专利技术的有益效果是:本专利技术申请通过对垃圾短信中反复出现词语计算得到相应的文本分词向量结构频度大小,构建文本词语特征向量,并利用结构频度大小获取关键筛选系数对垃圾短信中关键文本词语信息进行表征计算,通过对词语结构顺序特点的分析相较于传统仅通过词频计数方法更加有效地反映出垃圾短信中关键词语相关信息。进一步地,本专利技术利用卷积操作提取文本向量中相关的语义特征信息获取语义特征向量,并计算得到不同语义特征向量之间的互相关系数,从语序语义角度共同对待检测短信和垃圾短信中关键特征信息进行分析,从而准确计算得到n-gram语言模型参数,达到对垃圾短信筛选准确筛选的目的。

本文档来自技高网...

【技术保护点】

1.基于大数据的垃圾短信筛选方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度的数学公式为:

3.根据权利要求2所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量的方法为:

4.根据权利要求3所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数的具体方法为:

5.根据权利要求4所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值的方法为:

6.根据权利要求5所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据垃圾短信关键筛选阈值获取垃圾短信关键表征向量集合的方法为:

7.根据权利要求6所述的基于大数据的垃圾短信筛选方法,其特征在于,所述获取待检测短信和垃圾短信文本分词向量集合的相似性的具体方法为:

8.根据权利要求7所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据待检测短信和垃圾短信文本分词向量集合的相似性计算待检测短信和垃圾短信文本分词向量的互相关系数为:

9.根据权利要求8所述的基于大数据的垃圾短信筛选方法,其特征在于,所述待检测短信和垃圾短信文本分词向量的语义分词向量的语义特征向量的计算方法为:

10.根据权利要求8所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据待检测短信和垃圾短信文本分词向量的互相关系数计算互相关系数界定阈值的计算方法为:

...

【技术特征摘要】

1.基于大数据的垃圾短信筛选方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度的数学公式为:

3.根据权利要求2所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量的方法为:

4.根据权利要求3所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数的具体方法为:

5.根据权利要求4所述的基于大数据的垃圾短信筛选方法,其特征在于,所述根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值的方法为:

6.根据权利要求5所述的基于大数据...

【专利技术属性】
技术研发人员:赖红琼黄瑞先周颖王金龙
申请(专利权)人:深圳市诚立业科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1