一种基于内容平台数据挖掘的短信信息安全检测方法及系统技术方案

技术编号：43741007 阅读：47 留言：0更新日期：2024-12-20 13:02

本发明专利技术属于软件安全领域，具体涉及一种基于内容平台数据挖掘的短信信息安全检测方法及系统，包括：从内容平台中采集用户发布数据，采用分类器对数据进行初步过滤处理；采用目标检测算法对初步过滤的数据进行识别，得到短信数据；提取短信数据的文本特征，采用BART模型实现短信摘要提取；采用句子嵌入模型对提取的摘要信息生成嵌入向量，将嵌入向量与已有的诈骗短信知识库中的嵌入向量进行对比，以发现诈骗短信是否存在新型短信欺诈行为；本发明专利技术通过综合利用文本分类算法、目标检测算法和图片内容提取算法，设计了多个内容过滤模块以过滤噪声数据，从而能够从海量的数据中快速准确的识别出诈骗短信，提高了新型欺诈行为发现的时效性的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息安全中的软件安全领域，具体涉及一种基于内容平台数据挖掘的短信信息安全检测方法及系统。

技术介绍

1、诈骗短信属于垃圾短信的一种，国内外相关学者在垃圾短信识别领域做了大量的研究，提出了一些可行的垃圾短信检测方法及规避策略。已有的方法主要分为：基于短信内容特征的垃圾短信检测方法和基于短信行为特征的垃圾短信检测方法。基于短信内容特征的垃圾短信检测方法种主要利用文本特征、统计特征、语义特征等短信内容特征，通过svm、贝叶斯网络等机器学习方法，来构建分类器，从而实现诈骗短信、非法广告短信等垃圾短信的检测。随着深度学习技术的快速发展，部分研究者通过引入rnn、fasttext等模型来提升垃圾短信检测的性能。同时，部分研究发布了垃圾短信标记数据集，以促进未来的垃圾短信检测研究。基于短信行为特征的垃圾短信检测方法主要从短信发送行为中提取与垃圾短信相关的特征，实现对垃圾短信的检测。部分研究聚焦于短信通讯的基础设施，例如假基站和短信网关，通过接收到的蜂窝信号等网络信号特征以及发送者的流量行为特征来检测垃圾短信，相关方法也能够提高对垃圾短信...

【技术保护点】

1.一种基于内容平台数据挖掘的短信信息安全检测方法，其特征在于，包括：获取内容平台中的历史短信信息数据，并构建短信信息安全检测知识库；获取待检测的短信数据；将待检测的短信数据输入到训练后的短信信息安全检测模型中，得到检测结果；

2.根据权利要求1所述的一种基于内容平台数据挖掘的短信信息安全检测方法，其特征在于，从内容平台中采集用户数据包括：利用网络爬虫技术周期性地对用户发布的短信相关的内容进行自动化采集。

3.根据权利要求1所述的一种基于内容平台数据挖掘的短信信息安全检测方法，其特征在于，采用分类器对采集的用户发布数据进行初步过滤处理包括：通过人工标记的方式对采集...

【技术特征摘要】

3.根据权利要求1所述的一种基于内容平台数据挖掘的短信信息安全检测方法，其特征在于，采用分类器对采集的用户发布数据进行初步过滤处理包括：通过人工标记的方式对采集的用户发布文本内容添加标签，得到训练数据集，其中标签分为“噪声数据”和“非噪声数据”；对中文短文本数据进行分词，并去除非中文字符和特殊符号；计算去除非中文字符和特殊符号的文本中每个词的tf-idf值，得到一个特征向量；根据分类标签和特征向量对svm分类器进行训练，并通过核函数将输入向量映射到高维空间，得到文本之间的相似性；采用十折交叉评估不同超参数组合的模型性能，根据交叉验证的平均性能指标，选择最优的超参数组合，得到分类器；采用分类器对用户发布数据进行滤波处理。

4.根据权利要求1所述的一种基于内容平台数据挖掘的短信信息安全检测方法，其特征在于，采用目标检测算法对初步过滤的数据进行识别包括：通过旋转矩形框标注工具rolabelimg标注图像，构建训练数据集；对训练数据集中的图像进行图像增强和归一化处理；将归一化后图像数据输入到yolov8网络模型中进行训练，通过前向和后向传播，迭代优化直至模型收敛，保存训练得到的模型权重；采用训练后的yolov8网络模型对过滤后的数据进行识别，得到短信数据。

...

【专利技术属性】
技术研发人员：胡阳雨，张又懿，马瑞波，陈昊，程克非，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人