基于移动互联网有害信息的数据挖掘系统及其方法技术方案

技术编号:8722611 阅读:241 留言:0更新日期:2013-05-22 16:08
本发明专利技术公开了一种基于移动互联网有害信息的数据挖掘系统及其方法,涉及移动互联网领域。本发明专利技术根据移动互联网有害信息的独有特征,建立有针对性的模型,专门针对移动互联网有害信息进行过滤,因此针对性好,识别率高,效果较传统判断方法更加科学;本发明专利技术采取数据挖掘、机器学习、信息论等领域算法,综合改进了移动互联网有害信息的过滤算法,将模型推向了高维空间进行分类判断;同时采用了较好的结构模块,使得过滤系统准确性的提升有较大的灵活性和可扩展性。

【技术实现步骤摘要】

本专利技术涉及移动互联网领域,尤其涉及一种。
技术介绍
随着移动互联网技术的快速发展,承载在互联网上的信息越来越多,这其中就有很多对社会有害的信息,比如黄、赌、毒等。如何从互联网的海量信息中挖掘这些有害信息,进而挖掘出有害信息的源头,做到先期预防。而互联网上的信息是海量的,有害信息是相对少量的,如何在海量信息中准确提取少量信息,主要还是通过数学建模的方式去做。目前对于移动互联网上的有害信息只是通过简单的字符查询进行的浅层挖掘,还未提升到基于文本内容上的挖掘。表达相同含义的文本一定有着类似词语使用情况,比如体育文本含有NBA(全美篮球协会)、足球、欧锦赛、世界杯等的概率会大大高于其他类型的文本词语;同时股票文本包含股市、涨停、跌停等词的概率也会大大高于其他类型的文本词语。如果从每种类型的文本中找到这种特征并利用这种特征建立一个数学模型,就可以帮助建立一种移动互联网有害信息的分类方法。本专利技术适用于运营商核心网平台。基于运营商核心网平台,从核心网平台的roSN(Packet Data Serving Node,分组数据服务节点)设备进行分光,获取核心网全量数据,解析还原后得到可以应用于数据挖掘的数据,再使用本专利技术对这些数据进行有害信息的挖掘。
技术实现思路
本专利技术的目的就在于克服现有技术存在的缺点和不足,提供一种。本专利技术的目的是这样实现的: 建立起一个好的数学模型,过滤出有害信息,并集中展现这些有害信息。一、基于移动互联网有害信息数据挖掘系统(简称系统) 本系统依托于运营商核心网,设置有数据采集单元、数据还原单元、数据存储单元、有害信息数据挖掘单元、有害信息存储单元和用户展现单元; 运营商核心网、数据采集单元、数据还原单元、数据存储单元依次连接,实现对可读信息的还原; 有害信息数据挖掘单元和数据存储单元连接,实现对数据存储单元里的数据进行直接挖掘;数据存储单元、有害信息存储单元和用户展现单元依次连接,实现有害信息的集中展现。二、移动互联网有害信息数据挖掘方法(简称方法) 本方法包括下列步骤: ①从运营商核心网采集数据后经过还原、存储得到用户的全量信息; ②将移动互联网上的有害信息中的某一类(例如毒品)文本,进行人工选取若干条作为正样本,再选取若干条其它无害信息的文本作为负样本; ③对已知的有害信息进行建模,再通过数据挖掘方法对待定信息进行有害性判断。本专利技术对比现有技术有如下优点和积极效果: ①根据移动互联网有害信息的独有特征,建立有针对性的模型,专门针对移动互联网有害信息进行过滤,因此针对性好,识别率高,效果较传统判断方法更加科学; ②传统判断有害信息的方法多以条件判断或特定字符串匹配进行,条件判断方法只能在低维空间中判断少数几种特征,特定字符串匹配方法无法消除词语二义性判断;本专利技术可完全克服传统有害信息过滤方法的不足,建立的模型基于高维空间,判断更准确,通过统计学算法可以有效判定词语的二义性; ③本专利技术将整个有害信息系统有机地分为两个模块,即模型建立和样本分割,两个模块可以单独进行优化,有效地提高了本专利技术的可扩展性;在模型建立模块中,可以增加判断特征(词)对于系统重要性的算法来综合检验模型的效果,在样本分割模块,可以选择更多的机器学习分类算法。总之,本专利技术采取数据挖掘、机器学习、信息论等领域算法,综合改进了移动互联网有害信息的过滤算法,将模型推向了高维空间进行分类判断;同时采用了较好的结构模块,使得过滤系统准确性地提升有较大的灵活性和可扩展性。附图说明图1是本系统的结构方框 图2是有害信息数据挖掘单元的结构方框图。其中 000一运营商核心网; 100—数据采集单元; 200—数据还原单元; 300—数据存储单元; 400—有害信息数据挖掘单元, 401—待过滤数据模块,402—分词模块, 403—分好类的有害信息语料库模块,404—MI模块,405—IG模块, 406—PCA模块,407—数据进行格式转换和处理模块, 408—特征向量模块,409—分类器模块,410—训练样本特征库模块, 411一通知展现模块。500—有害信息存储单元; 600—展现单元。英译汉: 1> TF-1DF—Term Frequency-1nverse Document Frequency,反文档词步页; 2、HP—hyperplane,超平面; 3、SVM—SupportVector Machine,支持向量机; 4、MI—MutualInformation,互信息; 5、IG—InformationGain,信息增益; 6、PCA—PrincipalComponents Analysis,主成分分析法。具体实施例方式下面结合附图和实施例详细说明: 一、系统 1、总体 如图1,本系统依托于运营商核心网000,设置有数据采集单元100、数据还原单元200、数据存储单元300、有害信息数据挖掘单元400、有害信息存储单元500和用户展现单元600 ; 运营商核心网000、数据采集单元100、数据还原单元200、数据存储单元300依次连接,实现对可读信息的还原; 有害信息数据挖掘单元400和数据存储单元300连接,实现对数据存储单元300里的数据进行直接挖掘; 数据存储单元300、有害信息存储单元500和用户展现单元600依次连接,实现有害信息的集中展现。2、功能块 0)运营商核心网000 运营商核心网000是移动互联网运营商的数据传输和交互中心。I)数据采集单元100 数据采集单元100是一种基于AMD64位硬件系统的功能软件,负责从运营商核心网000采集用户上网的信令和业务数据,对移动互联网承载协议和应用协议进行解析,并将结果发送给数据还原单元200。2)数据还原单元200 数据还原单元200是一种基于AMD64位硬件系统的功能软件,负责还原用户上网的应用层数据内容。3)数据存储单元300 数据存储单元300是一种基于AMD64位硬件系统的功能软件,负责将数据还原单元200还原出来的用户应用层数据内容按照一定的格式进行存放,方便读取。4)有害信息数据挖掘单元400 有害信息数据挖掘单元400是一种基于AMD64位硬件系统的功能软件,负责从数据存储单元300读取内容,进行有害信息的数据挖掘,发现黄赌毒等有害信息,并将其发送给有害信息存储单元300 ; 具体地说,如图2,有害信息数据挖掘单元400包括待过滤数据模块401、分词模块402、分好类的有害信息语料库模块403、MI模块404、IG模块405、PCA模块406、数据进行格式转换和处理模块407、特征向量模块408、分类器模块409、训练样本特征库模块410和通知展现模块411 ; 分词模块402连接待过滤数据模块401,将生成的数据放入数据进行格式转换和处理模块407 ; 分词模块402、MI模块404、IG模块405和PCA模块406共同连接到分好类的有害信息语料库模块403,将生成的数据放入特征向量模块408 ; 分类器模块409连接到数据进行格式转换和处理模块407,获取预处理数据; 训练样本特征库模块410连接数据特征向量模块408,将获取到的数据放本文档来自技高网...

【技术保护点】
一种基于移动互联网有害信息的数据挖掘系统,其特征在于:本系统依托于运营商核心网(000),设置有数据采集单元(100)、数据还原单元(200)、数据存储单元(300)、有害信息数据挖掘单元(400)、有害信息存储单元(500)和用户展现单元(600);运营商核心网(000)、数据采集单元(100)、数据还原单元(200)、数据存储单元(300)依次连接,实现对可读信息的还原;有害信息数据挖掘单元(400)和数据存储单元(300)连接,实现对数据存储单元(300)里的数据进行直接挖掘;数据存储单元(300)、有害信息存储单元(500)和用户展现单元(600)依次连接,实现有害信息的集中展现。

【技术特征摘要】
1.一种基于移动互联网有害信息的数据挖掘系统,其特征在于: 本系统依托于运营商核心网(000),设置有数据采集单元(100)、数据还原单元(200)、数据存储单元(300)、有害信息数据挖掘单元(400)、有害信息存储单元(500)和用户展现单元(600); 运营商核心网(000)、数据采集单元(100)、数据还原单元(200)、数据存储单元(300)依次连接,实现对可读信息的还原; 有害信息数据挖掘单元(400 )和数据存储单元(300 )连接,实现对数据存储单元(300 )里的数据进行直接挖掘; 数据存储单元(300)、有害信息存储单元(500)和用户展现单元(600)依次连接,实现有害信息的集中展现。2.按权利要求1所述的数据挖掘系统,其特征在于所述的有害信息数据挖掘单元(400)是: 分词模块(402)连接待过滤数据模块(401),将生成的数据放入数据进行格式转换和处理模块(407); 分词模块(402)、MI模块(404)、IG模块(405)和PCA模块(406)共同连接到分好类的有害信息语料库模块(403),将生成的数据放入特征向量模块(408); 分类器模块(409)连接到数据进行格式转换和处理模块(407),获取预处理数据; 训练样本特征库模块(410)连接数据特征向量模块(408),将获取到的数据放入到分类器模块(409),最后得到的结果导入到通知展现模块(411); 待过滤数据模块(401)、分词模块(402...

【专利技术属性】
技术研发人员:陈翟翟舒张磊黄峰
申请(专利权)人:武汉虹旭信息技术有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1