一种信息识别方法及系统技术方案

技术编号:15792014 阅读:114 留言:0更新日期:2017-07-09 22:59
本发明专利技术提供一种信息识别方法及系统,所述方法包括:获取目标检测信息;检测所述目标检测信息长度;当所述长度检测结果表明所述目标检测信息不小于长度阈值时,利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率;利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率;根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果。

【技术实现步骤摘要】
一种信息识别方法及系统
本专利技术涉及信息安全技术,尤其涉及一种信息识别方法及系统。
技术介绍
随着用户对手机终端的使用不断普及,利用手机短信进行诈骗的违法犯罪活动层出不穷。举例来说,以“中奖”为饵实施诈骗、冒充身份实施诈骗、利用违法行为实施各种类型的诈骗,如代开发票、办理假证、赌博网站等。另外,手机用户接收短信是无法选择的,所以处于被动地位,而且有些人的防骗意识也是比较薄弱的。此外,诈骗者还可以通过多种渠道获取特定人群的手机号码,这就进一步提高了诈骗目标的针对性,严重危害大家正常的生活和工作。为此,我们需要采用一些技术手段对这些违法、恶意等诈骗信息进行有效识别。
技术实现思路
有鉴于此,为解决现有技术中存在的相关问题,本专利技术实施例提供一种信息识别方法及系统。为达到上述目的,本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种信息识别方法,所述方法包括:获取目标检测信息;检测所述目标检测信息长度;当所述长度检测结果表明所述目标检测信息不小于长度阈值时,利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率;利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率;根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果。上述方案中,所述根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果,包括:对所述第一伪信息概率和所述第二伪信息概率进行计算,确定出所述目标检测信息的准伪信息概率;当所述准伪信息概率大于概率阈值,则得到所述目标检测信息为伪信息的识别结果;当所述准伪信息概率不大于概率阈值,则得到所述目标检测信息为非伪信息的识别结果。上述方案中,所述利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率,包括:利用伪信息四要素构建伪信息决策树;根据所构建的伪信息决策树,确定所述目标检测信息为伪信息的概率,得到第一伪信息概率。上述方案中,利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率,包括:对训练样本集进行特征选择,得到训练样本;根据训练样本构造伪信息分类器;利用所构造的伪信息分类器确定所述目标检测信息对应的第二伪信息概率。上述方案中,所述对训练样本集进行特征选择,包括:采用平滑算法对训练样本集进行特征选取。上述方案中,所述获取目标检测信息,包括:采集检测信息;对检测信息进行信息预处理,得到目标检测信息。本专利技术实施例还提供一种信息识别系统,所述系统包括获取模块、长度检测模块、第一伪信息概率确定模块、第二伪信息概率确定模块和识别模块;所述获取模块,用于获取目标检测信息;所述长度检测模块,用于检测所述目标检测信息长度;所述第一伪信息概率确定模块,用于当所述长度检测结果表明所述目标检测信息不小于长度阈值,利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率;所述第二伪信息概率确定模块,用于利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率;所述识别模块,用于根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果。上述方案中,所述识别模块包括计算单元和识别单元;其中,所述计算单元,用于根据所述第一伪信息概率和所述第二伪信息概率确定出所述目标检测信息的准伪信息概率;所述识别单元,用于当所述准伪信息概率大于概率阈值,则得到所述目标检测信息为伪信息的识别结果;当所述准伪信息概率不大于概率阈值,则得到所述目标检测信息为非伪信息的识别结果。上述方案中,所述第一伪信息概率确定模块包括决策树构建单元和第一确定单元;其中,所述决策树构建单元,用于利用伪信息四要素构建伪信息决策树;所述第一确定单元,用于根据所构建的伪信息决策树,确定所述目标检测信息为伪信息的概率,得到第一伪信息概率。上述方案中,所述第二伪信息概率确定模块包括特征选择单元、分类器构造单元和第二确定单元;其中,所述特征选择单元,用于对训练样本集进行特征选择,得到训练样本;所述分类器构造单元,用于根据训练样本构造伪信息分类器;所述第二确定单元,用于利用所构造的伪信息分类器来确定所述目标检测信息对应的第二伪信息概率。上述方案中,所述特征选择单元,还用于采用平滑算法对训练样本集进行特征选取。上述方案中,所述获取模块包括采集单元和预处理单元;其中,所述采集单元,用于采集检测信息;所述预处理单元,用于对检测信息进行信息预处理,得到目标检测信息。本专利技术实施例所提供的信息识别方法及系统,获取目标检测信息;检测所述目标检测信息长度;所述长度检测结果表明所述目标检测信息不小于长度阈值,利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率;利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率;根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果。如此,通过本专利技术实施例所述信息识别方法,能够有效降低误判、漏判,提高系统的识别能力,具有较高的实用价值。附图说明图1a为本专利技术实施例信息识别方法的流程示意图一;图1b为本专利技术实施例长度阈值对短信息误判率的变化梯度曲线图;图2a为本专利技术实施例信息识别方法的流程示意图二;图2b为本专利技术实施例所构建的伪短信决策树的组成结构示意图;图3为本专利技术实施例信息识别方法的流程示意图三;图4为本专利技术实施例信息识别方法的流程示意图四;图5为本专利技术实施例信息识别方法的流程示意图五;图6为本专利技术实施例信息识别系统的组成结构示意图。具体实施方式下面结合附图及具体实施例对本专利技术再作进一步详细的说明。在本专利技术实施例中,获取目标检测信息;检测所述目标检测信息长度;当所述长度检测结果表明所述目标检测信息不小于长度阈值,利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率;利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率;根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果。实施例一图1a为本专利技术实施例信息识别方法的流程示意图一,如图1a所示,本专利技术实施例信息识别方法包括:步骤101:获取目标检测信息;这里,所述目标检测信息可以为以文本为形式的短信息,如手机用户所接收的短信,基于QQ、微信等聊天工具中的短消息等。步骤102:检测所述目标检测信息长度;这里,对于诸如诈骗信息在内的伪信息而言,虽然其在内容上的表现千差万别,但是为了达到诈骗目的一般要包含金钱、银行卡信息、联系方式(电话或者QQ等媒介)、外链网站+验证码等四个要素,故伪信息为了传达完整的信息则其信息长度必然要大于某一长度阈值。具体地,对所述目标检测信息进行长度检测包括:检测所述目标检测信息的信息长度;将所述信息长度与长度阈值进行比较,以得到长度检测结果。这里,需要补充说明的是,以短信息为例,本专利技术实施例所涉及的长度阈值是由系统预先设定的,且用来过滤较短的正常短信息的。一般来将,短信息的特点是文字长度在1~70个字之间,其中只包含几个字的口语化的正常短信占较大比例,本系统在判定初期直接根据信息长度来过滤正常短信息,这样大大减少判定工作量,所以确定短信息的信息长度阈值TL是判断正常短信息和伪信息的重要判定手段之一。在实际应用中,系统可以根据之间几个月的数据,量化统计来判定长度阈值本文档来自技高网...
一种信息识别方法及系统

【技术保护点】
一种信息识别方法,其特征在于,所述方法包括:获取目标检测信息;检测所述目标检测信息长度;当所述长度检测结果表明所述目标检测信息不小于长度阈值时,利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率;利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率;根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果。

【技术特征摘要】
1.一种信息识别方法,其特征在于,所述方法包括:获取目标检测信息;检测所述目标检测信息长度;当所述长度检测结果表明所述目标检测信息不小于长度阈值时,利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率;利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率;根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一伪信息概率和所述第二伪信息概率来识别所述目标检测信息是否为伪信息,得到识别结果,包括:根据所述第一伪信息概率和所述第二伪信息概率确定出所述目标检测信息的准伪信息概率;当所述准伪信息概率大于概率阈值,则得到所述目标检测信息为伪信息的识别结果;当所述准伪信息概率不大于概率阈值,则得到所述目标检测信息为非伪信息的识别结果。3.根据权利要求1所述的方法,其特征在于,所述利用伪信息决策树确定所述目标检测信息对应的第一伪信息概率,包括:利用伪信息四要素构建伪信息决策树;根据所构建的伪信息决策树,确定所述目标检测信息为伪信息的概率,得到第一伪信息概率。4.根据权利要求1所述的方法,其特征在于,利用伪信息分类器确定所述目标检测信息对应的第二伪信息概率,包括:对训练样本集进行特征选择,得到训练样本;根据训练样本构造伪信息分类器;利用所构造的伪信息分类器来确定所述目标检测信息对应的第二伪信息概率。5.根据权利要求4所述的方法,其特征在于,所述对训练样本集进行特征选择,包括:采用平滑算法对训练样本集进行特征选取。6.根据权利要求1所述的方法,其特征在于,所述获取目标检测信息,包括:采集检测信息;对检测信息进行信息预处理,得到目标检测信息。7.一种信息识别系统,其特征在于,所述系统包括获取模块、长度检测模块、第一伪信息概率确定模块、第二伪信息概率确定模块和识别模块;所述获取模块,用于获取目标检测信息;所述长度检测模...

【专利技术属性】
技术研发人员:孙洋粟栗周晶胡俊张峰
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1