一种信息处理的方法及电子设备技术

技术编号:11625298 阅读:73 留言:0更新日期:2015-06-18 04:14
本发明专利技术公开了一种信息处理方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。通过该方法,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。

【技术实现步骤摘要】

本专利技术涉及电子
,尤其涉及一种信息处理的方法及电子设备
技术介绍
垃圾信息过滤是应用自然语言处理技术,对手机以及其他即时通讯软件接收到的 带有欺骗、色情、广告等内容的短信进行过滤。 从信息内容的是否合法的角度来看,垃圾信息可分为非法垃圾信息和普通垃圾信 息。非法垃圾信息的类型包括诈骗、色情服务、发票等,这类垃圾信息为避免被关键词过滤 系统过滤,对信息中出现的关键词汇通常采用变体处理,如"发票"变体为"发\票\"。普 通垃圾信息的主要房产广告、运营商推送信息、商家促销活动信息等,这类垃圾信息一般不 包含变体。 已有的垃圾信息过滤方法主要存在以下问题: 通过垃圾信息中出现的关键词进行过滤,难以避免自然语言经常出现的组合;依 据文本的词汇语法特征对文本进行过滤,难以过滤掉不包含明显语法特征的垃圾信息;所 需数据资源规模大,难以直接部署到手机客户端,需要将信息上传至服务器进行过滤,这存 在泄露用户隐私风险。 因此,迫切需要一种能提高垃圾信息过滤精度的方法,从而更好保护用户隐私,提 高垃圾信息过滤的准确性。
技术实现思路
本申请实施例通过提供一种信息处理的方法及电子设备,消除了现有技术中垃圾 信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。 本申请实施例提供了一种信息处理方法,应用于一电子设备中,所述电子设备能 够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一 预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾 信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结 果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾 信息。 可选的,所述通过第一预定规则判断所述信息是否为垃圾信息,包括:检测第一类 字符在所述信息中的种类和/或数量是否达到第一预设条件。 可选的,所述将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹 配,判断匹配结果是否满足第二预定规则,具体包括:保留所述信息中的文字字符,去除所 述信息中的其它字符符号,获得信息文本;将所述信息文本与所述垃圾信息样本数据库中 的垃圾信息样本进行匹配;判断所述信息文本与所述垃圾信息样本相似值是否达到一预设 值。 可选的,当所述信息为垃圾信息时,所述方法还包括:保留所述信息中的文字字 符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本添加到所述垃圾信息 样本数据库中。 可选的,所述通过第三预定规则判断所述信息是否为垃圾信息,具体包括:对所述 信息进行语义分析,获得一分析结果;基于一预定义的垃圾短信语义文法规则,判断所述分 析结果是否与所述垃圾短信语义文法规则匹配。 可选的,所述方法还包括:去除所述垃圾信息样本数据库中出现频率小于第二预 设值的词汇;去除所述词汇的子串词汇。 可选的,所述电子设备还能够获得一合法词汇表,判断所述信息为垃圾信息后,所 述方法还包括:检测所述信息中是否包含有所述合法词汇表的字符;当所述信息包含所述 合法词汇表的字符,召回所述信息。 本专利技术还提供了一种电子设备,能够获得一垃圾信息样本数据库,所述电子设备 包括:第一处理模块,用于当所述电子设备接收到一信息时,通过第一预定规则判断所述信 息是否为垃圾信息;第二处理模块,用于当通过所述第一预定规则判断所述信息不是垃圾 信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结 果是否满足第二预定规则;第三处理模块,用于当匹配不成功时,通过第三预定规则判断所 述"[目息是否为垃圾彳目息。 可选的,所述第一处理模块具体用于:检测第一类字符在所述信息中的种类和/ 或数量是否达到第一预设条件。 可选的,所述第二处理模块具体用于:保留所述信息中的文字字符,去除所述信息 中的其它字符符号,获得信息文本;将所述信息文本与所述垃圾信息样本数据库中的垃圾 信息样本进行匹配;判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。 可选的,所述电子设备还包括:第四处理模块,用于当所述信息为垃圾信息时,保 留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文 本添加到所述垃圾信息样本数据库中。 可选的,所述第三处理模块具体用于:对所述信息进行语义分析,获得一分析结 果;基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义 文法规则匹配。 可选的,所述电子设备还包括:第五处理模块,用于去除所述垃圾信息样本数据库 中出现频率小于第二预设值的词汇;去除所述词汇的子串词汇。 可选的,所述电子设备还能够获得一合法词汇表,所述电子设备还包括:第六处理 模块,用于判断所述信息为垃圾信息后,检测所述信息中是否包含有所述合法词汇表的字 符;当所述信息包含所述合法词汇表的字符,召回所述信息。 本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点: 首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样本 数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。通 过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤精 度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。【附图说明】 图1A-图1C为本专利技术一实施例中的信息处理方法的流程图; 图2A-图2C为本专利技术一实施例中基于相似性的过滤方法的流程图;图3A-图3C为本专利技术一实施例中根据预定义的垃圾短信语义文法规则,对短信文 本内容进行匹配的方法流程图;图4为本专利技术一实施例中的电子设备的功能框图。【具体实施方式】本申请实施例通过提供一种信息处理的方法及电子设备,消除了现有技术中垃圾 信息过滤精度有限的技术问题,实现了从语法和语义相结合角度对垃圾信息进行过滤,进 而提高了垃圾信息过滤准确性的技术效果。本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:本专利技术一实施例中提供一种信息处理的方法,应用于一电子设备中,所述电子设 备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过 第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是 垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹 配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为 垃圾信息。首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样 本数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。 通过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤 精度有限的技术问题,实现了从语法和语义相结合角度对垃圾信息进行过滤,进而提高了 垃圾信息过滤准确性的技术效果。为了更好的理解上述技术方案,下面结合附图对本申请实施例技术方案的主要实 现原理、【具体实施方式】及其对应能够达到的有益效果进行详细的阐述。 请参考图1A,本专利技术一实施例提供一种信息处理的方法,应用于一电子设备中,该 电子设备可以是笔记本电脑,平板电脑,手机等等。该本文档来自技高网...
一种信息处理的方法及电子设备

【技术保护点】
一种信息处理的方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴昱明周丹王石曹存根贾炜
申请(专利权)人:联想北京有限公司中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1