信息分类处理方法、装置和终端制造方法及图纸

技术编号:5410590 阅读:252 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例提供了一种信息分类处理方法、装置和终端,该方法包括:将接收到的待分类信息进行分词处理,获得待分类信息的分词结果;根据待分类信息的分词结果和动态更新的贝叶斯训练结果,对待分类信息进行分类;所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果。本发明专利技术实施例,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,该动态更新的贝叶斯训练结果很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种信息分类处理方法、装置和终端。技术背景垃圾短信日益成为困扰通信运营商和手机用户的问题。中国互联网协会发布的 调查结果称,我国手机用户平均每周收到8. 条垃圾短信。目前,我国的手机用户数已 达6亿,根据上述调查结果可知,全国用户每天收到的垃圾短信可达7亿条以上。这些 垃圾短信不仅带来了通信网络压力,给用户带来了困扰,同时也带来了巨大的不良社会 影响和潜在社会问题。以往的垃圾短信过滤方法大多在网络侧实现,通过与网关相连的服务器或利用 网关服务器实现垃圾短信过滤。但是在网络侧进行的垃圾短信过滤方法,没有考虑到单 个用户对垃圾短信认定的差异性,而过分强调了垃圾短信的全网特征。由此,现有技术提供了在终端侧实现的垃圾短信过滤方法,该方法采用“黑白 名单” + “黑白关键词” + “关键词加权控制”,其具体过程如下步骤1、判断发送方是否属于用户定义的黑名单或白名单;若属于黑名单,则 判定为垃圾短信;若属于白名单,则判定为合法短信;若不属于黑名单和白名单,则执 行步骤2 ;步骤2、判断短信内容是否包含用户定义的黑关键词或白关键词;若包含黑关 键词,则判定为垃圾短信;若包含白关键词,则判定为合法短信;若不包含黑关键词和 白关键词,则执行步骤3;步骤3、从短信内容中挑选出存在于数据库中的垃圾关键词,根据数据库中对各 垃圾关键词标注的权重分,计算该短信的垃圾度,并根据该垃圾度判断该短信是否为垃 圾短信。现有技术中至少存在如下问题1、对于不断出现的垃圾短信发送方和垃圾短信新类型,用户需要不断增加黑白 名单和黑白关键词;由此,黑白关键词以及黑白名单的过滤效果取决于用户的添加意愿 和添加频频率;并且,用户不可能定义出所有垃圾短信发送方和所有黑关键词,随着过 滤效果的降低,用户自定义的意愿和频率都会逐渐降低,最终使这两种过滤手段失去原 有的作用,因此过滤效果不佳,也就是对短信进行分类的准确性较差。2、在计算短信的垃圾度的过程中,所使用的包括垃圾关键词的数据库,是由服 务器根据全网垃圾短信样本统计出的结果,没有考虑到单个用户对垃圾短信认定的差异 性,可能会导致对某些短信的分类产生误判。
技术实现思路
本专利技术实施例提供一种信息分类处理方法、装置和终端,用以提高信息分类的 准确性。本专利技术实施例提供一种信息分类处理方法,包括将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果;根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类 信息进行分类;所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯 自学习获得的贝叶斯训练结果。本专利技术实施例提供一种信息分类处理装置,包括分词获取模块,用于将接收到的待分类信息进行分词处理,获得所述待分类信 息的分词结果;过滤模块,用于根据所述待分类信息的分词结果和动态更新的贝叶斯训练结 果,对所述待分类信息进行分类;所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯 自学习获得的贝叶斯训练结果。本专利技术实施例还提供了一种终端,该终端包括本专利技术实施例提供的任一信息分 类处理装置。本专利技术实施例的信息分类处理方法、装置和终端,在使用嵌入式操作系统的终 端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行 增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于 该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终 端的个体差异性,有效的提高了信息分类的准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要 使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例, 对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。图1为本专利技术信息分类处理方法实施例一的流程图2为本专利技术信息分类处理方法实施例二的流程图3为本专利技术信息分类处理方法实施例三的流程图4为本专利技术信息分类处理方法实施例四的流程图5为本专利技术信息分类处理装置实施例一的结构图6为本专利技术信息分类处理装置实施例二的结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施 例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实 施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普 通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护 的范围。需要说明的是,本专利技术部分实施例是以手机短信为例,这只是为了方便说明, 本领域技术人员应该知道,但本专利技术实施例同样适用于其他情况下的信息接收,例如电 子邮件分类、寻呼机信息分类、基于internet的即时通讯软件(例如MSN、QQ)的信息 分类等。图1为本专利技术信息分类处理方法实施例一的流程图,如图1所示,该方法包 括步骤101、将接收到的待分类信息进行分词处理,获得待分类信息的分词结果。本专利技术实施例可以应用于各种需要对信息文本进行分类的嵌入式操作系统中, 例如手机终端需要将接收到的短信进行分类,分为垃圾短信和合法短信,以实现对垃 圾短信的过滤。当使用嵌入式操作系统的终端接收到待分类信息后,根据终端上存储的词典, 将该信息进行分词处理,得到该信息的分词结果。步骤102、根据待分类信息的分词结果和动态更新的贝叶斯训练结果,对待分类 信息进行分类;该动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝 叶斯自学习获得的贝叶斯训练结果。查询当前的贝叶斯训练结果,得到步骤101中获得的分词结果中存在于该贝叶 斯训练结果中的各个词语的贝叶斯后验概率,根据这些词语的贝叶斯后验概率计算该信 息的联合概率;若联合概率大于阈值,则该信息为第一分类信息,否则该信息为第二分 类信息。其中,在手机终端对短信进行过滤的过程中,第一分类信息可以为垃圾短信, 第二分类信息可以为合法短信。其中,贝叶斯训练结果包括信息样本库的所有词语中贝叶斯后验概率最高的 N个词语及其贝叶斯后验概率,N为预设的一自然数。为了能够满足个体用户对分类的差异性需求,本专利技术各实施例中的信息样本库 随着用户收发信息而不断动态更新。信息样本库中包括有多个信息样本,信息样本包 括信息的样本类型、信息的信息内容和信息的分词结果;其中信息的样本类型包括第 一分类信息样本和第二分类信息样本。当用户收发的信息中,出现一个具有新的信息样 本的信息时,就可以将该新的信息样本添加到信息样本库中,以更新信息样本库。其中 出现一个新的信息样本的情况包括一、终端中出现一新信息,例如用户使用手机发送 出一新短信或接收到一短信;二、终端中原有的信息样本的样本类型发生改变,例如在 手机终端中从垃圾箱转入收件箱一短信,则该短信的样本类型由垃圾短信样本转变为合 法短信样本,从收件箱转入垃圾箱一短信,则该短信的样本类型由合法短信样本转变为 垃圾短信样本。当信息样本库更新后,根据更新后的信息样本库进行增量贝叶斯自学习,得到 新的贝叶斯训练结果,以供下一次对接收到的待分类信息进行分类。本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发 的过程中,动态更本文档来自技高网
...

【技术保护点】
一种信息分类处理方法,其特征在于,包括:将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果;根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类,所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:王鹏靳伟
申请(专利权)人:成都市华为赛门铁克科技有限公司
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1