垃圾消息模型训练方法、垃圾消息识别方法及其装置制造方法及图纸

技术编号:11581390 阅读:86 留言:0更新日期:2015-06-10 14:44
本申请公开了垃圾消息模型的训练方法、垃圾消息的识别方法以及相应的装置。垃圾消息模型的训练方法包括:获取消息样本;对消息样本进行特征提取,得到消息样本的特征向量;以及采用监督学习方式对消息样本进行全量训练,得到垃圾消息模型,其中垃圾消息模型包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。按照本申请实施方式的技术方案,能够从大量的消息样本中发现隐含但事实存在的垃圾消息模式,这使得训练得到的垃圾消息模型具备对消息进行精确识别的能力。本申请实施方式的垃圾消息识别方法可以精确区分包含同一个特征的不同消息为垃圾消息还是正常消息,提高了识别的准确率。

【技术实现步骤摘要】

本申请设及通信网络
,具体设及消息传送
,尤其设及垃圾消息 模型的训练方法和装置,W及垃圾消息的识别方法和装置。
技术介绍
随着通信技术的发展,各种通信设备的使用为用户之间的交流提供了极大的便 利,用户之间可W随时地传递文字、图片、语音和视频等通讯信息。 然而,在大量的通讯消息中存在着相当一部分无用的、甚至带有欺诈性质的垃圾 消息。该些垃圾消息给移动通信终端的用户造成了很大困扰。大量的垃圾消息不仅给通信 系统的服务器和消息接收终端增加了额外的负担,而且对用户间的正常交流造成了干扰。 现有的对垃圾消息识别方法主要有关键词黑名单方法和正则匹配方法。其中,关 键词黑名单匹配方法首先对大量的垃圾消息进行分析,生成关键词库,然后对接收到的消 息进行匹配,如果该消息中含有关键词,则认为该消息为垃圾消息;正则匹配方法通过正则 表达式判断消息中是否存在匹配的某个字符串,如网址、电话号码等信息,如果存在,则判 定该消息为垃圾消息。 上述现有的实现方案都需要手工维护和更新,且大量的关键词库和正则表达式手 工维护和更新难度大、成本高。并且,上述关键词黑名单和正则匹配方法实时性差,需要根 据消息内容编写正则模板或者提取关键词,很难发现新出现的垃圾消息类型。此外,上述关 键词黑名单和正则表达式方法一般都是根据经验设定或者从已经标记为垃圾消息的消息 中提取,具有一定的随意性,无法识别不在关键词范围内的垃圾消息,识别率也难W保证。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望能够提供一种实时性好、识别率高的方 案。为了实现上述一个或多个目的,本申请提供了垃圾消息模型的训练方法和装置W及垃 圾消息的识别方法和装置。 第一方面,本申请提供了一种垃圾消息模型的训练方法,该方法包括:获取消息样 本,其中消息样本包括正常消息样本和垃圾消息样本;对消息样本进行特征提取,得到消息 样本的特征向量;W及采用监督学习方式对消息样本进行全量训练,得到垃圾消息模型,其 中垃圾消息模型包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件 概率。[000引第二方面,本申请提供了一种垃圾消息的识别方法,该方法包括:对待识别消息进 行特征提取,得到待识别消息的特征向量;对特征向量中的每一个特征,在垃圾消息模型中 查找仅包含该特征的消息为垃圾消息的条件概率,其中垃圾消息模型依据消息样本训练得 至IJ;根据特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概率,计 算包含特征向量中所有特征的待识别消息为垃圾消息的联合概率;W及响应于联合概率大 于垃圾消息概率阔值,确定待识别消息为垃圾消息。 第=方面,本申请提供了一种垃圾消息模型的训练装置,该装置包括:获取单元, 配置用于获取消息样本,其中消息样本包括正常消息样本和垃圾消息样本;特征提取单元, 配置用于对消息样本进行特征提取,得到消息样本的特征向量;W及训练单元,配置用于采 用监督学习方式对消息样本进行全量训练,得到垃圾消息模型,其中垃圾消息模型包括特 征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。 第四方面,本申请提供了一种垃圾消息的识别装置,该装置包括:特征提取单元, 配置用于对待识别消息进行特征提取,得到待识别消息的特征向量;查找单元,配置用于对 特征向量中的每一个特征,在垃圾消息模型中查找仅包含该特征的消息为垃圾消息的条件 概率,其中垃圾消息模型依据消息样本训练得到;计算单元,配置用于根据特征向量中每一 个特征所对应的仅包含该特征的消息为垃圾消息的条件概率,计算包含特征向量中所有特 征的待识别消息为垃圾消息的联合概率;W及确定单元,配置用于响应于联合概率大于垃 圾消息概率阔值,确定待识别消息为垃圾消息。 本申请提供的垃圾消息模型的训练方法和装置,能够从大量的消息样本中发现隐 含但事实存在的垃圾消息模式,该使得训练得到的垃圾消息模型具备对消息进行精确识别 的能力。本申请实施方式的垃圾消息识别方法可W精确区分包含同一个关键词的垃圾消息 和正常消息,提高了识别的准确率。【附图说明】 通过阅读参照W下附图所作的对非限制性实施例的详细描述,本申请的其它特 征、目的和优点将会变得更明显: 图1示出了可W应用本申请实施例的示例性系统架构;图2示出了根据本申请一个实施例的垃圾消息模型的训练方法的示例性流程图; 图3示出了根据本申请一个实施例的全量训练方法的示例性流程图;图4示出了根据本申请另一个实施例的垃圾消息模型的训练方法的示例性流程 图; 图5示出了根据本申请一个实施例的垃圾消息的识别方法的示例性流程图;[001引图6示出了根据本申请一个实施例的确定垃圾消息概率阔值的示例性流程图; 图7示出了根据本申请另一个实施例的垃圾消息识别方法的示例性流程图; 图8示出了根据本申请实施例的垃圾消息模型的训练装置的结构示意图; 图9示出了根据本申请实施例的垃圾消息的识别装置的结构示意图拟及 图10示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结 构示意图。【具体实施方式】 下面结合附图和实施例对本申请作进一步的详细说明。可W理解的是,此处所描 述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关专利技术相关的部分。 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可W相 互组合。下面将参考附图并结合实施例来详细说明本申请。 图1示出了可W应用本申请实施例的示例性系统架构100。如图1所示,系统架构100可W包括终端设备101、102、网络103和服务器104。网 络103用W在终端设备101、102和服务器104之间提供通信链路的介质。网络103可W包 括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。 用户110可W使用终端设备1〇1、1〇2通过网络103与服务器104交互,W接收或 发送消息等。终端设备1〇1、1〇2上可W安装有各种通讯客户端应用,例如即时通信工具、邮 箱客户端、社交平台软件等。[002引终端设备101、102可W是各种电子设备,包括但不限于个人电脑、智能手机、智能 手表、平板电脑、个人数字助理等等。 服务器104可W是提供各种服务的服务器。服务器可W对接收到的数据进行存 储、分析等处理,并将处理结果反馈给终端设备。 需要说明的是,本申请实施例所提供的垃圾消息模型的训练方法W及垃圾消息的 识别方法可W由终端设备101、102执行,也可W由服务器104执行,垃圾消息模型的训练装 置及垃圾消息的识别装置可W设置于终端设备1〇1、1〇2中,也可W设置于服务器104中。在 一些实施例中,垃圾消息模型可W在服务器104中进行训练,训练后的垃圾消息模型可W 存储在终端设备1〇1、1〇2中,W用于识别垃圾消息。例如,在对垃圾消息进行识别时,如果 网络103通畅,可W由服务器104进行垃圾消息识别后返回是否为垃圾消息,如果没有网络 或网络103不畅通,可W由终端设备1〇1、1〇2进行垃圾消息识别,直接判别消息是否为垃圾 消息。 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需 要,可W具有任意数目的终端设备、网络和服务器。 本发本文档来自技高网...

【技术保护点】
一种垃圾消息模型的训练方法,其特征在于,所述方法包括:获取消息样本,其中所述消息样本包括正常消息样本和垃圾消息样本;对所述消息样本进行特征提取,得到所述消息样本的特征向量;以及采用监督学习方式对所述消息样本进行全量训练,得到垃圾消息模型,其中所述垃圾消息模型包括所述特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。

【技术特征摘要】

【专利技术属性】
技术研发人员:王巍巍罗雪峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1