垃圾消息模型训练方法、垃圾消息识别方法及其装置制造方法及图纸

技术编号：11581390 阅读：86 留言：0更新日期：2015-06-10 14:44

本申请公开了垃圾消息模型的训练方法、垃圾消息的识别方法以及相应的装置。垃圾消息模型的训练方法包括：获取消息样本；对消息样本进行特征提取，得到消息样本的特征向量；以及采用监督学习方式对消息样本进行全量训练，得到垃圾消息模型，其中垃圾消息模型包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。按照本申请实施方式的技术方案，能够从大量的消息样本中发现隐含但事实存在的垃圾消息模式，这使得训练得到的垃圾消息模型具备对消息进行精确识别的能力。本申请实施方式的垃圾消息识别方法可以精确区分包含同一个特征的不同消息为垃圾消息还是正常消息，提高了识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请设及通信网络
，具体设及消息传送
，尤其设及垃圾消息模型的训练方法和装置，W及垃圾消息的识别方法和装置。
技术介绍
随着通信技术的发展，各种通信设备的使用为用户之间的交流提供了极大的便利，用户之间可W随时地传递文字、图片、语音和视频等通讯信息。然而，在大量的通讯消息中存在着相当一部分无用的、甚至带有欺诈性质的垃圾消息。该些垃圾消息给移动通信终端的用户造成了很大困扰。大量的垃圾消息不仅给通信系统的服务器和消息接收终端增加了额外的负担，而且对用户间的正常交流造成了干扰。现有的对垃圾消息识别方法主要有关键词黑名单方法和正则匹配方法。其中，关键词黑名单匹配方法首先对大量的垃圾消息进行分析，生成关键词库，然后对接收到的消息进行匹配，如果该消息中含有关键词，则认为该消息为垃圾消息；正则匹配方法通过正则表达式判断消息中是否存在匹配的某个字符串，如网址、电话号码等信息，如果存在，则判定该消息为垃圾消息。上述现有的实现方案都需要手工维护和更新，且大量的关键词库和正则表达式手工维护和更新难度大、成本高。并且，上述关键词黑名单和正则匹配方法实时性差，需要根据消息内容编写正则模板或者提取关键词，很难发现新出现的垃圾消息类型。此外，上述关键词黑名单和正则表达式方法一般都是根据经验设定或者从已经标记为垃圾消息的消息中提取，具有一定的随意性，无法识别不在关键词范围内的垃圾消息，识别率也难W保证。
技术实现思路
鉴于现有技术中的上述缺陷或不足，期望能够提供一种实时性好、识别率高的方案。为了实现上述一个或多个目的，本申请提供...

【技术保护点】
一种垃圾消息模型的训练方法，其特征在于，所述方法包括：获取消息样本，其中所述消息样本包括正常消息样本和垃圾消息样本；对所述消息样本进行特征提取，得到所述消息样本的特征向量；以及采用监督学习方式对所述消息样本进行全量训练，得到垃圾消息模型，其中所述垃圾消息模型包括所述特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。

【技术特征摘要】

【专利技术属性】
技术研发人员：王巍巍，罗雪峰，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人