一种非正常短消息识别方法及装置制造方法及图纸

技术编号:12852396 阅读:103 留言:0更新日期:2016-02-11 16:35
本发明专利技术公开了一种非正常短消息识别方法,所述方法包括:获取在第Q个标注周期内的第一短消息集合,所述第一短消息集合为在所述第Q个标注周期内的经过人工标注的短消息的集合;获取所述第一短消息集合中对每一条短消息的人工标注记录;依据所述标注记录,为每一条短消息配置相应的标注序列;依据所述标注序列,确定在所述第Q个标注周期内与所述标注序列相对应的短消息是否为非正常短消息;同时,本发明专利技术还公开了一种非正常短消息识别装置。本发明专利技术能够解决由于人工标注出错而带来的垃圾短信识别准确率不高的问题,进而可提高在海量数据系统中垃圾短信识别的效率及准确率。

【技术实现步骤摘要】

本专利技术涉及到识别技术,具体涉及一种非正常短消息识别方法及装置
技术介绍
随着通信技术的发展,用户之间不仅可W通过终端电话联系对方,还可W通过短 消息方式联系对方。随着短消息的流行,各种违法短信、不良短信、陷阱短信、广告短信等非 正常短消息(垃圾短信)严重干扰终端用户的日常生活。 为避免垃圾短信对用户产生的困惑,运营商通常在服务器侧应用垃圾短信识别方 法,通过该方法识别出垃圾短息,并将识别出的非垃圾短信发送至终端侧。 目前,在服务器侧,通常采用的垃圾短信识别方法为: 依据获取的垃圾短信训练集,建立垃圾短信识别模型;根据所建立的模型,对服务 器侧收集的短信进行逐条的判断,从而确定哪条短信为垃圾短信。其中,垃圾短信训练集虽 然能够突显垃圾短信的特征,但它是由人工标注完成的,比较适合于短信数量不多的情况。 对于海量数据系统,短信量较大,同时考虑到同一条短信在不同的时间或由不同的人来标 注该短信是否是垃圾短信,可能会产生不同的标注结果,如何在海量数据系统中,降低由人 工标注所带来的标注误差,进而提升垃圾短信识别的准确率成为了亟待解决的问题。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供一种非正常短消息识别方法及装 置,能够解决由人工标注所带来的标注误差,有效提高海量数据系统中垃圾短信识别效率 及准确率。 本专利技术实施例的技术方案是送样实现的: 本专利技术实施例提供了一种非正常短消息识别方法,所述方法还包括: 获取在第Q个标注周期内的第一短消息集合,所述第一短消息集合为在所述第Q 个标注周期内的经过人工标注的短消息的集合; 获取所述第一短消息集合中对每一条短消息的人工标注记录; 依据所述标注记录,为每一条短消息配置相应的标注序列; 依据所述标注序列,确定在所述第Q个标注周期内与所述标注序列相对应的短消 息是否为非正常短消息;其中,Q为正整数。 上述方案中,所述方法还包括: 为所述第一短消息集合中的每一条短消息配置的标注序列的元素的个数等于所 述短消息在所述第Q个标注周期内被人工标注的总次数M; 配置所述标注序列的每一元素的取值为与所述标注记录一一对应的预设值; 相应的,依据所述标注序列,确定在所述第Q个标注周期内与所述标注序列相对 应的短消息是否为非正常短消息,包括: 依据所述标注序列的元素的取值,确定在所述第Q个标注周期内与所述标注序列 相对应的短消息是否为非正常短消息。 上述方案中,所述预设值包括第一预设值及第二预设值,且所述标注记录表征所 述短消息在第m次标注为非正常短消息时,配置所述标注序列的第m个元素取值为第一预 设值;所述标注记录表征所述短消息在第m次标注为正常短消息时,配置所述标注序列的 第m个元素取值为第二预设值;其中,mE{1~M中的正整数}; 相应的,所述依据所述标注序列的元素的取值,确定在所述第Q次标注周期内与 所述标注序列相对应的短消息是否为非正常短消息,包括: 在所述标注序列中,计算取值为第一预设值的元素的数量,并配置为第一数量,计 算取值为第二预设值的元素的数量,并配置为第二数量,当所述第一数量超过所述第二数 量时,确定与所述标注序列相对应的短消息为非正常短消息;或者, 对所述标注序列中的元素进行采集,形成采样样本,在所述采样样本中,计算取值 为第一预设值的元素的数量,并配置为第一数量,计算取值为第二预设值的元素的数量,并 配置为第二数量,当所述第一数量超过所述第二数量时,确定在所述第Q个标注周期内与 所述标注序列相对应的短消息为非正常短消息;或者, 在所述标注序列中,搜索出连续取值为第一预设值和连续取值第二预设值的元素 块,计算连续取值为第一预设值的元素块中所包括的元素的数量,并配置为第一数量,计算 连续取值为第二预设值的元素块中所包括的元素的数量,并配置为第二数量,当所述第一 数量超过第二数量时,确定在所述第Q个标注周期内与所述标注序列相对应的短消息为非 正常短消息;或者, 配置所述标注序列为具有第一预设值和第二预设值两个状态的马尔科夫链,计算 状态之间的转移概率,当第一预设值状态的转移概率超过第二预设值状态的转移概率,确 定在所述第Q个标注周期内与所述标注序列相对应的短消息为非正常短消息。 上述方案中,所述依据所述标注序列,确定在所述第Q个标注周期内与所述标注 序列相对应的短消息是否为非正常短消息之后,所述方法还包括:在所述第一短消息集合中,计算出为所述短消息配置的标注序列的长度大于预设 的第一阔值时,确定在所述第Q个标注周期内对所述短消息是否为非正常短消息的判定结 果为第一级别可信度的判定结果。 上述方案中,所述依据所述标注序列,确定在所述第Q个标注周期内与所述标注 序列相对应的短消息是否为非正常短消息之后,所述方法还包括: 获取在第Q+1个标注周期内的第二短消息集合,所述第二短消息集合为在所述第 Q+1个标注周期内的经过人工标注的短消息的集合; 获取所述第一短消息集合与第二短消息集合中相同或相似度超过第一阔值的短 消息,并配置所述短消息为第一类型短消息; 获取所述第二短消息集合中对所述第一类型短消息的人工标注记录; 依据所述人工标注记录,为所述第一类型短消息配置相应的标注序列; 获取在第Q个标注周期内为所述第一类型短消息的标注序列; 将在所述第Q+1个标注周期内的标注序列与在第Q个标注周期内的标注序列进行 合并,形成合并标注序列; 依据所述合并标注序列,确定在所述第Q+1个标注周期内的与所述合并标注序列 相对应的所述第一类型短消息是否为非正常短消息,W维持或修正对所述第一类型短消息 在所述第Q个标注周期内的确定结果。 上述方案中,依据所述人工标注记录,为所述第一类型短消息配置相应的标注序 列,包括: 为所述第二短消息集合中的所述第一类型短消息配置的标注序列的元素的个数 等于所述第一类型短消息在所述第Q+1个标注周期内被人工标注的总次数r; 配置所述标注序列的每一元素的取值为与所述标注记录一一对应的预设值; 将在所述第Q+1个标注周期内的所配置的标注序列元素与在所述第Q个标注周期 内的标注序列元素进行合并,形成所述合并标注序列; 相应的,所述依据所述合并标注序列,确定在所述第Q+1个标注周期内与所述合 并标注序列相对应的所述第一类型短消息是否为非正常短消息,包括: 依据所述合并标注序列的元素的取值,确定在所述第Q+1个标注周期内与所述合 并标注序列相对应的第一类型短消息是否为非正常短消息。 上述方案中,所述预设值包括第一预设值及第二预设值时,且所述第一类型短消 息的标注记录表征所述短消息在所述第Q+1个标注周期内的第m'次标注为非正常短消息 时,配置所述标注序列的第m'个元素取值为第一预设值;所述第一类型短消息的标注记录 表征所述短消息在所述第Q+1个标注周期内的第m'次标注为正常短消息时,配置所述标注 序列的第m'个元素取值为第二预设值;其中,m'E{1~r中的正整数}; 相应的,依据所述合并标注序列的元素的取值,确定在所述第Q+1个标注周期内 的与所述合并标注序列相对应的第一类型短消息是否为非正常短消息,包括: 在所述合并标注序列中,计算取值为第一预设值的元素的数量,并配置为第一数 量,计算取值为第二预设值的元素的数量,并配置为第二数量本文档来自技高网...

【技术保护点】
一种非正常短消息识别方法,其特征在于,所述方法还包括:获取在第Q个标注周期内的第一短消息集合,所述第一短消息集合为在所述第Q个标注周期内的经过人工标注的短消息的集合;获取所述第一短消息集合中对每一条短消息的人工标注记录;依据所述标注记录,为每一条短消息配置相应的标注序列;依据所述标注序列,确定在所述第Q个标注周期内与所述标注序列相对应的短消息是否为非正常短消息;其中,Q为正整数。

【技术特征摘要】

【专利技术属性】
技术研发人员:张滨娄涛廖珺林华生贾强
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1