一种消息处理方法及装置制造方法及图纸

技术编号:20729778 阅读:21 留言:0更新日期:2019-03-30 19:23
本发明专利技术涉及消息处理技术领域,特别涉及一种消息处理方法及装置。该方法为:从获取的待处理消息中提取消息内容;根据待处理消息的消息内容,计算待处理消息的消息指纹值;根据当前统计周期内获取到的每一待处理消息的消息指纹值,确定出每一待处理消息分别对应的相似消息的数量;根据每一待处理消息分别对应的相似消息的数量,分别判断每一待处理消息是否为合规消息。采用上述方法,通过计算一个统计周期内获取到的每一待处理消息的消息指纹值,并统计每一待处理消息的相似消息的数量,以及根据每一待处理消息的相似消息的数量,对待处理消息进行违规鉴别处理,提高了对违规消息的鉴别范围,拓宽了违规消息的鉴别维度。

【技术实现步骤摘要】
一种消息处理方法及装置
本专利技术涉及消息处理
,特别涉及一种消息处理方法及装置。
技术介绍
随着互联网的发展,智能终端的普及,及短消息技术的发展,在人们的日常学习、工作和生活中,短消息的使用越来越广泛,也给人们的生活带来了极大的便利,同时,短消息的形式也越来越多样化,相应的,短消息的内容也越来越多样化,如,正常消息和消息内容中包含有用于欺诈、骚扰、广告或禁止传播的垃圾消息。目前,基于内容的反垃圾消息的产品在
上可分为:垃圾消息发现,垃圾消息识别和垃圾消息处理三大类别。其中,垃圾消息发现是其中最重要的一个环节,垃圾消息发现的广度和精确度直接影响反垃圾消息产品的工作效率。现有技术中,在垃圾消息发现工作中广泛使用的技术手段是消息指纹判断技术,即当一条消息被判定为垃圾消息时,针对该垃圾消息,通过摘要算法生成一条16进制的32位MD5值,即消息指纹,该MD5值与该垃圾消息相对应。反垃圾消息系统将该MD5值存储在违规消息指纹库中,当检测到业务平台中存在与违规指纹库中任一违规消息指纹相同的消息指纹的消息在传播时,直接判定该消息为垃圾消息,并迅速进行拦截,以防止扩散。然而,由于摘要指纹算法有非常强的抗修改性,即只要对原数据进行任何改动,即便只有1个字节的改动,通过摘要算法得到的修改后的数据对应的MD5值与原数据对应的MD5值之间存在很大的区别,那么,只要垃圾消息发生任何修改,通过比较MD5值的方式就不能识别出该垃圾消息,使得垃圾消息识别准确率不高。有鉴于此,需要设计一种新的消息处理方法及装置,以弥补现有技术中存在的缺陷和不足之处。
技术实现思路
本专利技术实施例的目的是提供一种消息处理方法及装置,用以解决现有技术中存在的垃圾消息识别准确率不高的问题。本专利技术实施例中提供的具体技术方案如下:一种消息处理方法,包括:从获取的待处理消息中提取消息内容;根据所述待处理消息的消息内容,计算所述待处理消息的消息指纹值;根据当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,其中,消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息;根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息。较佳的,在从获取的待处理消息中提取消息内容之前,进一步包括:判断所述待处理消息中是否包含有电话号码和/或统一资源定位符URL,并在判定所述待处理消息包含有电话号码和/或URL时,提取所述电话号码和/或URL。较佳的,计算所述待处理消息的消息指纹值,具体包括:去除所述待处理消息的消息内容中的无意义字符,生成相应的精简消息内容,其中,所述无意义字符至少包括标点,虚词,数字,特殊符号;将所述精简消息内容拆分成多个分词,根据预设的分词权重表分别为每个分词设置相应的权重值,并通过哈希算法分别计算每个分词的哈希值;根据每个分词对应的权重值和哈希值,分别计算每个分词的分词加权值,并根据每个分词的分词加权值计算所述待处理消息的加权值;对所述待处理消息的加权值进行降维计算得到所述待处理消息的消息指纹值。较佳的,根据所述当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,具体包括:针对一个消息发送账号,根据获取到的所述一个消息发送账号在所述当前统计周期内发送的待处理消息的消息指纹值,分别计算所述一个消息发送账号在所述当前统计周期内发送的任意两个待处理消息的消息指纹值之间的海明距离,并将海明距离小于设定阈值的两个待处理消息判定为相似消息,以及统计出所述一个消息发送账号在所述当前统计周期内发送的待处理消息中每一条待处理消息的相似消息的数量。较佳的,在根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息之前,进一步包括:判断所述一个消息发送账号在所述当前统计周期内发送的待处理消息的数量是否小于消息发送总量阈值,若是,则表明所述一个消息发送账号的消息发送量在合规范围内,为合规行为账号,同时判定所述一个消息发送账号在所述当前统计周期内发送的消息均为合规消息;否则,判定所述一个消息发送账号存在疑似扩散消息风险,为疑似违规行为账号,需进一步判断所述每一待处理消息是否为合规消息。较佳的,根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息,具体包括:针对所述一个消息发送账号在所述当前统计周期内发送的待处理消息中每一条待处理消息分别执行以下操作:判断一条待处理消息的相似消息的数量是否小于预设的第一相似消息数量阈值,若是,则判定所述一条待处理消息为合规消息;否则,判定所述一条待处理消息为疑似违规消息,并进一步判断所述一条待处理消息的相似消息中包含相同电话号码的待处理消息的数量是否小于预设的相同号码数量阈值,以及判断所述一条待处理消息的相似消息中包含相同URL的待处理消息的数量是否小于预设的相同URL数量阈值,若是,则判定所述一条待处理消息为疑似违规消息,需进一步进行人工审核,否则,判定所述一条待处理消息为大面积扩散型违规消息。较佳的,根据所述当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,具体包括:根据所述当前统计周期内获取到的待处理消息的消息指纹值,分别计算所述当前统计周期内获取到的任意两个待处理消息的消息指纹值之间的海明距离,并将海明距离小于设定阈值的两个待处理消息判定为相似消息,以及统计出所述当前统计周期内获取到的待处理消息中每一条待处理消息的相似消息的数量。较佳的,在根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息之前,进一步包括:判断所述当前统计周期内发送了待处理消息的消息发送账号的数量是否小于预设的发送账号数量阈值,若是,则表明所述当前统计周期内发送了待处理消息的消息发送账号的数量在合规范围内,同时判定所述当前统计周期内获取到的待处理消息均为合规消息;否则,需进一步判断所述当前统计周期内获取到的待处理消息是否为合规消息。较佳的,根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息,具体包括:针对所述当前统计周期内获取到的待处理消息中每一条待处理消息分别执行以下操作:判断一条待处理消息的相似消息的数量是否小于预设的第二相似消息数量阈值,若是,则判定所述一条待处理消息为合规消息;否则,判定所述一条待处理消息为疑似违规消息,并进一步判断所述一条待处理消息的相似消息中包含相同电话号码的待处理消息的数量是否小于预设的相同号码数量阈值,以及判断所述一条待处理消息的相似消息中包含相同URL的待处理消息的数量是否小于预设的相同URL数量阈值,若是,则判定所述一条待处理消息为疑似违规消息,需进一步进行人工审核;否则,判定所述一条待处理消息为大面积扩散型违规消息。一种消息处理装置,包括:提取单元,用于从获取的待处理消息中提取消息内容;计算单元,用于根据所述待处理消息的消息内容,计算所述待处理消息的消息指纹值;确定单元,根据当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,其中,消息指纹值之间的海本文档来自技高网...

【技术保护点】
1.一种消息处理方法,其特征在于,包括:从获取的待处理消息中提取消息内容;根据所述待处理消息的消息内容,计算所述待处理消息的消息指纹值;根据当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,其中,消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息;根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息。

【技术特征摘要】
1.一种消息处理方法,其特征在于,包括:从获取的待处理消息中提取消息内容;根据所述待处理消息的消息内容,计算所述待处理消息的消息指纹值;根据当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,其中,消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息;根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息。2.如权利要求1所述的方法,其特征在于,在从获取的待处理消息中提取消息内容之前,进一步包括:判断所述待处理消息中是否包含有电话号码和/或统一资源定位符URL,并在判定所述待处理消息包含有电话号码和/或URL时,提取所述电话号码和/或URL。3.如权利要求1或2所述的方法,其特征在于,计算所述待处理消息的消息指纹值,具体包括:去除所述待处理消息的消息内容中的无意义字符,生成相应的精简消息内容,其中,所述无意义字符至少包括标点,虚词,数字,特殊符号;将所述精简消息内容拆分成多个分词,根据预设的分词权重表分别为每个分词设置相应的权重值,并通过哈希算法分别计算每个分词的哈希值;根据每个分词对应的权重值和哈希值,分别计算每个分词的分词加权值,并根据每个分词的分词加权值计算所述待处理消息的加权值;对所述待处理消息的加权值进行降维计算得到所述待处理消息的消息指纹值。4.如权利要求3所述的方法,其特征在于,根据所述当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,具体包括:针对一个消息发送账号,根据获取到的所述一个消息发送账号在所述当前统计周期内发送的待处理消息的消息指纹值,分别计算所述一个消息发送账号在所述当前统计周期内发送的任意两个待处理消息的消息指纹值之间的海明距离,并将海明距离小于设定阈值的两个待处理消息判定为相似消息,以及统计出所述一个消息发送账号在所述当前统计周期内发送的待处理消息中每一条待处理消息的相似消息的数量。5.如权利要求4所述的方法,其特征在于,在根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息之前,进一步包括:判断所述一个消息发送账号在所述当前统计周期内发送的待处理消息的数量是否小于消息发送总量阈值,若是,则表明所述一个消息发送账号的消息发送量在合规范围内,为合规行为账号,同时判定所述一个消息发送账号在所述当前统计周期内发送的消息均为合规消息;否则,判定所述一个消息发送账号存在疑似扩散消息风险,为疑似违规行为账号,需进一步判断所述每一待处理消息是否为合规消息。6.如权利要求5所述的方法,其特征在于,根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息,具体包括:针对所述一个消息发送账号在所述当前统计周期内发送的待处理消息中每一条待处理消息分别执行以下操作:判断一条待处理消息的相似消息的数量是否小于预设的第一相似消息数量阈值,若是,则判定所述一条待处理消息为合规消息;否则,判定所述一条待处理消息为疑似违规消息,并进一步判断所述一条待处理消息的相似消息中包含相同电话号码的待处理消息的数量是否小于预设的相同号码数量阈值,以及判断所述一条待处理消息的相似消息中包含相同URL的待处理消息的数量是否小于预设的相同URL数量阈值,若...

【专利技术属性】
技术研发人员:费硕成王浩
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1