标注短信类别的方法及装置制造方法及图纸

技术编号:12392815 阅读:74 留言:0更新日期:2015-11-26 00:42
本发明专利技术提供了一种标注短信类别的方法及装置。该方法包括:采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个参数依据短信内容的属性特征进行设置;获取多种类别的短信,其中,每种类别的短信包含多条;将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个参数,得到训练后的短信分类器;当接收到一新短信时,利用所述训练后的短信分类器将所述新短信标注为所述多种类别中的一种。本发明专利技术实施例能够通过多分类的短信分类器对短信进行自动分类和标注,从而解决了现有技术中人工分类和标注费时费力、效率较低的问题。

【技术实现步骤摘要】

本专利技术涉及互联网应用
,特别是一种标注短信类别的方法及装置
技术介绍
随着移动终端的应用发展,短信已经成为人与人之间交流的一种重要的手段,短信在加强彼此联系的同时,也出现了诸如中奖之类的骚扰短信,影响了用户的正常工作和生活,用户对此十分不满。目前,主要由人工对短信标注类别,如中奖、诈骗、房地产、股票等类别,并利用人工标注好的类别对短信进行过滤,以实现骚扰短信的拦截。一般人工标注时,一天大概能标注5000条短信,对于大量过去的短信以及每天产生的新短信,通过人工标注的方式显然费时费力且效率较低,因而亟待提供一种有效的标注短信类别的方案。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的标注短信类别的方法及装置。依据本专利技术的一方面,提供了一种标注短信类别的方法,包括:采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个参数依据短信的属性特征进行设置;获取多种类别的短信,其中,每种类别的短信包含多条;将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个参数,得到训练后的短信分类器;当接收到一新短信时,利用所述训练后的短信分类器将所述新短信标注为所述多种类别中的一种。可选地,所述采用预置的短信分类规则,构造多分类的短信分类器,包括:采用线性分类库Liblinear构造多分类的短信分类器;或者,采用支持向量机分类库Libsvm构造多分类的短信分类器。可选地,采用线性分类库Liblinear构造多分类的短信分类器,包括:调用所述Liblinear中的动态分类库;利用调用的动态分类库构造多分类的短信分类器。可选地,所述获取多种类别的短信,包括:获取人工标注的多种类别的短信;或者,接收至少一个客户端上报的至少一种类别的短信。可选地,接收至少一个客户端上报的至少一种类别的短信之前,还包括:对各个客户端所在通信终端中的短信接收事件进行监测;当监测到陌生电话号码发来的短信时,生成提示用户对陌生电话号码进行标注的提不?目息;接收用户对短信的标注类别。可选地,监测到陌生电话号码发来的短信,包括:获取当前接收的短信对应的电话号码;确定当前接收到的短信对应的电话号码不属于预设的黑名单或者白名单中的电话号码时,确定电话号码为陌生电话号码。可选地,接收至少一个客户端上报的至少一种类别的短信之前,还包括:获取各个客户端所在通信终端的电话号码的归属地和/或地区编码号段;对所述各个客户端所在通信终端中的短信接收事件进行监测;判断当前接收到的短信对应的电话号码的归属地和/或地区编码号段是否与所述通信终端的电话号码的归属地和/或地区编码号段相同,如果不相同,则将所述当前接收到的短信标注为所述多种类别中的指定类别。可选地,接收至少一个客户端上报的至少一种类别的短信之前,还包括:获取各个客户端所在通信终端当前所在地信息;对所述各个客户端所在通信终端中的短信接收事件进行监测;判断当前接收到的短信对应的电话号码的归属地是否与所述通信终端当前所在地相同,如果不相同,则将所述当前接收到的短信标注为所述多种类别中的指定类别。可选地,接收至少一个客户端上报的至少一种类别的短信之前,还包括:获取各个客户端所在通信终端中保存的通讯录信息;对所述各个客户端所在通信终端中的短信接收事件进行监测;判断所述通讯录中是否存在与当前接收到的短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码,如果不存在,则将所述当前接收到的短信标注为所述多种类别中的指定类别。可选地,将所述多种类别的短信作为训练语料对所述短信分类器进行训练,包括:从所述多种类别的短信中提取属性特征;将提取的属性特征和对应的短信类别输入所述短信分类器进行训练。可选地,利用所述训练后的短信分类器将所述新短信标注为所述多种类别中的一种之后,还包括:将标注的所述新短信的类别下发给所述新短信的目的地址对应的客户端。可选地,将标注的所述新短信的类别下发给所述新短信的目的地址对应的客户端之后,还包括:接收所述客户端提交的关于标注的所述新短信的类别的反馈信息;根据所述反馈信息确定是否更新所述训练语料。可选地,根据所述反馈信息确定是否更新所述训练语料,包括:若所述反馈信息为所述新短信的类别为不同于标注类别的其他类别,则确定根据所述新短信的其他类别更新所述训练语料。依据本专利技术的另一方面,还提供了一种标注短信类别的装置,包括:构造模块,适于采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个参数依据短信的属性特征进行设置;获取模块,适于获取多种类别的短信,其中,每种类别的短信包含多条;训练模块,适于将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个参数,得到训练后的短信分类器;标注模块,适于当接收到一新短信时,利用所述训练后的短信分类器将所述新短信标注为所述多种类别中的一种。可选地,所述构造模块还适于:采用线性分类库Liblinear构造多分类的短信分类器;或者,采用支持向量机分类库Libsvm构造多分类的短信分类器。可选地,所述构造模块还适于:调用所述Liblinear中的动态分类库;利用调用的动态分类库构造多分类的短信分类器。可选地,所述获取模块还适于:获取人工标注的多种类别的短信;或者,接收至少一个客户端上报的至少一种类别的短信。可选地,所述获取模块包括:监测单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,对各个客户端所在通信终端中的短信接收事件进行监测;生成单元,适于当监测到陌生电话号码发来的短信时,生成提示用户对陌生电话号码进行标注的提示信息;接收单元,适于接收用户对短信的标注类别。可选地,所述监测单元还适于:获取当前接收的短信对应的电话号码;确定当前接收到的短信对应的电话号码不属于预设的黑名单或者白名单中的电话号码时,确定电话号码为陌生电话号码。可选地,所述获取模块包括:第一获取单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,获取各个客户端所在通信终端的电话号码的归属地和/或地区编码号段;监测单元,适于对所述各个客户端所在通信终端中的短信接收事件进行监测;第一判断单元,适于判断当前接收到的短信对应的电话号码的归属地和/或地区编码号段是否与所述通信终端的电话号码的归属地和/或地区编码号段相同,如果不相同,则将所述当前接收到的短信标注为所述多种类别中的指定类别。可选地,所述获取模块包括:第二获取单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,获取各个客户端所在通信终端当前所在地信息;监测单元,适于对所述各个客户端所在通信终端中的短信接收事件进行监测;第二判断单元,适于判断当前接收到的短信对应的电话号码的归属地是否与所述通信终端当前所在地相同,如果不相同,则将所述当前接收到的短信标注为所述多种类别中的指定类别。可选地,所述获取模块包括:第三获取单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,获取各个客户端所在通信终端中保存的通讯录信息;监测单元,适于对所述各个客户端所在通信终端中的短信接收事件进行监测;第三判断单元,适于判断所述通讯录中是否存在与当前接收到的短信对应的电话号码具有相同归本文档来自技高网...

【技术保护点】
一种标注短信类别的方法,包括:采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个参数依据短信的属性特征进行设置;获取多种类别的短信,其中,每种类别的短信包含多条;将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个参数,得到训练后的短信分类器;当接收到一新短信时,利用所述训练后的短信分类器将所述新短信标注为所述多种类别中的一种。

【技术特征摘要】

【专利技术属性】
技术研发人员:张金晶常富洋李强
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1