用于短信领域分类的方法、短信领域识别方法及装置制造方法及图纸

技术编号:12812300 阅读:98 留言:0更新日期:2016-02-05 11:45
本公开是关于一种用于短信领域分类的方法、短信领域识别方法及装置。用于短信领域分类的方法包括:确定收集到的所有短信领域中每一短信领域对应的短信模板集合;根据所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;根据在设定时间段内统计到的每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定每一短信模板对应的用于训练分类器的次数;通过训练数据集以及短信模板集合中的每一短信模板对应的用于训练分类器的次数训练分类器。本公开技术方案可以避免相关技术中将所有的语义模板作为候选模板对接收到的短信进行匹配导致的计算负担,为短信内容的深度理解做了较好的铺垫。

【技术实现步骤摘要】

本公开涉及文本分类领域,尤其涉及一种用于短信领域分类的方法、短信领域识 别方法及装置。
技术介绍
由于通知类短信的文本内容较短,但是知识点较为密集,例如,航班订单短信中, 包含:航班号、起飞城市、到达城市、起飞机场、到达机场、起飞时间、到达时间、坐席、航空公 司、票号等信息,对于如此密集的实体抽取,为了保证较高的准确率,相关技术通常采用基 于词汇-句法模式的方法,在句法模式的表达上使用语义模板。由于语义模板的数量非常 庞大,因此移动终端在接收到通知类短信后,如果将所有的语义模板均作为候选模板对接 收到的短信进行匹配,对于移动终端的处理器而言将会是较大的计算负担。
技术实现思路
为克服相关技术中存在的问题,本公开实施例提供一种用于短信领域分类的方 法、短信领域识别方法及装置,通过对短信进行领域分类从而方便对短信进行深度理解。 根据本公开实施例的第一方面,提供一种用于短信领域分类的方法,包括: 确定收集到的所有短信领域中每一短信领域对应的短信模板集合; 根据所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练 数据集; 根据在设定时间段内统计到的所述每一短信领域对应的短信模板集合中的每一 短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器的次数; 通过所述训练数据集以及所述短信模板集合中的每一短信模板对应的用于训练 所述分类器的次数训练所述分类器,所述分类器用于得到相应短信领域的分类结果。 在一实施例中,所述根据所述所有短信领域中每一短信领域对应的短信模板集合 确定分类器的训练数据集,可包括: 确定所述所有短信领域中的每一短信模板与所述每一短信领域的第一映射集合, 所述第一映射集合为所述所有短信模板中的每一短信模板、所述每一短信模板在所述设定 时间段内统计到的频次与所述每一短信领域的对应关系; 确定所述第一映射集合中的每一短信模板中的关键字集合; 标注所述每一短信模板中的关键字集合,得到第二映射集合,所述第二映射集合 为所述所有短信模板中的每一短信模板中的关键字集合、所述每一短信模板在所述设定时 间段内统计到的频次与所述每一短信领域的对应关系,将所述第二映射集合作为训练数据 集。 在一实施例中,所述方法还可包括: 确定所述所有短信领域中每一短信领域对应的号码集合; 确定所述每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合; 确定所述频繁前缀集合与所述所有短信领域中每一短信领域的第三映射集合,以 及确定所述频繁后缀集合与所述所有短信领域中每一短信领域的第四映射集合,其中,所 述第三映射集合和所述第四映射集合用于基于待分类短信的发送方号码确定所述待分类 短信的候选短信领域,以便根据所述候选短信领域对应的分类器得到所述待分类短信的分 类结果。 在一实施例中,所述确定所述每一短信领域对应的号码集合对应的频繁前缀集合 和频繁后缀集合,可包括: 确定所述每一短信领域对应的号码集合中的每一发送方号码的前缀和所述每一 发送方号码的后缀; 统计所述号码集合中的每一个前缀出现的第一次数和所述号码集合中的每一个 后缀出现的第二次数; 将所述第一次数大于第一设定阈值的前缀确定为所述每一短信领域对应的号码 集合对应的频繁前缀集合,将所述第二次数大于第二设定阈值的后缀确定为所述每一短信 领域对应的号码集合对应的频繁后缀集合。 在一实施例中,所述方法还可包括: 将训练后的所述分类器、所述第三映射集合和所述第四映射集合发送给移动终 端,以使所述移动终端根据所述第三映射集合、所述第四映射集合、所述分类器得到短信所 属的短信领域。 根据本公开实施例的第二方面,提供一种短信领域识别方法,包括: 在短信应用程序接收到短信后,根据所述短信的发送方号码确定所述短信对应的 短信领域集合; 如果所述短信领域集合包括两个以上的短信领域,通过分类器对所述短信的内容 进行概率统计,得到两个以上的统计结果; 将所述两个以上的统计结果中的最大值对应的短信领域确定为所述短信所属的 短信领域。 在一实施例中,所述根据所述短信的发送方号码确定所述短信对应的短信领域集 合,可包括: 确定所述短信的发送方号码的前缀和后缀; 分别在第三映射集合和第四映射集合查询所述前缀和所述后缀,得到所述前缀和 所述后缀分别对应的第一领域集合和第二领域集合,其中,所述第三映射集合和所述第四 映射集合分别用于表示发送方号码的前缀与短信领域的第一对应关系和发送方号码的后 缀与短信领域的第二对应关系; 通过所述第一领域集合和所述第二领域集合确定所述短信所属的短信领域。 在一实施例中,所述方法还可包括: 如果所述短信领域集合包括一个短信领域,将所述短信领域集合所包括的该短信 领域确定为所述短信所属的短信领域。 根据本公开实施例的第三方面,提供一种数短信领域分类装置,包括: 第一确定模块,被配置为确定收集到的所有短信领域中每一短信领域对应的短信 模板集合; 第二确定模块,被配置为根据所述第一确定模块确定的所述所有短信领域中每一 短信领域对应的短信模板集合确定分类器的训练数据集; 第三确定模块,被配置为根据在设定时间段内统计到的所述每一短信领域对应的 短信模板集合中的每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练 所述分类器次数; 训练模块,被配置为通过所述第二确定模块确定的所述训练数据集以及所述第三 确定模块确定的所述短信模板集合中的每一短信模板对应的用于训练所述分类器的次数 训练所述分类器,所述分类器用于得到相应短信领域的分类结果。 在一实施例中,所述第二确定模块可包括: 第一确定子模块,被配置为确定所述所有短信领域中的每一短信模板与所述每一 短信领域的第一映射集合,所述第一映射集合为所述所有短信模板中的每一短信模板、所 述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系; 第二确定子模块,被配置为确定所述第一确定子模块确定的所述第一映射集合中 的每一短信模板中的关键字集合; 标注子模块,被配置为标注所述第二确定子模块确定的所述每一短信模板中的关 键字集合,得到第二映射集合,所述第二映射集合为所述所有短信模板中的每一短信模板 中的关键字集合、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领 域的对应关系,将所述第二映射集合作为训练数据集。 在一实施例中,所述装置还可包括: 第四确定模块,被配置为确定所述所有短信领域中每一短信领域对应的号码集 合; 第五确定模块,被配置为确定所述第四确定模块确定的所述每一短信领域对应的 号码集合对应的频繁前缀集合和频繁后缀集合; 第六确定模块,被配置为确定所述第五确定模块确定的所述频繁前缀集合与所述 所有短信领域中每一短信领域的第三映射集合,以及确定所述频繁后缀集合与所述所有短 信领域中每一短信领域的第四映射集合,其中,所述第三映射集合和所述第四映射集合用 于基于待分类短信的发送方号码确定所述待分类短信的候选短信领域,以便根据所述候选 短信领域对应的分类器得到所述待分类短信的分类结果。 在一实施例中,所述第五确定模块可包括: 第三确定子模块,被配置为确定所述每一短信领域对应的号码集合中的每一发送 方号码的前缀和所述每一发送方号码的后缀; 统计子模块,本文档来自技高网...

【技术保护点】
一种用于短信领域分类的方法,其特征在于,所述方法包括:确定收集到的所有短信领域中每一短信领域对应的短信模板集合;根据所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;根据在设定时间段内统计到的所述每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器的次数;通过所述训练数据集以及所述短信模板集合中的每一短信模板对应的用于训练所述分类器的次数训练所述分类器,所述分类器用于得到相应短信领域的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪平仄张涛陈志军
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1