挖掘信息模板的方法及装置制造方法及图纸

技术编号:13123602 阅读:37 留言:0更新日期:2016-04-06 11:29
本公开是关于一种挖掘信息模板的方法及装置,属于信息技术领域。该方法包括:获取建模信息集合,建模信息集合包含多条建模信息;分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息;对多条加密信息进行聚类,得到至少一个信息模板。本公开通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。

【技术实现步骤摘要】

本公开涉及信息
,尤其涉及一种挖掘信息模板的方法及装置
技术介绍
现代生活中,用户每天都会接收到大量的通知类信息,这些信息常以短信息、邮件、即时消息等方式发送。在对这些大量的信息进行研究时发现,这些信息通常具有相似的文本架构,而基于这些文本架构所挖掘出的信息模板,在提高用户体验、促进自然语言处理技术等方面具有十分重要的意义。频繁序列挖掘作为当前信息模板挖掘中一种常用的方法,该方法通过预先设定的阈值,从海量信息中挖掘出信息模板。在实际应用中,如果某条信息出现的频率高于预先设定的阈值,则将该信息作为信息模板。
技术实现思路
本公开提供一种挖掘信息模板的方法及装置。根据本公开实施例的第一方面,提供一种挖掘信息模板的方法,所述方法包括:获取建模信息集合,所述建模信息集合包含多条建模信息;分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;对所述多条加密信息进行聚类,得到至少一个信息模板。根据本公开实施例的第二方面,提供一种挖掘信息模板的装置,所述装置包括:获取模块,用于获取建模信息集合,所述建模信息集合包含多条建模信息;加密模块,用于分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;聚类模块,用于对所述多条加密信息进行聚类,得到至少一个信息模板。根据本公开实施例的第三方面,提供一种挖掘信息模板的装置,包括:处理器;用于存储处理器可执行的指令的存储器;其中,所述处理器被配置为:获取建模信息集合,所述建模信息集合包含多条建模信息;分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;对所述多条加密信息进行聚类,得到至少一个信息模板。本公开的实施例提供的技术方案可以包括以下有益效果:通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。【附图说明】此处的附图被并入说明书中并组成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图。图2是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图。图3是根据一示例性实施例示出的一种挖掘信息模板的装置的结构示意图。图4是根据一示例性实施例示出的一种挖掘信息模板的装置的框图。【具体实施方式】这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图,如图1所示,挖掘信息模板方法用于服务器中,包括以下步骤。在步骤101中,获取建模信息集合,该建模信息集合包含多条建模信息。在步骤102中,分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息。在步骤103中,对多条加密信息进行聚类,得到至少一个信息模板。本公开实施例提供的方法,通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。在本公开的另一个实施例中,获取建模信息集合,包括:获取多条待处理信息,每条待处理信息至少包括发送端标识;将多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识;根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息;将第一预设数量的待处理信息组成建模信息集合。在本公开的另一个实施例中,分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息,包括:对于任一条建模信息,根据建模信息的接收端标识,获取建模信息的地域标识;对建模信息的接收端标识进行加密,得到建模信息的第一特征码;根据建模信息中包含的数值信息的类型,对建模信息中的数值信息进行加密,得到建模信息的第二特征码;将建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板,包括:对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息;对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息;对多条第二合并信息进行聚类,得到至少一个信息模板。在本公开的另一个实施例中,对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息,包括:从多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码;对于任一第一目标加密信息组中的加密信息,按照接收时间由晚到早的顺序进行排序;保存第一目标加密信息组中接收时间最晚的加密信息,并删除第一目标加密信息组中其余的加密信息,得到一条第一合并信息。在本公开的另一个实施例中,对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息,包括:从多条第一合并信息中,获取多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码;对于任一第二目标加密信息组,获取第二目标加密信息组中第一合并信息的数量及第二目标加密信息组中第一合并信息的最晚接收时间;将第二目标加密信息组的地域标识、第二目标信息组中第一合并信息的数量、第二目标加密信息组的第二特征码及第二目标加密信息组中第一合并信息的最晚接收时间组成一条第二合并信息。在本公开的另一个实施例中,对多条第二合并信息进行聚类,得到至少一个信息模板,包括:将多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识;对于任一第三目标加密信息组,获取第三目标加密信息组中任一第二合并信息所合并的第一合并信息的数量,如果第二合并信息所合并的第一合并信息的数量大于第一阈值,则将第二合并信息对应的信息内容、第二合并信息合并的第一合并信息的数量、第三目标加密信息组的最晚接收时间组成的一个条目;将第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,信息模板的接收时间为多个条目的最晚接收时间。在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板之后,还包括:对每个信息模板进行覆盖率验证;根据验证结果,从至少一个信息模板中,确定出实际信息模板。在本公开的另一个实施例中,对每个信息模板进行覆盖率验证,包括:获取测试信息集合,测试信息集合包括多条测试信息;对多条测试信息分别进行处理,得到多个第一测试信息组;根据多个第一测试信息组,对每个信息模板进行覆盖率验证。在本公开的另一个实施例中,获取测试信息集合,包括:从待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数本文档来自技高网...

【技术保护点】
一种挖掘信息模板的方法,其特征在于,所述方法包括:获取建模信息集合,所述建模信息集合包含多条建模信息;分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;对所述多条加密信息进行聚类,得到至少一个信息模板。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪平仄张涛陈志军
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1