一种标签挖掘方法及装置制造方法及图纸

技术编号:13463032 阅读:29 留言:0更新日期:2016-08-04 15:51
一种标签挖掘方法及装置,该方法包括:从结构化数据中挖掘第n种子集合,该第n种子集合中的种子为APP名称与标签构成的二元组,并利用该第n种子集合中的种子在非结构化数据中进行搜索,获取第n句子集合,该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签,且利用该第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合,根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非结构化数据中的标签挖掘,标签挖掘更加全面。

【技术实现步骤摘要】
【专利摘要】一种标签挖掘方法及装置,该方法包括:从结构化数据中挖掘第n种子集合,该第n种子集合中的种子为APP名称与标签构成的二元组,并利用该第n种子集合中的种子在非结构化数据中进行搜索,获取第n句子集合,该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签,且利用该第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合,根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非结构化数据中的标签挖掘,标签挖掘更加全面。【专利说明】-种标签挖掘方法及装置
本专利技术设及互联网应用领域,尤其设及一种标签挖掘方法及装置。
技术介绍
目前,有关应用程序(Application, AP巧的标签挖掘主要有两种方式,一种是通 过人工标记的方式为APP打标签,但是随着技术的发展,APP的数目越来越多,通过人工打 标签的方式将消耗大量的人力物力且不方便,效率不高,且随着APP版本的升级,其对应的 标签也会随之变化。因此,可W使用第二种方式进行标签挖掘,目前,在垂直网站或者百科 页面中,数据信息往往会W表格的形式展现出来,其显示的数据即为结构化数据,因此,可 通过对结构化数据进行标签挖掘,W得到具有APP名称与标签的二元组,为更好的理解,请 参阅图1,为游戏天天酷跑的百科页面的示意图,且虚线框内的数据为结构化数据,其中小 方框内的文字即为天天酷跑的标签,包括"单人"及"动作射击",其中,"玩家人数"为标签 "单人"的类型,"游戏模式"为标签"动作射击"的类型。利用从结构化数据中挖掘标签的 方式可从图1所示的天天酷跑的百科页面中挖掘出标签(天天酷跑,单人)及(天天酷跑, 射击游戏)。 然而,通过从结构化数据中挖掘APP的标签的方式并不适用于非结构化数据,因 此,如何从非结构化数据中进行标签挖掘成为亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供一种标签挖掘方法及装置,用于解决现有技术中无法从非 结构化数据中进行标签挖掘的问题。 阳〇化]本专利技术实施例提供的标签挖掘方法,包括: 从结构化数据中挖掘第η种子集合,所述第η种子集合中的种子为应用程序APP 名称与标签构成的二元组,所述η的初始值为1,且η为正整数; 利用所述第η种子集合中的种子在非结构化数据中进行检索,获取第η句子集合, 所述第η句子集合中的句子包含所述第η种子集合中的任意一个种子的ΑΡΡ名称与标签;· 利用所述第η句子集合中的任意两个句子进行匹配,得到第η泛化模板集合; 根据所述第η泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将 挖掘得到的符合预先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。 本专利技术实施例提供的标签挖掘装置,包括: 第一挖掘模块,用于从结构化数据中挖掘第η种子集合,所述第η种子集合中的种 子为应用程序ΑΡΡ名称与标签构成的二元组,所述η的初始值为1,且η为正整数; 检索模块,用于在所述第一挖掘模块得到所述第η种子集合之后,利用所述第η种 子集合中的种子在非结构化数据中进行检索,获取第η句子集合,所述第η句子集合中的句 子包含所述第η种子集合中的任意一个种子的ΑΡΡ名称与标签; 匹配模块,用于在所述检索模块得到所述第η句子集合之后,利用所述第η句子集 合中的任意两个句子进行匹配,得到第η泛化模板集合; 第二挖掘模块,用于在所述匹配模块得到所述第η泛化模板集合之后,根据所述 第η泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘得到的符合预 先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。 从W上技术方案可W看出,本专利技术实施例具有W下优点: 装置从结构化数据中挖掘第η种子集合,该第η种子集合中的种子为ΑΡΡ名称与 标签构成的二元组,并利用该第η种子集合中的种子在非结构化数据中进行捜索,获取第η 句子集合,该第η句子集合中的句子包含该第η种子集合中的任意一个种子的ΑΡΡ名称与 标签,且利用该第η句子集合中的任意两个句子进行匹配,得到第η泛化模板集合,根据该 第η泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预 先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。通过利用结构化数据中挖掘 出来的第η种子集合在非结构化数据中进行检索,得到第η句子集合,使得能够利用该第η 句子集合得到能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非 结构化数据中的标签挖掘,标签挖掘的更加全面。 为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例, 并配合所附图式,作详细说明如下。【附图说明】 图1为现有技术中游戏天天酷跑的百科页面的示意图; 图2为本专利技术实施例中服务器的结构的一个示意图; 图3为本专利技术实施例中标签挖掘方法的一个示意图; 图4为本专利技术实施例中标签挖掘方法的另一示意图; 图5为本专利技术实施例中标签挖掘装置的结构的一个示意图; 图6为本专利技术实施例中标签挖掘装置的结构的另一示意图。【具体实施方式】 为更进一步阐述本专利技术为实现预定专利技术目的所采取的技术手段及功效,W下结合 附图及较佳实施例,对依据本专利技术的【具体实施方式】、结构、特征及其功效,详细说明如后。在本专利技术实施例中,标签挖掘方法可W由标签挖掘装置执行,该标签挖掘装置 可W是服务器,请参阅图2,为本专利技术实施例中该服务器的结构的示意图,服务器100可 因配置或性能不同而产生比较大的差异,可W包括一个或一个W上中央处理器(central processing units, CPU) 122(例如,一个或一个W上处理器)和存储器132, 一个或一个W 上存储应用程序142或数据144的存储介质130 (例如一个或一个W上海量存储设备)。其 中,存储器132和存储介质130可W是短暂存储或持久存储。存储在存储介质130的程序 可W包括一个或一个W上模块(图示未示出),每个模块可W包括对服务器中的一系列指 令操作。更进一步地,中央处理器122可W设置为与存储介质130通信,在服务器100上执 行存储介质130中的一系列指令操作。服务器100还可W包括一个或一个W上电源126, 一 个或一个W上有线或无线网络接口 150, 一个或一个W上输入输出接口 158,和/或,一个或 一个 W上操作系统 141,例如 Windows ServerTM,Mac 0S XTM,UnixTM,LinuxTM,化eeBSDTM 等等。 请参阅图3,为本专利技术实施例中一种标签挖掘方法的实施例,包括: 301、从结构化数据中挖掘第η种子集合,第η种子集合中的种子为APP名称与标 签构成的二元组,η的初始值为1,且η为正整数; 在本专利技术实施例中,标签挖掘装置(W下简称装置)将从结构化数据中挖掘第η 种子集合,该第η种子集合中包含至少一个种子,且每一个种子均为APP名称与标签构成的 二元组,例如:(天天酷跑,单人)为一个种子。 其中,η的初始值为1,且η为正整数。 在本专利技术实施例中,结构化数据是指能够用数据或者统一的结构加 W表示的数 据,例如垂本文档来自技高网
...

【技术保护点】
一种标签挖掘方法,其特征在于,包括:从结构化数据中挖掘第n种子集合,所述第n种子集合中的种子为应用程序APP名称与标签构成的二元组,所述n的初始值为1,且n为正整数;利用所述第n种子集合中的种子在非结构化数据中进行检索,获取第n句子集合,所述第n句子集合中的句子包含所述第n种子集合中的任意一个种子的APP名称与标签;·利用所述第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合;根据所述第n泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘安安王迪
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1