一种标签挖掘方法及装置制造方法及图纸

技术编号：13463032 阅读：29 留言：0更新日期：2016-08-04 15:51

一种标签挖掘方法及装置，该方法包括：从结构化数据中挖掘第n种子集合，该第n种子集合中的种子为APP名称与标签构成的二元组，并利用该第n种子集合中的种子在非结构化数据中进行搜索，获取第n句子集合，该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签，且利用该第n句子集合中的任意两个句子进行匹配，得到第n泛化模板集合，根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘，将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合，能够有效的实现在非结构化数据中的标签挖掘，标签挖掘更加全面。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】一种标签挖掘方法及装置，该方法包括：从结构化数据中挖掘第n种子集合，该第n种子集合中的种子为APP名称与标签构成的二元组，并利用该第n种子集合中的种子在非结构化数据中进行搜索，获取第n句子集合，该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签，且利用该第n句子集合中的任意两个句子进行匹配，得到第n泛化模板集合，根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘，将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合，能够有效的实现在非结构化数据中的标签挖掘，标签挖掘更加全面。【专利说明】-种标签挖掘方法及装置
本专利技术设及互联网应用领域，尤其设及一种标签挖掘方法及装置。
技术介绍
目前，有关应用程序（Application, AP巧的标签挖掘主要有两种方式，一种是通过人工标记的方式为APP打标签，但是随着技术的发展，APP的数目越来越多，通过人工打标签的方式将消耗大量的人力物力且不方便，效率不高，且随着APP版本的升级，其对应的标签也会随之变化。因此，可W使用第二种方式进行标签挖掘，目前，在垂直网站或者百科页面中，数据信息往往会W表格的形式展现出来，其显示的数据即为结构化数据，因此，可通过对结构化数据进行标签挖掘，W得到具有APP名称与标签的二元组，为更好的理解，请参阅图1，为游戏天天酷跑的百科页面的示意图，且虚线框内的数据为结构化数据，其中小方框内的文字即为天天酷跑的标签，包括"单人"及"动作射击"，其中，...

【技术保护点】
一种标签挖掘方法，其特征在于，包括：从结构化数据中挖掘第n种子集合，所述第n种子集合中的种子为应用程序APP名称与标签构成的二元组，所述n的初始值为1，且n为正整数；利用所述第n种子集合中的种子在非结构化数据中进行检索，获取第n句子集合，所述第n句子集合中的句子包含所述第n种子集合中的任意一个种子的APP名称与标签；·利用所述第n句子集合中的任意两个句子进行匹配，得到第n泛化模板集合；根据所述第n泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘，将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘安安，王迪，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人