一种数据标签的挖掘方法及系统技术方案

技术编号：10489651 阅读：91 留言：0更新日期：2014-10-03 17:45

本发明专利技术提供了一种数据标签的挖掘方法，包括：统计预先从互联网中获得的开放数据标签和预先构建的基础数据标签体系中基础数据标签的出现次数，并统计所述开放数据标签与基础数据标签的共现次数；利用统计的出现次数和共现次数获得置信度，当共现次数大于预设第一阈值时或所述置信度大于预设第二阈值时或所述置信度大于平均置信度与置信度标准差的和值时，将所述开放数据标签作为所述基础数据标签的特征标签添加到基础数据标签体系；本发明专利技术还提供一种数据标签的挖掘系统。根据本发明专利技术提供的技术方案，实现数据标签的层次化挖掘，提高挖掘出数据标签的上下位关系的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据标签的挖掘方法及系统【
】本专利技术涉及互联网应用领域，尤其涉及一种数据标签的挖掘方法及系统。【
技术介绍
】目前，主要有以下两种数据标签的挖掘方法:第一种标注方法是人工构建数据标签体系，通过制定两个数据标签的上下位关系达到描述数据标签体系的效果，例如，人工标注以下具有上下位关系的数据标签:美食美食，餐馆美食，餐馆，中餐馆美食，餐馆，西餐馆美食，小吃美食，酒吧其中，每一行数据标签都描述了一组数据标签之间的上下位关系。第二种标注方法是网络构建数据标签系统，由互联网网站对互联网页面进行分类索引，例如大众点评之类的垂直网站会有以下文本:北京餐厅一朝阳区一朝外大街一自助餐一水木锦堂铁板烧自助餐厅(朝外店)上述文本实际上包含了数据标签之间的上下位关系，通过分析这样的文本就可以构建数据标签体系，例如该文本可以得到“餐厅，自助餐”这样一个数据标签的上下位关系。其中，第一种人工构建数据标签体系的方法由于需要人工构建，还需要确保上下位关系的准确性，因此带来很大的工作量，人力成本很高，因此人工构建的数据标签体系中数据标签数量较少，数据标签之间上下位关系比较简单，导致人工构建结果无法覆盖大部分数据标签，从而无法实现数据标签的推理和校验。第二种网络构建数据标签系统虽然是自动构建数据标签体系，但是数据标签之间上下位关系的准确率较低，构建结果无法用于推理和校验。【
技术实现思路
】本专利技术提供了一种数据标签的挖掘方法及系统，实现数据标签的层次化挖掘，提高挖掘出数据标签的上下位关系的准确性。本专利技术的具体技术方案如下:根据本专利技术一优选实施例，一种数据标签的挖掘方...

【技术保护点】
一种数据标签的挖掘方法，其特征在于，该方法包括：统计预先从互联网中获得的开放数据标签和预先构建的基础数据标签体系中基础数据标签的出现次数，并统计所述开放数据标签与基础数据标签的共现次数；利用统计的出现次数和共现次数获得置信度，当共现次数大于预设第一阈值时或所述置信度大于预设第二阈值时或所述置信度大于平均置信度与置信度标准差的和值时，将所述开放数据标签作为所述基础数据标签的特征标签添加到基础数据标签体系。

【技术特征摘要】
1.一种数据标签的挖掘方法，其特征在于，该方法包括: 统计预先从互联网中获得的开放数据标签和预先构建的基础数据标签体系中基础数据标签的出现次数，并统计所述开放数据标签与基础数据标签的共现次数；利用统计的出现次数和共现次数获得置信度，当共现次数大于预设第一阈值时或所述置信度大于预设第二阈值时或所述置信度大于平均置信度与置信度标准差的和值时，将所述开放数据标签作为所述基础数据标签的特征标签添加到基础数据标签体系。2.根据权利要求1所述的方法，其特征在于，构建基础数据标签体系的方法为: 依据预先对网页标注时所标示出的tab页和标签，获得网页中tab页和标签的位置；依据标签的位置从互联网网页中获得数据标签，并利用地点词库对获得的数据标签进行筛选；依据tab页的位置从互联网网页中提取tab页，依据所述tab页中数据标签的先后顺序获得数据标签之间的上下位关系；依据预设的数据标签体系以及从互联网网页中获得的数据标签之间的上下位关系对数据标签进行组合，得到数据标签序列，利用得到的数据标签序列组成基础数据标签体系。3.根据权利要求1所述的方法，其特征在于，从互联网中获得的开放数据标签的方法为: 依据预先进行网页的标注时所标示出的短文本，获得互联网网页中短文本的位置，依据所述位置从互联网网页中获得短文本；对从互联网网页中获得的短文本进行分词处理，统计分词处理后每个词语在所有互联网网页中的出现次数，依据预设的过滤阈值从所述词语中过滤掉低频词，得到开放数据标签。4.根据权利要求1所述的方法，其特征在于，该方法还包括:依据所述开放数据标签的获取位置对所述开放数据标签进行分类，并在数据标签体系中保存所述开放数据标签及对应的类型。5.根据权利要求1所述的方法，其特征在于，所述置信度等于开放数据标签和基础数据标签的共现次数除以所述开放数据标签的出现次数。6.根据权利要求1所述的方法，其特征在于，所述平均置信度等于与所述开放数据标签共现的基础数据标签的置信度的和值除以与所述开放数据标签共现的基础数据标签的总数。7.根据权利要求1所述的方法，其特征在于，所述置信度标准差利用如下公式获得: pdv = ^j Ipavg-P1) + (ραν?ξ-P2)2 +......+ (Pavg-P?Y jn 其中，pdv表示置信度标准差，η表示与开放数据标签共现的基础数据标签的总数，Pi表示与所述开放数据标签共现的基础数据标签i的置信度，i = l,2,......, n ;pavg表示与开放数据标签共现的η个基础数据标签的平均置信度。8.根据权利要求1所述的方法，其特征在于，该方法还包括:利用开放数据标签的出现次数、开放数据标签与基础数据标签的共现次数，获得开放数据标签对基础数据标签的支持度，将所述支持度添加到基础数据标签体系。9.根据权利要求8所述的方法，其特征在于，利用如下公式获得开放数据标签对基础数据标签的支持度:其中，sup (a，b)表示开放数据标签a对基础数据标签b的支持度，CO (a，b)表示开放数据标签a和基础数据标签b的共现次数，cn (a)表示开放数据标签a的出现次数，cn (b)表示基础数据标签b的出现次数，sum表示用于统计的兴趣点数据的总数；(:表示与基础数据标签b共现的所有开放数据标签中的一个开放数据标签，co(c,b)表示数据标签c对基础数据标签b的支持度，cn(c)表示数据标签c的出现次数。10.一种数据标签的挖掘系统，其特征在于，该系统包括:统计单元、挖掘单元；...

【专利技术属性】
技术研发人员：林锡通，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人