【技术实现步骤摘要】
本专利技术涉及数据处理领域,尤其涉及一种标签关联方法及装置。
技术介绍
随着网络技术的发展,可以通过网络获取越来越多的数据,并依托这些数据进行进一步的分析,这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析,将数据关联至不同的标签往往是必不可少的步骤。但是,现有的标签关联方法的效率有待提高。
技术实现思路
本专利技术解决的技术问题是提高标签关联方法的效率。为解决上述技术问题,本专利技术实施例提供一种标签关联方法,包括:对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。可选的,所述参照关键词词典对所述目标数据进行匹配处理,得到目标关键词,包括:对所述目标数据进行分词处理,以得到多个词语;去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。可选的,参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。可选的,若所述候选标签对应多个目标关键词,则所述计算所述候选标签的权重包括:分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。 >可选的,所述标签关联方法还包括建立关键词词典,所述建立所述关键词词典包括:获取分类体系数据;参照所述分类体系数据得到标签和所述标签对应的数据;对所述标签对应的数据和所述标签进行分词处理,将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。可选的,所述建立关键词词典的方法包括:对所述关键词词典进行去重。可选的,所述建立关键词词典的方法包括:检测所述关键词词典中每个关键词映射的标签的数量;去除映射的标签的数量大于阈值的关键词。本专利技术实施例还提供一种标签关联装置,包括:匹配处理单元,对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;标签权重计算单元,适于计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;关联单元,适于基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。可选的,所述匹配处理单元包括:分词处理单元,适于对所述目标数据进行分词处理,以得到多个词语;过滤单元,适于去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。可选的,所述标签权重计算单元参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。可选的,若所述候选标签对应多个目标关键词,则所述标签权重计算单元分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。可选的,所述标签关联装置还包括:关键词词典建立单元,所述关键词词典建立单元包括:分类体系获取单元,适于获取分类体系数据;数据提取单元,适于参照所述分类体系数据得到标签和所述标签对应的数据;映射单元,适于对所述标签对应的数据进行分词处理,并将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。可选的,所述关键词词典建立单元包括:去重单元,适于对所述关键词词典进行去重。可选的,所述关键词词典建立单元包括:数量检测单元,适于检测所述关键词词典中每个关键词映射的标签的数量;整理单元,适于去除映射的标签的数量大于阈值的关键词。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:关键词词典中包含映射至一个或多个标签的所述关键词,利用关键词词典对将目标数据进行匹配处理得到目标关键词,通过计算与目标关键词存在映射关系的标签的权重,可以选取目标标签,建立目标标签与目标数据之间的关联关系。本专利技术实施例通过利用关键词词典进行匹配处理生成目标关键词,使得后续计算仅需要针对与目标关键词存在关联关系的标签进行,可以有效的减小标签关联方法的计算量,从而提升标签关联方法的效率。附图说明图1是本专利技术实施例中一种标签关联方法的流程图;图2是本专利技术实施例中一种得到目标关键词的方法流程图;图3是本专利技术实施例中一种关键词词典的建立方法的流程图;图4是本专利技术实施例中一种标签关联装置的结构示意图;图5是本专利技术实施例中一种匹配处理单元的结构示意图;图6是本专利技术实施例中一种关键词词典建立单元的结构示意图。具体实施方式如前所述,随着网络技术的发展,可以通过网络获取越来越多的数据,并依托这些数据进行进一步的分析,这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析,将数据关联至不同的标签往往是必不可少的步骤。但是,现有的标签关联方法的效率有待提高。经专利技术人研究发现,很多的网站提供的服务很相似。例如,提供视频浏览服务的网站有QQ,爱奇艺,搜狐视频等;提供旅游服务的网站有去哪儿,携程,艺龙等;提供新闻服务的网站有搜狐网、凤凰网等等。不同的网站可能会对同一个内容进行标记,例如,新闻的种类信息、商品的类别信息等,但是不同网站对同一内容的描述在很多时候是有差异的。另一种情况是,有个别网站没有明显地给出一类标签。这对综合分析不同网站的内容造成了一定的困难。传统的标签整理技术往往采用机器学习的思路来处理。首先人工整理关键信息和标签作为训练和测试样本,接着通过训练机器学习模型,来达到预测一个未知目标数据属于哪个标签的目的。但是由于训练和测试样本很难整理,机器学习模型本身是一个黑盒,很难控制学习的过程,模型优化困难等原因,导致标签关联方法的效率和准确性较低,进而会影响到数据处理整体过程的效率和准确性,例如会影响到在对象进行聚类处理时的效率和准确性,或影响到大数据处理过程中数据整合分析的效率和准确性。在本专利技术实施例中,关键词词典中包含映射至一个或多个标签的所述关键词,利用关键词词典对将目标数据进行匹配处理得到目标关键词,通过计算与目标关键词存在映射关系的标签的权重,可以选取目标标签,建立目标标签与目标数据之间的关联关系。本专利技术实施例通过利用关键词词典进行匹配处理生成目标关键词,使得后续计算仅需要针对与目标关键词存在关联关系的标签进行,可本文档来自技高网...
【技术保护点】
一种标签关联方法,其特征在于,包括:对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
【技术特征摘要】
1.一种标签关联方法,其特征在于,包括:
对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹
配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标
签的关键词;
计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关
键词存在映射关系的标签;
基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数
据之间的关联关系。
2.根据权利要求1所述的标签关联方法,其特征在于,所述参照关键词词典
对所述目标数据进行匹配处理,得到目标关键词,包括:
对所述目标数据进行分词处理,以得到多个词语;
去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。
3.根据权利要求1所述的标签关联方法,其特征在于,参照与所述目标关键
词存在映射关系的标签的数量计算所述候选标签的权重。
4.根据权利要求3所述的标签关联方法,其特征在于,若所述候选标签对应
多个目标关键词,则所述计算所述候选标签的权重包括:分别计算所述候
选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到
所述候选标签的权重。
5.根据权利要求1所述的标签关联方法,其特征在于,还包括:建立关键词
词典,所述建立所述关键词词典包括:
获取分类体系数据;
参照所述分类体系数据得到标签和所述标签对应的数据;
对所述标签对应的数据和所述标签进行分词处理,将分词处理得到的关键
词映射至所述标签,以得到所述关键词词典。
6.根据权利要求5所述的标签关联方法,其特征在于,所述建立关键词词典
的方法包括:对所述关键词词典进行去重。
7.根据权利要求5所述的标签关联方法,其特征在于,所述建立关键词词典
的方法包括:
检测所述关键词词典中每个关键词映射的标签的数量;
去除映射的标签的数量大于阈值的关键词。
8.一种标签关联装置,其特征在于,包括:
匹配处理单元,对待进行标签关联的目标数据...
【专利技术属性】
技术研发人员:汤奇峰,叶峰,
申请(专利权)人:上海晶赞科技发展有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。