标签的处理方法及装置制造方法及图纸

技术编号:15267529 阅读:126 留言:0更新日期:2017-05-04 02:12
本发明专利技术提供一种标签的处理方法及装置。本发明专利技术实施例通过获取资源的语义特征数据,进而根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率,使得能够根据所述后验概率,选择一个标签序列,以作为所述资源的标签集合,从而实现了获得资源的多个标签的目的。

Label processing method and device

The invention provides a method and a device for processing label. The embodiment of the invention, the semantic features of the data access to resources, and then according to the semantic features of the data resources, at least one tag sequence to obtain the resources of the posterior probability, which can according to the posterior probability, select a tag sequence, as the source of the tag set, so as to realize the a number of resources to obtain the label.

【技术实现步骤摘要】

本专利技术涉及标签处理技术,尤其涉及一种标签的处理方法及装置
技术介绍
社会标签(Socialtagging)简称为标签,是一种更为灵活、有趣的分类方式,它允许用户自由地标注各种资源,例如网页、学术论文和多媒体等资源。社会标签可以帮助用户分类整理和查询各类信息,广泛应用于社会标签网站(例如,Flickr、Picassa、YouTube、Plaxo等)、博客(例如,Blogger、WordPress、LiveJournal等)、百科(例如,Wikipedia、PBWiki等)、微博(例如,Twitter、Jaiku等)等系统。现有技术中,提供了对资源进行单一标签分类的方法,以生成资源的一个标签。然而,由于客观事物本身的复杂性,一个资源可能同时具有多个不同的标签,如何对资源进行多标签分类,以生成资源的多个标签,已经成为目前的一个研究热点。
技术实现思路
本专利技术的多个方面提供一种标签的处理方法及装置,用以获得资源的多个标签。本专利技术的一方面,提供一种标签的处理方法,包括:获取资源的语义特征数据;根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率;根据所述后验概率,选择一个标签序列,以作为所述资源的标签集合。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取资源的语义特征数据,包括:利用预先构建的卷积神经网络,对所述资源进行处理,以获得所述资源的语义特征数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:根据标签在第一训练样本集中的出现情况,对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理,以获得所述第一每个训练样本的样本序列;根据所述第一每个训练样本的样本序列,构建所述卷积神经网络。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率,包括:根据所述资源的语义特征数据,利用预先构建的递归神经网络,获得所述资源的至少一个标签序列的后验概率。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:根据标签在第二训练样本集中的出现情况,对所述第二训练样本集中每个第二训练样本中所包含的至少一个标签进行排序处理,以获得所述每个第二训练样本的样本序列;获取所述第二训练样本集中每个第二训练样本中所包含的一个资源的语义特征数据;根据所述每个第二训练样本的样本序列和所述每个第二训练样本中所包含的一个资源的语义特征数据,构建所述递归神经网络。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述后验概率,选择一个标签序列,包括:根据所述后验概率,从所述资源的全部标签序列中,选择所述一个标签序列;或者根据所述后验概率,从所述资源的部分标签序列中,选择所述一个标签序列。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述资源包括图像。本专利技术的另一方面,提供一种标签的处理装置,包括:获取单元,用于获取资源的语义特征数据;处理单元,用于根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率;选择单元,用于根据所述后验概率,选择一个标签序列,以作为所述资源的标签集合。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,具体用于利用预先构建的卷积神经网络,对所述资源进行处理,以获得所述资源的语义特征数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,还用于根据标签在第一训练样本集中的出现情况,对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理,以获得所述第一每个训练样本的样本序列;以及根据所述第一每个训练样本的样本序列,构建所述卷积神经网络。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理单元,具体用于根据所述资源的语义特征数据,利用预先构建的递归神经网络,获得所述资源的至少一个标签序列的后验概率。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理单元,还用于根据标签在第二训练样本集中的出现情况,对所述第二训练样本集中每个第二训练样本中所包含的至少一个标签进行排序处理,以获得所述每个第二训练样本的样本序列;获取所述第二训练样本集中每个第二训练样本中所包含的一个资源的语义特征数据;以及根据所述每个第二训练样本的样本序列和所述每个第二训练样本中所包含的一个资源的语义特征数据,构建所述递归神经网络。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于根据所述后验概率,从所述资源的全部标签序列中,选择所述一个标签序列;或者根据所述后验概率,从所述资源的部分标签序列中,选择所述一个标签序列。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述资源包括图像。由上述技术方案可知,本专利技术实施例通过获取资源的语义特征数据,进而根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率,使得能够根据所述后验概率,选择一个标签序列,以作为所述资源的标签集合,从而实现了获得资源的多个标签的目的。另外,采用本专利技术所提供的技术方案,由于考虑了标签序列中每个标签之间的关联关系,例如,相关性、共线性等,使得能够获得资源的一个标签序列,而不是分别采用单标签分类的方法,单独地获得资源的若干个相互独立的标签,因此,能够有效提高资源的标签获得的可靠性。另外,采用本专利技术所提供的技术方案,通过利用卷积神经网络,使得能够获得更为准确的资源的语义特征数据,因此,能够有效提高资源的语义特征数据获取的可靠性。另外,采用本专利技术所提供的技术方案,通过利用递归神经网络,使得能够将标签序列中每个标签之间的关联关系,例如,相关性、共线性等表示出来,因此,能够有效提高资源的标签获得的可靠性。另外,采用本专利技术所提供的技术方案,通过构建递归神经网络,使得能够快速地学习标签序列中每个标签之间的关联关系,例如,相关性、共线性等,因此,能够有效提高标签序列的关联关系学习的效率。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的标签的处理方法的流程示意图;图2为本专利技术另一实施例提供的标签的处理装置的结构示意图。【具体实施方式】为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术实施例中所涉及的终端可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持设备、平板电脑(TabletComputer)、个人电脑(Per本文档来自技高网...
标签的处理方法及装置

【技术保护点】
一种标签的处理方法,其特征在于,包括:获取资源的语义特征数据;根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率;根据所述后验概率,选择一个标签序列,以作为所述资源的标签集合。

【技术特征摘要】
1.一种标签的处理方法,其特征在于,包括:获取资源的语义特征数据;根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率;根据所述后验概率,选择一个标签序列,以作为所述资源的标签集合。2.根据权利要求1所述的方法,其特征在于,所述获取资源的语义特征数据,包括:利用预先构建的卷积神经网络,对所述资源进行处理,以获得所述资源的语义特征数据。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据标签在第一训练样本集中的出现情况,对所述第一训练样本集中每个第一训练样本中所包含的至少一个标签进行排序处理,以获得所述第一每个训练样本的样本序列;根据所述第一每个训练样本的样本序列,构建所述卷积神经网络。4.根据权利要求1所述的方法,其特征在于,所述根据所述资源的语义特征数据,获得所述资源的至少一个标签序列的后验概率,包括:根据所述资源的语义特征数据,利用预先构建的递归神经网络,获得所述资源的至少一个标签序列的后验概率。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据标签在第二训练样本集中的出现情况,对所述第二训练样本集中每个第二训练样本中所包含的至少一个标签进行排序处理,以获得所述每个第二训练样本的样本序列;获取所述第二训练样本集中每个第二训练样本中所包含的一个资源的语义特征数据;根据所述每个第二训练样本的样本序列和所述每个第二训练样本中所包
\t含的一个资源的语义特征数据,构建所述递归神经网络。6.根据权利要求1所述的方法,其特征在于,所述根据所述后验概率,选择一个标签序列,包括:根据所述后验概率,从所述资源的全部标签序列中,选择所述一个标签序列;或者根据所述后验概率,从所述资源的部分标签序列中,选择所述一个标签序列。7.根据权利要求1~6任一权利要求所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:王江黄畅
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1