一种标签关联程度的确定方法及装置制造方法及图纸

技术编号:11404670 阅读:97 留言:0更新日期:2015-05-03 20:44
本申请公开了一种标签关联程度的确定方法,用以提供一种确定用户标签之间关联程度的方案。方法包括:确定同已有标签存在共现关系的用户标签与已有标签的编辑距离;其中,所述已有标签是根据用户特征信息生成的;根据所述编辑距离,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。本申请还公开了标签关联程度的确定装置。

【技术实现步骤摘要】
一种标签关联程度的确定方法及装置
本申请涉及互联网
,尤其涉及一种标签关联程度的确定方法及装置。
技术介绍
目前,针对微博等社交工具,可以把用户的关注对象所在分组的分组名称确定为用户标签,后续可以根据用户标签实现对用户的查找。比如,基于通过上述方式确定的用户标签“NBA”,当需要查找一批对“NBA”感兴趣的用户时,可以直接以该用户标签作为查询关键词,查找以该用户标签作为分组名称的分组,进而将查找到分组中的关注对象和/或设置该分组名称的用户确定为对“NBA”感兴趣的用户。可以理解,与该用户标签相关联的其他用户标签(如“NBA球星”等)作为分组名中的关注对象,其实也是对“NBA”感兴趣的用户,若能够获知与该用户标签相关联的所有用户标签,则可查找到非常多的对“NBA”感兴趣的用户。可见,确定用户标签之间的关联关系对于提高查找对象的全面性是非常重要的。现有技术中,为了确定与某用户标签相关联的标签,首先会建立一个基于常识、文化、学术等公知内容的多种类目的存在关联关系的标签库。当需要确定出与该用户标签存在关联关系的用户标签时,计算标签库中用户标签与选定的用户标签的共现频率,并选取共现频率大于设定的共现频率阈值的用户标签,作为该用户标签的关联标签。一般地,与任一用户标签的关联标签可以分为强关联标签和弱关联标签两种。“强关联”表示用户标签之间存在较强的关联关系;“弱关联”表示用户标签之间存在较弱的关联关系。如:“NBA球星”与“NBA”这两个用户标签就具有较强的关联关系,而相对“NBA球星”与“NBA”之间的关联关系,“球星”与“NBA”这两个用户标签的关联关系就较弱。区分用户标签关联程度的意义在于:后续在基于用户标签进行用户查找时,可以仅根据查询关键词,以及与查询关键词(某用户标签)之间强关联的其他用户标签,进行用户查找;而对于虽然与该查询关键词有关联,但关联程度较弱的用户标签,则不再以它们作为查询关键词。从而可以避免对一些准确度较差的查找结果进行查找而导致资源无谓浪费的问题。然而,现有技术中还没有提出能够自动区分用户标签关联程度的技术。
技术实现思路
本申请实施例提供一种标签关联程度的确定方法,提供一种确定用户标签之间关联程度的方案。本申请实施例提供一种标签关联程度的确定装置,提供一种确定用户标签之间关联程度的方案。本申请实施例采用下述技术方案:一种标签关联程度的确定方法,包括:确定同已有标签存在共现关系的用户标签与已有标签的编辑距离;其中,所述已有标签是根据用户特征信息生成的;根据所述编辑距离,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。一种标签关联程度的确定装置,包括:计算标签单元,用于确定同已有标签存在共现关系的用户标签与已有标签的编辑距离;其中,所述已有标签是根据用户特征信息生成的;确定关系单元,用于根据所述编辑距离,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:采用根据通过确定同已有标签存在共现关系的用户标签与已有标签的编辑距离,确定出同已有标签存在共现关系的用户标签与已有标签的关联程度,由于已有标签也是用户标签,所以等同于确定出用户标签之间的关联程度。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种标签关联程度的确定方法的具体实现流程示意图;图2为本申请实施例提供的一种标签关联程度的确定装置的具体结构示意图;图3为本申请实施例提供的一种标签关联程度的确定方法的示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。本申请实施例提供一种标签关联程度的确定方法,提供一种确定用户标签之间关联程度的方案。该方法的实现流程示意图如图1所示,包括下述步骤:步骤11,确定同已有标签存在共现关系的用户标签与已有标签的编辑距离;其中,已有标签是根据用户特征信息生成的。步骤12,根据编辑距离,确定同已有标签存在共现关系的用户标签与已有标签的关联程度。采用本实施例提供的该方法,根据通过确定同已有标签存在共现关系的用户标签与已有标签的编辑距离,确定出同已有标签存在共现关系的用户标签与已有标签的关联程度,由于已有标签也是用户标签,所以等同于确定出用户标签之间的关联程度。以下分别详细介绍步骤11和步骤12:在一种实施方式中,可以采用下述方式,生成所述已有标签:获取用户特征信息;根据设定的标签生成方式以及用户特征信息,生成所述已有标签。其中,用户特征信息可以包括:用户的分组名称、用户的自标签、用户的职业信息、用户的教育信息。比如,获取到用户的分组名称,分析分组名称的语义,再根据设定的标签生成方式,生成所述已有标签。具体而言:可以但不限于根据以下述相关规则中的一种或多种生成已有标签:行业术语;行业认证信息;拼音及拼音缩写;英文表达方式及英文表达方式的缩写;类目体系词汇。具体可以参考如下表1所示的实例。表1以投资理财为例,本申请实施例中,为了根据相关规则生成已有标签,可以对“投资理财”先进行语义分析;然后根据保存的语义与行业术语的映射关系,以及分析结果,确定出作为已有标签的行业术语。需要说明的是,由于用户分组名称属于用户原创内容(UserGeneratedContent,UGC),个性,潮流等新鲜元素不断注入到互联网,用户标签也各式各样,如:【潮流】,即加入特定符号,在根据上述规则生成已有标签时,会导致无法对这样的用户标签进行语义分析或其他解析操作,所以可以对类似的用户分组名称做预处理。在一种实施方式中,为了达到更加方便地对用户特征信息进行语义分析或其他解析操作的效果,根据用户特征信息生成已有标签,可以包括:按照设定的预处理方式,对用户特征信息进行处理,得到处理后的用户特征信息;根据设定的标签生成方式以及处理后的用户特征信息,生成已有标签。其中,预处理方式可以但不限于包括下述方式中的一种或多种:将繁体字符转换为简体字符;去除特定符号;将大写字母转换为小写字母。具体可以参考如下表2所示的实例。表2针对步骤11而言,先对共现关系和共现频率做以下解释:当粉丝将姚明分配到以“NBA”为分组名称的分组n次,也将姚明分配到以“休斯顿火箭”为分组名称的分组中也为n次,可以定义“NBA”和“休斯顿火箭”这两个分组名称(即用户标签)存在共现关系,且共现频率为1。可以推出,当姚明被粉丝分配到“NBA”和“休斯顿火箭”这两个分组中的次数均为2n次时,这两个用户标签的共现频率为2。具体而言,同已有标签存在共现关系的用户标签(下文统称为共现标签)是指:被分配到以已有标签作为分组名称的分组下的用户关注对象所属的其他分组的分组名称(用户标签)。比如,“NBA”为已有标签,粉丝将“姚明”、“易建联”等等分配到“本文档来自技高网
...
一种标签关联程度的确定方法及装置

【技术保护点】
一种标签关联程度的确定方法,其特征在于,包括:确定同已有标签存在共现关系的用户标签与已有标签的编辑距离;其中,所述已有标签是根据用户特征信息生成的;根据所述编辑距离,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。

【技术特征摘要】
1.一种标签关联程度的确定方法,其特征在于,包括:确定同已有标签存在共现关系的用户标签与已有标签的编辑距离;其中,所述已有标签是根据用户特征信息生成的,所述同已有标签存在共现关系的用户标签是指被分配到以已有标签作为分组名称的分组下的用户关注对象所属的其他分组的分组名称;根据所述编辑距离,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。2.如权利要求1所述的方法,其特征在于,所述根据编辑距离,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度,具体包括:判断所述编辑距离是否大于设定的第一编辑距离阈值;在判断结果为否时,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联程度;在判断结果为是时,根据所述编辑距离、以及所述同已有标签存在共现关系的用户标签与所述已有标签的共现频率,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度;其中,所述共现频率是根据同一对象分别被分配到以所述已有标签作为分组名称的分组中的次数、和以所述同已有标签存在共现关系的用户标签作为分组名称的分组中的次数确定的。3.如权利要求2所述的方法,其特征在于,所述在判断结果为是时,根据所述编辑距离、以及所述同已有标签存在共现关系的用户标签与所述已有标签的共现频率,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度,具体包括:当所述编辑距离不大于设定的第二编辑距离阈值,且所述共现频率大于设定的第一共现频率阈值时,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联程度;其中,所述第二编辑距离阈值大于第一编辑距离阈值;当所述编辑距离大于设定的第二编辑距离阈值,且所述共现频率大于设定的第二共现频率阈值时,确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联程度;其中,所述第二共现频率阈值大于第一共现频率阈值。4.如权利要求1至3任一权项所述的方法,其特征在于,采用下述方式,生成所述已有标签:获取用户特征信息;根据设定的标签生成方式以及用户特征信息,生成所述已有标签;其中,所述设定的标签生成方式包括下述方式中的一种或多种:根据与用户特征信息相关的行业术语,生成所述已有标签;根据与用户特征信息相关的行业认证信息,生成所述已有标签;根据与用户特征信息相关的拼音及拼音缩写,生成所述已有标签;根据与用户特征信息相关的英文表达方式及英文表达方式的缩写,生成所述已有标签;根据与用户特征信息相关的类目体系词汇,生成所述已有标签。5.如权利要求4所述的方法,其特征在于,根据设定的标签生成方式以及用户特征信息,生成所述已有标签,具体包括:按照设定的预处理方式,对所述用户特征信息进行处理,得到处理后的用户特征信息;根据设定的标签生成方式以及处理后的用户特征信息,生成所述已有标签...

【专利技术属性】
技术研发人员:李金奎陈挺郭艳波
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1