多标签物料的相似度度量方法、系统、存储介质以及计算机设备技术方案

技术编号:33190655 阅读:13 留言:0更新日期:2022-04-24 00:18
本发明专利技术适用于计算机技术领域,提供了一种多标签物料的相似度度量方法、系统、存储介质以及计算机设备,所述方法包括:分别获取各个所述物料的多个标签;分别获取各个所述物料的中文描述;计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;将所述物料的所述标签形成所述物料的标签集;根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。借此,本发明专利技术实现了物料之间的相似度计算效果。间的相似度计算效果。间的相似度计算效果。

【技术实现步骤摘要】
多标签物料的相似度度量方法、系统、存储介质以及计算机设备


[0001]本专利技术涉及计算机
,尤其涉及一种多标签物料的相似度度量方法、系统、存储介质以及计算机设备。

技术介绍

[0002]在推荐系统或用户画像等相关领域,需要通过标签刻画物料(比如软件市场中的软件)的特性或计算物料间的相似程度。用标签刻画相关特征具有天然的优势,如果用长文本刻画特征,不能很好的突出特征且包含无效信息,且可视化效果不友好,标签是一些特征的抽象,能够较直接明了的表达特性。
[0003]但是目前很多场景中,物料包含多个标签,且多个标签没有重要程度的区分,这样会导致物料标签较多且特性不突出的问题。特别是基于标签计算物料相关程度的场景中,不同标签给与相同的权重,会严重影响效果。
[0004]综上所述,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。

技术实现思路

[0005]针对上述的缺陷,本专利技术的目的在于提供一种多标签物料的相似度度量方法、系统、存储介质以及计算机设备,提高物料之间的相似度计算效果。
[0006]为了实现上述目的,本专利技术提供了一种多标签物料的相似度度量方法,包括:
[0007]分别获取各个所述物料的多个标签;
[0008]分别获取各个所述物料的中文描述;
[0009]计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;
[0010]将所述物料的所述标签形成所述物料的标签集;
[0011]根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。
[0012]根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
[0013]对所述标签进行第一数据清洗。
[0014]根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
[0015]对所述中文描述进行第二数据清洗。
[0016]根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
[0017]获取所述物料的名称,将所述名称作为所述物料的标签。
[0018]根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述
物料的中文描述的注意力,获得各个所述标签相对应的注意力结果的步骤包括:
[0019]获取所述标签的向量;
[0020]获取所述中文描述的向量;
[0021]计算所述标签的向量与所述中文描述的向量的余弦距离,获得所述标签相对应的注意力结果。
[0022]根据所述的多标签物料的相似度度量方法,所述获取所述中文描述的向量的步骤包括:
[0023]将所述中文描述进行分词;
[0024]将多个所述分词的向量相加取平均获得所述中文描述的向量。
[0025]根据所述的多标签物料的相似度度量方法,所述根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度的步骤包括:
[0026]根据各个所述标签集中的所述标签相对应的注意力结果通过杰卡德相似系数计算各个所述物料的标签集之间的相似度。
[0027]为了实现上述目的,本专利技术还提供了一种多标签物料的相似度度量系统,包括:
[0028]标签获取模块,用于分别获取各个所述物料的多个标签;
[0029]中文描述获取模块,用于分别获取各个所述物料的中文描述;
[0030]注意力计算模块,用于计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;
[0031]标签集获取模块,用于将所述物料的所述标签形成所述物料的标签集;
[0032]相似度计算模块,用于根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。
[0033]为了实现上述目的,本专利技术还提供了一种存储介质,用于存储一种用于执行上述任意一种多标签物料的相似度度量方法的计算机程序。
[0034]为了实现上述目的,本专利技术还提供了一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的多标签物料的相似度度量方法。
[0035]本专利技术通过分别获取各个所述物料的多个标签;分别获取各个所述物料的中文描述;计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;通过计算所述标签相对应的注意力结果来判断所述标签与所述物料的相关程度,实现对不同的标签赋予不同的权重。将所述物料的所述标签形成所述物料的标签集;根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。借此,本专利技术实现了物料之间的相似度计算效果。
附图说明
[0036]图1是本专利技术优选实施例的多标签物料的相似度度量系统的示意图;
[0037]图2是本专利技术优选实施例的多标签物料的相似度度量系统的示意图;
[0038]图3是本专利技术优选实施例的多标签物料的相似度度量方法的流程图;
[0039]图4是本专利技术提供的计算机设备的结构示意图。
具体实施方式
[0040]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0041]需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
[0042]此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
[0043]参见图1~图2,在本专利技术的第一实施例中提供了一种多标签物料的相似度度量系统100,包括:
[0044]标签获取模块10,用于分别获取各个所述物料的多个标签;
[0045]中文描述获取模块20,用于分别获取各个所述物料的中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多标签物料的相似度度量方法,其特征在于,包括:分别获取各个所述物料的多个标签;分别获取各个所述物料的中文描述;计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;将所述物料的所述标签形成所述物料的标签集;根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。2.根据权利要求1所述的多标签物料的相似度度量方法,其特征在于,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:对所述标签进行第一数据清洗。3.根据权利要求1所述的多标签物料的相似度度量方法,其特征在于,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:对所述中文描述进行第二数据清洗。4.根据权利要求1所述的多标签物料的相似度度量方法,其特征在于,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:获取所述物料的名称,将所述名称作为所述物料的标签。5.根据权利要求1所述的多标签物料的相似度度量方法,其特征在于,所述计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果的步骤包括:获取所述标签的向量;获取所述中文描述的向量;计算所述标签的向量与所述中文描述的向量的余弦距离,获得所述标签相对应的注意力结果。6.根据权利要求5所述的多标签物料的相似...

【专利技术属性】
技术研发人员:王斌锋乔建行
申请(专利权)人:北京鸿享技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1