基于文本标签计算文本相似度的方法及装置制造方法及图纸

技术编号：37715496 阅读：23 留言：0更新日期：2023-06-02 00:11

本申请公开了基于文本标签计算文本相似度的方法及装置，将字符串形式的文本标签先转换成转表的列形式，通过笛卡尔积方式获取每个文本与所有文本两两对应关系，并通过标签关联进行筛选，再设置标签权重值，基于标签权重值计算文本之间的相似度，并进行归一化处理。本发明专利技术通过文本标签来计算两个文本之间的相似度，具有计算效率高和准确率高的特点，通过文本标签计算文本相似度的方法较相关技术中向量计算相似度的方式，大大降低了计算资源使用量和计算资源使用时长。量和计算资源使用时长。量和计算资源使用时长。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本标签计算文本相似度的方法及装置

[0001]本专利技术涉及互联网
，尤其涉及一种基于文本标签计算文本相似度的方法及装置。

技术介绍

[0002]推荐和搜索场景中经常会用到文本相似度特征，而文本相似度计算的方式有很多，例如，将文本转换为向量后，通过计算向量间的相似度来表示文本间的相似度，或者基于协同过滤的方式，如ItemCF，来计算两两文本之间的相似度。
[0003]然而，相关技术中，文本间的相似度计算计算量大，效率较低，从而造成关联关系信息不准确。

技术实现思路

[0004]本专利技术的目的在于提供一种基于文本标签计算文本相似度的方法及装置，具有计算效率高和准确率高的特点，以解决上述技术背景中提出的问题。
[0005]为实现上述目的，本专利技术采用以下技术方案：
[0006]本专利技术第一个方面提供了一种基于文本标签计算文本相似度的方法，包括：
[0007]获取至少两个文本的文本标签，文本标签为字符串形式，每个文本标签包括一个或多个标签；
[0008]将文...

【技术保护点】

【技术特征摘要】
1.基于文本标签计算文本相似度的方法，其特征在于，包括：获取至少两个文本的文本标签，文本标签为字符串形式，每个文本标签包括一个或多个标签；将文本标签均转换成转表的列形式，形成各文本对应的标签列；获取每个文本与其他所有文本之间的两两组合关系，并通过每一组合中的两个文本对应的标签列进行关联筛选，筛选出所有组合关系中具有关联的组合，生成关联组合集，关联组合集中组成每个组合的两个文本具有至少一个相同的标签；根据预设规则，设定关联组合集的每个组合中相同标签对应的标签权重值；基于标签权重值，确定关联组合集中每个组合的相似权重值，所述相似权重值为每个组合的所有标签权重值之和。2.根据权利要求1所述的基于文本标签计算文本相似度的方法，其特征在于，所述获取每个文本与其他所有文本之间的两两组合关系的步骤包括：通过笛卡尔积算法获取每个文本与其他所有文本之间的两两组合关系。3.根据权利要求1所述的基于文本标签计算文本相似度的方法，其特征在于，所述具有关联的组合，是指组合关系中的两个文本至少具有一个相同的标签。4.根据权利要求1所述的基于文本标签计算文本相似度的方法，其特征在于，所述通过每一组合中的两个文本对应的标签列进行关联筛选，筛选出所有组合关系中具有关联的组合，包括如下步骤：任意一个组合包括第一文本和第二文本，所述第一文本对应的标签列为第一标签列，所述第一标签列中包括至少一个标签，所述第二文本对应的标签列为第二标签列，所述第二标签列中包括至少一个标签；判断第一标签列中的标签与第二标签列中的标签是否存在相同标签；如果存在相同标签，则该组合为具有关联的组合；如果不存在相同标签，则该组合不是具有关联的组合，该组合被过滤掉，不参与后续的相似度计算。5.根据权利要求1所述的基于文本标签计算文本相似度的方法，其特征在于，所述获取至少两个文本的文本标签，文本标签为字符串形式，包括如下步骤：对文本进行预处理，去...

【专利技术属性】
技术研发人员：胡银银，
申请(专利权)人：上海二三四五网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人