【技术实现步骤摘要】
基于文本标签计算文本相似度的方法及装置
[0001]本专利技术涉及互联网
,尤其涉及一种基于文本标签计算文本相似度的方法及装置。
技术介绍
[0002]推荐和搜索场景中经常会用到文本相似度特征,而文本相似度计算的方式有很多,例如,将文本转换为向量后,通过计算向量间的相似度来表示文本间的相似度,或者基于协同过滤的方式,如ItemCF,来计算两两文本之间的相似度。
[0003]然而,相关技术中,文本间的相似度计算计算量大,效率较低,从而造成关联关系信息不准确。
技术实现思路
[0004]本专利技术的目的在于提供一种基于文本标签计算文本相似度的方法及装置,具有计算效率高和准确率高的特点,以解决上述技术背景中提出的问题。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]本专利技术第一个方面提供了一种基于文本标签计算文本相似度的方法,包括:
[0007]获取至少两个文本的文本标签,文本标签为字符串形式,每个文本标签包括一个或多个标签;
[0008]将文 ...
【技术保护点】
【技术特征摘要】
1.基于文本标签计算文本相似度的方法,其特征在于,包括:获取至少两个文本的文本标签,文本标签为字符串形式,每个文本标签包括一个或多个标签;将文本标签均转换成转表的列形式,形成各文本对应的标签列;获取每个文本与其他所有文本之间的两两组合关系,并通过每一组合中的两个文本对应的标签列进行关联筛选,筛选出所有组合关系中具有关联的组合,生成关联组合集,关联组合集中组成每个组合的两个文本具有至少一个相同的标签;根据预设规则,设定关联组合集的每个组合中相同标签对应的标签权重值;基于标签权重值,确定关联组合集中每个组合的相似权重值,所述相似权重值为每个组合的所有标签权重值之和。2.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述获取每个文本与其他所有文本之间的两两组合关系的步骤包括:通过笛卡尔积算法获取每个文本与其他所有文本之间的两两组合关系。3.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述具有关联的组合,是指组合关系中的两个文本至少具有一个相同的标签。4.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述通过每一组合中的两个文本对应的标签列进行关联筛选,筛选出所有组合关系中具有关联的组合,包括如下步骤:任意一个组合包括第一文本和第二文本,所述第一文本对应的标签列为第一标签列,所述第一标签列中包括至少一个标签,所述第二文本对应的标签列为第二标签列,所述第二标签列中包括至少一个标签;判断第一标签列中的标签与第二标签列中的标签是否存在相同标签;如果存在相同标签,则该组合为具有关联的组合;如果不存在相同标签,则该组合不是具有关联的组合,该组合被过滤掉,不参与后续的相似度计算。5.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述获取至少两个文本的文本标签,文本标签为字符串形式,包括如下步骤:对文本进行预处理,去...
【专利技术属性】
技术研发人员:胡银银,
申请(专利权)人:上海二三四五网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。