一种多维度文本相似度计算方法、装置、芯片及终端制造方法及图纸

技术编号:42471559 阅读:25 留言:0更新日期:2024-08-21 12:56
本发明专利技术公开了一种多维度文本相似度计算方法、装置、芯片及终端,包括获取待对比目标的文本信息和参照目标的文本信息,并通过多维度分词处理待对比文本信息和参照文本信息;通过动态加权平均处理基于第一原始文本与第一参照文本的相似度计算结果、基于第二原始文本与第二参照文本的相似度计算结果,获得初始相似度;初始相似度小于预设阈值时,将第三原始文本和第三参照文本在补充向量库中进行搜索匹配,通过搜索匹配结果修正初始相似度获得最终相似度,最终相似度作为待对比目标与参照目标的多维度文本相似度计算结果。通过本发明专利技术可以提高相似度计算结果的准确性。

【技术实现步骤摘要】

本专利技术涉及文本处理,特别是涉及一种多维度文本相似度计算方法、装置、芯片及终端


技术介绍

1、计算文本相似度的作用包括信息检索、内容去重、语义理解等,满足互联网时代信息多样化的需求。

2、但是,文本相似度计算的比较对象往往包括多个维度的文本描述信息,例如app应用的描述,往往包括应用名、开发者、领域、简介、功能等信息。对于此种以app应用为比较对象的文本相似度计算中,通常将上述的应用描述拼接作为长文本进行对比,语义理解上容易出现较大的误差,因而难以得到正确的比较结果。


技术实现思路

1、基于此,本专利技术提供一种多维度文本相似度计算方法、装置、芯片及终端,可以解决传统的文本相似度计算方法在面对具有复杂维度的比较对象时,仍采用单一维度的文本处理方式,从而导致计算结果不准确的问题。

2、第一方面,提供一种多维度文本相似度计算方法,包括:

3、获取待对比目标的文本信息和参照目标的文本信息,并通过多维度分词处理待对比文本信息和参照文本信息,获得长文本维度的第一原始文本及第一参照本文档来自技高网...

【技术保护点】

1.一种多维度文本相似度计算方法,其特征在于,包括:

2.如权利要求1所述的多维度文本相似度计算方法,其特征在于,通过多维度分词处理待对比文本信息和参照文本信息,包括:

3.如权利要求1所述的多维度文本相似度计算方法,其特征在于,通过动态加权平均处理基于第一原始文本与第一参照文本的相似度计算结果、基于第二原始文本与第二参照文本的相似度计算结果之前,包括:

4.如权利要求3所述的多维度文本相似度计算方法,其特征在于,基于第一原始文本的关键词计算与第一参照文本的关键词相似度,计算公式为:

5.如权利要求1至4任一项所述的多维度文本相似度计算方法...

【技术特征摘要】

1.一种多维度文本相似度计算方法,其特征在于,包括:

2.如权利要求1所述的多维度文本相似度计算方法,其特征在于,通过多维度分词处理待对比文本信息和参照文本信息,包括:

3.如权利要求1所述的多维度文本相似度计算方法,其特征在于,通过动态加权平均处理基于第一原始文本与第一参照文本的相似度计算结果、基于第二原始文本与第二参照文本的相似度计算结果之前,包括:

4.如权利要求3所述的多维度文本相似度计算方法,其特征在于,基于第一原始文本的关键词计算与第一参照文本的关键词相似度,计算公式为:

5.如权利要求1至4任一项所述的多维度文本相似度计算方法,其特征在于,通过动态加权平均处理基于所述第一原始文本与第一参照文本的相似度计算结果、基于所述第二原始文本与第二参照文本的相似度计算结果,获得初始相似度,计算公式为:

【专利技术属性】
技术研发人员:欧治胜丁宇星吴敏周永川李东霖张小华王辉胡阳帆
申请(专利权)人:数字重庆大数据应用发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1