一种确定文本相似度的方法、装置、计算设备及存储介质制造方法及图纸

技术编号:41138243 阅读:29 留言:0更新日期:2024-04-30 18:09
本发明专利技术公开了一种确定文本相似度的方法、装置计算设备及存储介质,确定文本相似度的方法在计算设备中执行,该方法包括:获取第一文本和第二文本的文本信息,文本信息至少包括字符信息,第一文本指示标准名称,第二文本指示用户输入的名称;基于文本信息生成第一字符矩阵,并基于第一字符矩阵确定第一文本和第二文本的最小编辑距离值;利用生成的第一字符矩阵,构建第二字符矩阵;基于第二字符矩阵,确定第一文本和第二文本的最大交集值;将最大交集值,与最小编辑距离值和最大交集值的和的比值确定为第一文本和第二文本的相似度。

【技术实现步骤摘要】

本专利技术涉及文本匹配领域,具体涉及一种确定文本相似度的方法、装置、计算设备及存储介质


技术介绍

1、在客户地址与高德地图的地址相似度比对、经销商4s店名与标准店名的对比等场景中,均有文本相似度比较的需求。

2、在现有技术中,有很多相似度的计算方法。如传统机器学习模型、深度学习模型等等。但是机器学习模型一般都是有监督模型,需要人工标注,并且相似度的数值在标注时也不容易被量化。


技术实现思路

1、鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种确定文本相似度的方法、装置、计算设备以及存储介质。

2、根据本专利技术的一个方面,提供一种确定文本相似度的方法,在计算设备中执行,该方法包括:获取第一文本和第二文本的文本信息,文本信息至少包括字符信息,第一文本指示标准名称,第二文本指示用户输入的名称;基于文本信息生成第一字符矩阵,并基于第一字符矩阵确定第一文本和第二文本的最小编辑距离值;利用生成的第一字符矩阵,构建第二字符矩阵;基于第二字符矩阵,确定第一文本本文档来自技高网...

【技术保护点】

1.一种确定文本相似度的方法,在计算设备中执行,方法包括:

2.如权利要求1所述的方法,其中所述字符信息包括文本长度,以及基于所述文本信息生成第一字符矩阵,包括:

3.如权利要求2所述的方法,其中,所述第一写入规则包括:

4.如权利要求3所述的方法,其中,所述相邻元素包括位于该位置同列且前一行的第一元素、同行且前一列的第二元素、前一行且前一列的第三元素。

5.如权利要求4所述的方法,其中,针对第一字符矩阵中任一位置,基于该位置相邻元素的值,确定该位置的元素值,包括:

6.如权利要求1-5任一项所述的方法,其中,利用所述第一字符矩...

【技术特征摘要】

1.一种确定文本相似度的方法,在计算设备中执行,方法包括:

2.如权利要求1所述的方法,其中所述字符信息包括文本长度,以及基于所述文本信息生成第一字符矩阵,包括:

3.如权利要求2所述的方法,其中,所述第一写入规则包括:

4.如权利要求3所述的方法,其中,所述相邻元素包括位于该位置同列且前一行的第一元素、同行且前一列的第二元素、前一行且前一列的第三元素。

5.如权利要求4所述的方法,其中,针对第一字符矩阵中任一位置,基于该位置相邻元素的值,确定该...

【专利技术属性】
技术研发人员:徐丞申李林肖明勤刘荣黄萧喻杰
申请(专利权)人:天津车之家软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1