System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种确定文本相似度的方法、装置、计算设备及存储介质制造方法及图纸_技高网

一种确定文本相似度的方法、装置、计算设备及存储介质制造方法及图纸

技术编号:41138243 阅读:4 留言:0更新日期:2024-04-30 18:09
本发明专利技术公开了一种确定文本相似度的方法、装置计算设备及存储介质,确定文本相似度的方法在计算设备中执行,该方法包括:获取第一文本和第二文本的文本信息,文本信息至少包括字符信息,第一文本指示标准名称,第二文本指示用户输入的名称;基于文本信息生成第一字符矩阵,并基于第一字符矩阵确定第一文本和第二文本的最小编辑距离值;利用生成的第一字符矩阵,构建第二字符矩阵;基于第二字符矩阵,确定第一文本和第二文本的最大交集值;将最大交集值,与最小编辑距离值和最大交集值的和的比值确定为第一文本和第二文本的相似度。

【技术实现步骤摘要】

本专利技术涉及文本匹配领域,具体涉及一种确定文本相似度的方法、装置、计算设备及存储介质


技术介绍

1、在客户地址与高德地图的地址相似度比对、经销商4s店名与标准店名的对比等场景中,均有文本相似度比较的需求。

2、在现有技术中,有很多相似度的计算方法。如传统机器学习模型、深度学习模型等等。但是机器学习模型一般都是有监督模型,需要人工标注,并且相似度的数值在标注时也不容易被量化。


技术实现思路

1、鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种确定文本相似度的方法、装置、计算设备以及存储介质。

2、根据本专利技术的一个方面,提供一种确定文本相似度的方法,在计算设备中执行,该方法包括:获取第一文本和第二文本的文本信息,文本信息至少包括字符信息,第一文本指示标准名称,第二文本指示用户输入的名称;基于文本信息生成第一字符矩阵,并基于第一字符矩阵确定第一文本和第二文本的最小编辑距离值;利用生成的第一字符矩阵,构建第二字符矩阵;基于第二字符矩阵,确定第一文本和第二文本的最大交集值;将最大交集值,与最小编辑距离值和最大交集值的和的比值确定为第一文本和第二文本的相似度。

3、可选地,在根据本专利技术确定文本相似度的方法中,其中字符信息包括文本长度,以及基于文本信息生成第一字符矩阵,包括:利用从0到第一数字、从0到第二数字分别初始化第一字符矩阵的第一行各元素、第一列的各元素,其中,第一数字为第一文本的文本长度减1、第二数字为第二文本的文本长度减1;基于预设的第一写入规则,按照从小到大的顺序依次对第一字符矩阵的各位置进行元素写入;将第一字符矩阵位于最后一行且最后一列的元素的值作为最小编辑距离值。

4、可选地,在根据本专利技术确定文本相似度的方法中,其中,第一写入规则包括:针对第一字符矩阵中任一位置,基于该位置相邻元素的值,确定该位置的元素值。

5、可选地,在根据本专利技术确定文本相似度的方法中,其中,相邻元素包括位于该位置同列且前一行的第一元素、同行且前一列的第二元素、前一行且前一列的第三元素。

6、可选地,在根据本专利技术确定文本相似度的方法中,其中,针对第一字符矩阵中任一位置,基于该位置相邻元素的值,确定该位置的元素值,包括:判断第一文本和第二文本在该位置对应字符是否一致;若一致,则该位置的元素值为第一最小值,第一最小值为第一元素的值与1的和值、第二元素的值与1的和值、第三元素的值中的最小值;若一致,则该位置的元素值为第二最小值,第二最小值为第一元素的值与1的和值、第二元素的值与1的和值、第三元素的值与1的和值中的最小值。

7、可选地,在根据本专利技术确定文本相似度的方法中,其中,利用第一字符矩阵,生成第二字符矩阵,包括:构建初始第二字符矩阵,初始第二字符矩阵的行列长度分别与所述第一字符矩阵的行列长度相同,且初始第二字符矩阵的第一行和第一列的各元素均被初始化为0;基于预设的第二写入规则,按照从小到大的顺序依次对第二字符矩阵的各位置进行元素写入。

8、可选地,在根据本专利技术确定文本相似度的方法中,其中,基于第二字符矩阵,确定第一文本和第二文本的最大交集值,包括:将第二字符矩阵的位于最后一行且最后一列的元素的值作为最大交集值。

9、可选地,在根据本专利技术确定文本相似度的方法中,其中,第二写入规则包括:针对第二字符矩阵中任一位置,基于该位置的相邻元素的值与其镜像元素的元素值,确定该位置的元素值,镜像元素为在第一字符矩阵中与该位置相同位置的元素。

10、根据本专利技术的又一个方面,提供一种确定文本相似度的装置,驻留在计算设备中,装置包括:获取模块,适于获取第一文本和第二文本的文本信息,文本信息至少包括字符信息,第一文本指示标准名称,第二文本指示用户输入的名称;生成模块,适于基于文本信息生成第一字符矩阵,并基于第一字符矩阵确定第一文本和第二文本的最小编辑距离值;构建模块,适于利用生成的第一字符矩阵,构建第二字符矩阵;第一确定模块,适于基于第二字符矩阵,确定第一文本和第二文本的最大交集值;第二确定模块,适于将最大交集值,与最小编辑距离值和最大交集值的和的比值确定为第一文本和第二文本的相似度。

11、根据本专利技术的又一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行上述方法的指令。

12、根据本专利技术的又一个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行上述的方法。

13、根据本专利技术的方案,通过获取第一文本和第二文本的最小编辑距离、最小编辑距离前提下的最大交集,并通过基于该最大交集的交并比作为该第一文本和第二文本的相似度,克服了目前基于最小编辑距离求得的交集不唯一,而基于最大交集的算法却忽略了编辑距离的缺陷。

14、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种确定文本相似度的方法,在计算设备中执行,方法包括:

2.如权利要求1所述的方法,其中所述字符信息包括文本长度,以及基于所述文本信息生成第一字符矩阵,包括:

3.如权利要求2所述的方法,其中,所述第一写入规则包括:

4.如权利要求3所述的方法,其中,所述相邻元素包括位于该位置同列且前一行的第一元素、同行且前一列的第二元素、前一行且前一列的第三元素。

5.如权利要求4所述的方法,其中,针对第一字符矩阵中任一位置,基于该位置相邻元素的值,确定该位置的元素值,包括:

6.如权利要求1-5任一项所述的方法,其中,利用所述第一字符矩阵,生成第二字符矩阵,包括:

7.如权利要求6所述的方法,其中,基于所述第二字符矩阵,确定所述第一文本和第二文本的最大交集值,包括:

8.一种确定文本相似度的装置,驻留在计算设备中,装置包括:

9.一种计算设备,包括:

10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-7中任一项所述的方法

...

【技术特征摘要】

1.一种确定文本相似度的方法,在计算设备中执行,方法包括:

2.如权利要求1所述的方法,其中所述字符信息包括文本长度,以及基于所述文本信息生成第一字符矩阵,包括:

3.如权利要求2所述的方法,其中,所述第一写入规则包括:

4.如权利要求3所述的方法,其中,所述相邻元素包括位于该位置同列且前一行的第一元素、同行且前一列的第二元素、前一行且前一列的第三元素。

5.如权利要求4所述的方法,其中,针对第一字符矩阵中任一位置,基于该位置相邻元素的值,确定该...

【专利技术属性】
技术研发人员:徐丞申李林肖明勤刘荣黄萧喻杰
申请(专利权)人:天津车之家软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1