一种检测文本相似度的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:39128144 阅读:13 留言:0更新日期:2023-10-23 14:49
本申请的一些实施例提供了一种检测文本相似度的方法、装置、存储介质及电子设备,该方法包括:确定原始文本对应的待比对文本指纹;通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本。本申请的一些实施例可以实现对文本相似度的校测,成本低效率高。成本低效率高。成本低效率高。

【技术实现步骤摘要】
一种检测文本相似度的方法、装置、存储介质及电子设备


[0001]本申请涉及文本处理
,具体而言,涉及一种检测文本相似度的方法、装置、存储介质及电子设备。

技术介绍

[0002]文本相似度用于衡量多个文本之间是否相似,在文本分析或处理场景中应用广泛。
[0003]目前应用较广泛的是基于机器学习对文本进行相似度识别的方式,该方式可以识别绝大多数相似文本,但是随着文本相似度识别要求的不断提升,处理大规模文本时的开销也会不断增加,进而提升了运算和部署成本。
[0004]因此,如何提供一种成本低且能够高效检测文本相似度的方法的技术方案成为亟需解决的技术问题。

技术实现思路

[0005]本申请的一些实施例的目的在于提供一种检测文本相似度的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案可以降低检测文本相似度成本的同时保证检测效率和准确度,鲁棒性较好。
[0006]第一方面,本申请的一些实施例提供了一种检测文本相似度的方法,包括:确定原始文本对应的待比对文本指纹;通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本。
[0007]本申请的一些实施例通过将原始文本对应的待比对文本指纹与预设指纹库中的指纹进行对比,获取与原始文本匹配的相似文本。本申请实施例可以在不增加开销的情况下处理大规模文本,降低了成本,且保证了文本相似度检测的效率和准确度,鲁棒性较好。
[0008]在一些实施例,所述确定原始文本对应的待比对文本指纹,包括:获取所述原始文本对应的文本语义向量;对所述文本语义向量进行计算,得到所述待比对文本指纹。
[0009]本申请的一些实施例通过对原始文本的文本语义向量进行计算得到待比对文本指纹,为后续相似度检测提供了数据支持。
[0010]在一些实施例,所述获取所述原始文本对应的文本语义向量,包括:将所述原始文本转换为标记序列;确认所述标记序列的长度超过预设长度阈值时,对所述标记序列进行切分,得到多个标记序列块;将所述多个标记序列块中各个标记序列块依次输入至目标网络模型,得到所述文本语义向量。
[0011]本申请的一些实施例通过对原始文本进行转换、切分和模型处理得到文本语义向量,可以得到长文本的文本语义向量,进而实现对长文本的相似度检测。
[0012]在一些实施例,所述通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本,包括:计算所述待比对文本指纹与所述预设指纹库中各个指纹对应的各个相似度值;将所述各个相似度值中不小于相似度阈值的指纹对应的文本
作为所述相似文本。
[0013]本申请的一些实施例通过计算待比对文本指纹和预设指纹库中的指纹的相似度值,筛选出相似文本,既保证了准确度也保证了效率。
[0014]在一些实施例,所述确定原始文本对应的待比对文本指纹,包括:获取所述原始文本的文件名称;确认所述预设指纹库中存在所述文件名称时,得到与所述文件名称对应的所述待比对文件指纹。
[0015]本申请的一些实施例通过原始文本的文件名称可以从预设指纹库中查找对应的待比对文件指纹,减少了不必要的计算,提升了检测效率。
[0016]在一些实施例,所述通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本,包括:计算所述待比对文本指纹与所述预设指纹库中除所述待比对文本指纹之外的其他指纹的相似度结果;从所述相似度结果中筛选出不小于相似度阈值的指纹对应的文本作为所述相似文本。
[0017]本申请的一些实施例通过计算待比对文本指纹和预设指纹库中除待比对文本指纹之外的指纹的相似度值,筛选出预设指纹库中与原始文本对应的相似文本,既保证了准确度也保证了效率。
[0018]在一些实施例,在所述获取与所述原始文本相匹配的相似文本之后,所述方法还包括:计算所述原始文本与所述相似文本之间的文本距离,输出与所述文本距离对应的文本间差异信息。
[0019]本申请的一些实施例通过对原始文本和相似文本进行文本距离计算得到两者间的差异信息,可以实现对文本差异的内容输出。
[0020]第二方面,本申请的一些实施例提供了一种检测文本相似度的装置,包括:确定模块,被配置为确定原始文本对应的待比对文本指纹;
[0021]对比模块,被配置为通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本。
[0022]第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。
[0023]第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。
[0024]第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。
附图说明
[0025]为了更清楚地说明本申请的一些实施例的技术方案,下面将对本申请的一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0026]图1为本申请的一些实施例提供的一种检测文本相似度的系统图;
[0027]图2为本申请的一些实施例提供的检测文本相似度的方法流程图之一;
[0028]图3为本申请的一些实施例提供的检测文本相似度的方法流程图之二;
[0029]图4为本申请的一些实施例提供的一种检测文本相似度的装置组成框图;
[0030]图5为本申请的一些实施例提供的一种电子设备示意图。
具体实施方式
[0031]下面将结合本申请的一些实施例中的附图,对本申请的一些实施例中的技术方案进行描述。
[0032]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0033]相关技术中,现有的文本相似度检测方法,大体可以分为基于字面匹配的、基于模糊哈希的、基于机器学习的三大类。其中,第一类度量方式比较简单直接,但是其适应能力有限,对文本内容进行增加、删除或替换后很难有效识别文本相似度,且处理大规模文本时的开销巨大。第二类度量方式运算开销较小,可以适应大多数文本内容修改的情况,但对于在文本中插入噪声的情况识别效果较差,且大部分模糊哈希算法,对于文件的大小都有要求,低于设定文本大小下限的文本内容无法处理。第三类度量方式提出可以识别绝大多数的相似文本,但是不同的技术检测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测文本相似度的方法,其特征在于,包括:确定原始文本对应的待比对文本指纹;通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本。2.如权利要求1所述的方法,其特征在于,所述确定原始文本对应的待比对文本指纹,包括:获取所述原始文本对应的文本语义向量;对所述文本语义向量进行计算,得到所述待比对文本指纹。3.如权利要求2所述的方法,其特征在于,所述获取所述原始文本对应的文本语义向量,包括:将所述原始文本转换为标记序列;确认所述标记序列的长度超过预设长度阈值时,对所述标记序列进行切分,得到多个标记序列块;将所述多个标记序列块中各个标记序列块依次输入至目标网络模型,得到所述文本语义向量。4.如权利要求1

3中任一项所述的方法,其特征在于,所述通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本,包括:计算所述待比对文本指纹与所述预设指纹库中各个指纹对应的各个相似度值;将所述各个相似度值中不小于相似度阈值的指纹对应的文本作为所述相似文本。5.如权利要求1所述的方法,其特征在于,所述确定原始文本对应的待比对文本指纹,包括:获取所述原始文本的文件名称;确认所述预设指纹库中存在所述文件名称时,得到与所述文件名称对应的所述待比对文件指纹。6.如权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:王蕴韬潘季明张新
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1