System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本相似度检测方法、可读介质和电子设备技术_技高网

一种文本相似度检测方法、可读介质和电子设备技术

技术编号:41379436 阅读:24 留言:0更新日期:2024-05-20 10:21
本申请涉及文本处理领域,公开了一种文本相似度检测方法、可读介质和电子设备,保证文本相似度的计算过程简单易实现、占用资源少、计算速度较高、且计算准确度较高。该方法可以提取多个候选文本中各个候选文本的关键词,并基于候选文本与关键词之间的包含关系构建“文本‑关键词”图。即该“文本‑关键词”图用于表征候选文本与关键词之间的包含关系。然后,对于一个输入文本,可以提取该输入文本中的关键词集合。再根据“文本‑关键词”图,计算该关键词集合中各关键词与各候选文本之间的相关性分数。进而,根据各相关性分数计算输入文本与各候选文本的相似度分数。最后,将相似度分数较高的候选文本作为与输入文本相似的文本。

【技术实现步骤摘要】

本申请涉及文本处理,特别涉及一种文本相似度检测方法、可读介质和电子设备


技术介绍

1、在自然语言处理(natural language processing,nlp)任务中,我们经常需要判断两个文本是否相似,并计算这两个文本的相似程度。例如,在对语料进行预处理时,可以基于文本的相似度,把大量语料文本中重复的文本挑出来并删掉。

2、目前,文本相似度计算通常基于语言模型结合文本向量化的方法实现,如该语言模型可以为n-gram模型(一种统计语言模型)。具体地,该方法可以对文本进行预处理,包括分词、去除停用词、词干提取等操作,得到文本的词语组成的词表。然后,使用n-gram模型计算文本中每个词语的出现频率,并将其表示为一个向量,这个向量可以看作是文本在n-gram空间中的表示。可以理解,通常为了更好比较各个文本的相似度,可以将一个文本的向量与其他文本的向量进行归一化。进而,可以使用余弦相似度或欧几里得距离等方法,将每个文本在n-gram空间中的向量与其他文本的向量进行相似度计算。

3、然而,向量化方法在计算文本相似度的过程中,需要先将模型加载到设备的内存中,再对输入文本进行向量化,占用资源较大,且随着模型增大,运行速度会变慢。从而,可能导致文本相似度计算过程的资源占用较多、计算速度较慢。此外,上述向量化方法仅考虑了文本的语义信息,但是缺乏对文本内在结构信息的捕捉,导致文本相似度计算结果缺乏可靠性。


技术实现思路

1、本申请实施例提供了一种文本相似度检测方法、可读介质和电子设备,保证文本相似度的计算过程简单易实现、占用资源少、计算速度较高、且计算准确度较高。

2、第一方面,本申请实施例提供了一种文本相似度检测方法,该方法包括:获取输入文本;对输入文本提取关键词得到关键词集合;确定预设的多个候选文本与多个候选关键词之间的节点图,多个候选关键词为从多个候选文本中抽取的关键词,节点图以多个候选文本为一种节点,以多个关键词为另一种节点,以多个候选文本与多个候选关键词之间的包含关系为边,并以一个候选文本的一个候选关键词的第一分数(即textrank分数)作为候选文本与候选关键词之间的边的权重;根据节点图,计算关键词集合中各关键词与各候选文本之间的相关性分数;根据关键词集合中各关键词与各候选文本之间的相关性分数,计算输入文本与各候选文本之间的相似度分数;将相似度分数最高的k个候选文本作为输入文本的相似文本,k为正整数,如k取值为1或2。此时,上述节点图就是下文中的“文本-关键词”图。如此,该方法无需加载模型资源,极大减少了资源,保证了计算速度。同时,该方法无需对文本进行向量化操作,而是考虑各个文本内在的关键词之间的相关性,从而该方法有利于提升文本相似度检测的准确性。即本申请中的文本相似度计算过程简单易实现、占用资源少、计算速度较高、计算准确度较高。

3、在上述第一方面的一种可能的实现方式中,上述关键词集合中各关键词与各候选文本之间的相关性分数,通过以下公式迭代计算实现:rl(c,t)=a(1-a)lwc,t+rl-1(c,t);其中,rl(c,t)为关键词c和文本节点t之间的相关性分数,l是公式表示的重启随机游走(random walk with restart,rwr)算法的迭代次数,a是重启因子且a∈(0,1),wc,t表示关键词c和文本节点t之间的转移概率,c表示关键词集合,c为关键词集合c中的一个关键词,t为多个候选文本中的一个候选文本。可以理解,本申请可以采用rwr方法计算输入文本的关键词与各个候选文本的相关性分数,能够考虑到“文本-关键词”图中各节点之间的局部相似度和全局相似度,使得计算得到的关键词与文本之间的相关性分数较为准确。

4、在上述第一方面的一种可能的实现方式中,输入文本与各候选文本之间的相似度分数,通过以下公式计算实现:其中,表示文本p与文本t之间的相似度分数,s(c)是通过textrank(一种文本排序算法)算法计算的文本p的关键词c的权重,p为输入文本,c表示关键词集合,c为关键词集合c中的一个关键词,t为多个候选文本中的一个文本。可以理解,节点图中文本节点和关键词节点之间的边具有权重,该权重用于后续计算关键词和各个候选文本的相关性分数。例如,文本节点和关键词节点之间的权重可以采用textrank算法计算得到,即“文本-关键词”图可以基于textrank算法生成。

5、在上述第一方面的一种可能的实现方式中,节点图基于以下方式获取:获取多个候选文本;基于与多个候选文本对应的分词词典和停用词,使用分词器对多个候选文本中每个候选文本进行分词,得到各个候选文本的词语;根据设定的窗口大小确定每个候选文本的词语之间的共现关系,并基于词语之间的共现关系,构建每个候选文本中词语的词图;提取每个候选文本的词图中的候选关键词和对应候选关键词的第一分数,其中,第一分数用于反映一个关键词对一个文本的重要程度;根据各个候选文本与对应的各个候选关键词之间的包含关系,以及各个候选文本中的各个候选关键词的第一分数,构建节点图;其中,节点图中一个候选文本与连接的一个候选关键词之间的权重为候选关键词对候选文本的第一分数。可以理解,与多个候选文本对应的分词词典和停用词,可以为这些候选文本所属文本领域(如保险领域)的分词词典和停用词,包括默认分词词典和默认停用词、自定义分词词典以及自定义停用词中的内容。例如,本申请中节点图的生成流程可以在电子设备的离线阶段执行。

6、在上述第一方面的一种可能的实现方式中,一个候选文本的候选关键词为候选文本的词图中所有词语中第一分数较大的前m个的词语。其中,本申请可以根据一个候选文本的词图中所有词语的第一分数按照从大到小的方式对词语进行排序,选择前m个分数较大的词语作为该候选文本的候选关键词。

7、在上述第一方面的一种可能的实现方式中,对输入文本提取关键词得到关键词集合,包括:基于与输入文本对应的分词词典和停用词,采用分词器对输入文本进行分词,得到输入文本的词语;根据设定的窗口大小确定输入文本的词语之间的共现关系,并基于词语之间的共现关系,构建输入文本中词语的词图;获取输入文本的词图中所有词语的第一分数,其中,第一分数用于反映一个关键词对一个文本的重要程度;将输入文本的词图中所有词语中第一分数较大的前m个词语加入到输入文本的关键词集合,m为正整数。可以理解,与输入文本对应的分词词典和停用词,可以为输入文本所属文本领域(如保险领域)的分词词典和停用词,包括默认分词词典和默认停用词、自定义分词词典以及自定义停用词中的内容。例如,输入文本的相似文本计算流程也可以在在线阶段执行。例如,本申请可以根据输入文本的词图中所有词语的第一分数按照从大到小的方式对词语进行排序,选择前m个分数较大的词语加入到该条输入文本的关键词集合。

8、在上述第一方面的一种可能的实现方式中,第一分数通过以下方式计算:

9、

10、其中,s(vi)表示节点vi的第一分数,s(vj)表示节点vj的第一分数,in(vi)本文档来自技高网...

【技术保护点】

1.一种文本相似度检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述关键词集合中各关键词与各所述候选文本之间的相关性分数,通过以下公式迭代计算实现:

3.根据权利要求2所述的方法,其特征在于,所述输入文本与各所述候选文本之间的相似度分数,通过以下公式计算实现:

4.根据权利要求1所述的方法,其特征在于,所述节点图基于以下方法获取:

5.根据权利要求4所述的方法,其特征在于,一个所述候选文本的候选关键词为所述候选文本的词图中所有词语中第一分数较大的前m个的词语,m为正整数。

6.根据权利要求1所述的方法,其特征在于,所述对所述输入文本提取关键词得到关键词集合,包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述第一分数通过以下方式计算:

8.根据权利要求1所述的方法,其特征在于,所述输入文本所属领域和所述多个候选文本所属领域相同。

9.一种可读介质,其特征在于,所述可读介质上存储有指令,所述指令在电子设备上执行时使所述电子设备执行权利要求1至8中任一项所述的文本相似度检测方法。

10.一种电子设备,其特征在于,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及处理器,是所述电子设备的处理器之一,用于执行权利要求1至8中任一项所述的文本相似度检测方法。

...

【技术特征摘要】

1.一种文本相似度检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述关键词集合中各关键词与各所述候选文本之间的相关性分数,通过以下公式迭代计算实现:

3.根据权利要求2所述的方法,其特征在于,所述输入文本与各所述候选文本之间的相似度分数,通过以下公式计算实现:

4.根据权利要求1所述的方法,其特征在于,所述节点图基于以下方法获取:

5.根据权利要求4所述的方法,其特征在于,一个所述候选文本的候选关键词为所述候选文本的词图中所有词语中第一分数较大的前m个的词语,m为正整数。

6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:戴江海邢志辉莫元武
申请(专利权)人:易保网络技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1