一种文本相似度检测方法、可读介质和电子设备技术

技术编号:41379436 阅读:30 留言:0更新日期:2024-05-20 10:21
本申请涉及文本处理领域,公开了一种文本相似度检测方法、可读介质和电子设备,保证文本相似度的计算过程简单易实现、占用资源少、计算速度较高、且计算准确度较高。该方法可以提取多个候选文本中各个候选文本的关键词,并基于候选文本与关键词之间的包含关系构建“文本‑关键词”图。即该“文本‑关键词”图用于表征候选文本与关键词之间的包含关系。然后,对于一个输入文本,可以提取该输入文本中的关键词集合。再根据“文本‑关键词”图,计算该关键词集合中各关键词与各候选文本之间的相关性分数。进而,根据各相关性分数计算输入文本与各候选文本的相似度分数。最后,将相似度分数较高的候选文本作为与输入文本相似的文本。

【技术实现步骤摘要】

本申请涉及文本处理,特别涉及一种文本相似度检测方法、可读介质和电子设备


技术介绍

1、在自然语言处理(natural language processing,nlp)任务中,我们经常需要判断两个文本是否相似,并计算这两个文本的相似程度。例如,在对语料进行预处理时,可以基于文本的相似度,把大量语料文本中重复的文本挑出来并删掉。

2、目前,文本相似度计算通常基于语言模型结合文本向量化的方法实现,如该语言模型可以为n-gram模型(一种统计语言模型)。具体地,该方法可以对文本进行预处理,包括分词、去除停用词、词干提取等操作,得到文本的词语组成的词表。然后,使用n-gram模型计算文本中每个词语的出现频率,并将其表示为一个向量,这个向量可以看作是文本在n-gram空间中的表示。可以理解,通常为了更好比较各个文本的相似度,可以将一个文本的向量与其他文本的向量进行归一化。进而,可以使用余弦相似度或欧几里得距离等方法,将每个文本在n-gram空间中的向量与其他文本的向量进行相似度计算。

3、然而,向量化方法在计算文本相似度的过程中,需要先将模型本文档来自技高网...

【技术保护点】

1.一种文本相似度检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述关键词集合中各关键词与各所述候选文本之间的相关性分数,通过以下公式迭代计算实现:

3.根据权利要求2所述的方法,其特征在于,所述输入文本与各所述候选文本之间的相似度分数,通过以下公式计算实现:

4.根据权利要求1所述的方法,其特征在于,所述节点图基于以下方法获取:

5.根据权利要求4所述的方法,其特征在于,一个所述候选文本的候选关键词为所述候选文本的词图中所有词语中第一分数较大的前m个的词语,m为正整数。

6.根据权利要求1所述...

【技术特征摘要】

1.一种文本相似度检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述关键词集合中各关键词与各所述候选文本之间的相关性分数,通过以下公式迭代计算实现:

3.根据权利要求2所述的方法,其特征在于,所述输入文本与各所述候选文本之间的相似度分数,通过以下公式计算实现:

4.根据权利要求1所述的方法,其特征在于,所述节点图基于以下方法获取:

5.根据权利要求4所述的方法,其特征在于,一个所述候选文本的候选关键词为所述候选文本的词图中所有词语中第一分数较大的前m个的词语,m为正整数。

6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:戴江海邢志辉莫元武
申请(专利权)人:易保网络技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1