【技术实现步骤摘要】
本申请涉及文本处理,特别涉及一种文本相似度检测方法、可读介质和电子设备。
技术介绍
1、在自然语言处理(natural language processing,nlp)任务中,我们经常需要判断两个文本是否相似,并计算这两个文本的相似程度。例如,在对语料进行预处理时,可以基于文本的相似度,把大量语料文本中重复的文本挑出来并删掉。
2、目前,文本相似度计算通常基于语言模型结合文本向量化的方法实现,如该语言模型可以为n-gram模型(一种统计语言模型)。具体地,该方法可以对文本进行预处理,包括分词、去除停用词、词干提取等操作,得到文本的词语组成的词表。然后,使用n-gram模型计算文本中每个词语的出现频率,并将其表示为一个向量,这个向量可以看作是文本在n-gram空间中的表示。可以理解,通常为了更好比较各个文本的相似度,可以将一个文本的向量与其他文本的向量进行归一化。进而,可以使用余弦相似度或欧几里得距离等方法,将每个文本在n-gram空间中的向量与其他文本的向量进行相似度计算。
3、然而,向量化方法在计算文本相似度的
...【技术保护点】
1.一种文本相似度检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述关键词集合中各关键词与各所述候选文本之间的相关性分数,通过以下公式迭代计算实现:
3.根据权利要求2所述的方法,其特征在于,所述输入文本与各所述候选文本之间的相似度分数,通过以下公式计算实现:
4.根据权利要求1所述的方法,其特征在于,所述节点图基于以下方法获取:
5.根据权利要求4所述的方法,其特征在于,一个所述候选文本的候选关键词为所述候选文本的词图中所有词语中第一分数较大的前m个的词语,m为正整数。
6
...【技术特征摘要】
1.一种文本相似度检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述关键词集合中各关键词与各所述候选文本之间的相关性分数,通过以下公式迭代计算实现:
3.根据权利要求2所述的方法,其特征在于,所述输入文本与各所述候选文本之间的相似度分数,通过以下公式计算实现:
4.根据权利要求1所述的方法,其特征在于,所述节点图基于以下方法获取:
5.根据权利要求4所述的方法,其特征在于,一个所述候选文本的候选关键词为所述候选文本的词图中所有词语中第一分数较大的前m个的词语,m为正整数。
6.根据权利要求1所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:戴江海,邢志辉,莫元武,
申请(专利权)人:易保网络技术上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。