文本相似度检测方法、装置和电子设备制造方法及图纸

技术编号:20916980 阅读:22 留言:0更新日期:2019-04-20 09:47
本申请提出一种文本相似度检测方法、装置和电子设备,其中,方法包括:获取待检测的原始文本中的多个原始语句;在预设的文本信息库中获取与每个原始语句对应的相关语句;计算每个原始语句与各相关语句之间的相似度,筛选相似度满足预设条件的候选语句;根据各候选语句所对应的文本标识,从所有的候选语句中筛选归属同一目标文本的所有目标语句;根据各目标语句与对应的原始语句之间的相似度,计算原始文本与目标文本之间的相似度。由此,通过语句相似度来计算原始文本和目标文本之间的相似度,在提高文本相似度效率的同时提高文本相似度检测的准确性。

Text Similarity Detection Method, Device and Electronic Equipment

This application proposes a text similarity detection method, device and electronic equipment, which includes: acquiring multiple original statements in the original text to be detected; acquiring related statements corresponding to each original statement in the preset text information base; calculating the similarity between each original statement and related statements, and screening candidate statements whose similarity meets the preset conditions. According to the corresponding text identification of each candidate statement, all target statements belonging to the same target text are filtered from all candidate statements, and the similarity between the original text and the target text is calculated according to the similarity between each target statement and the corresponding original statement. Thus, the similarity between the original text and the target text is calculated by sentence similarity, which improves the efficiency of text similarity and the accuracy of text similarity detection.

【技术实现步骤摘要】
文本相似度检测方法、装置和电子设备
本申请涉及计算机
,尤其涉及一种文本相似度检测方法、装置和电子设备。
技术介绍
具体地,白皮书是项目方发布的一份权威的报告或指南,它介绍了项目存在的价值,项目解决的问题,解决问题的途径,项目的团队构成和项目的进展情况等等。项目方希望通过白皮书,帮助用户了解项目,理解问题,解决问题和做出决定。因此,需要一种文本相似度检测方法能够快速准确判断白皮书是否存在剽窃的现象。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种文本相似度检测方法,通过语句相似度来计算原始文本和目标文本之间的相似度,在提高文本相似度效率的同时提高文本相似度检测的准确性。本申请提出一种文本相似度检测装置。本申请提出一种电子设备。本申请提出一种计算机可读存储介质。本申请第一方面实施例提出了一种文本相似度检测方法,包括:获取待检测的原始文本中的多个原始语句;在预设的文本信息库中获取与每个所述原始语句对应的相关语句;计算所述每个所述原始语句与各所述相关语句之间的相似度,筛选所述相似度满足预设条件的候选语句;根据各所述候选语句所对应的文本标识,从所有的候选语句中筛选归属同一目标文本的所有目标语句;根据各所述目标语句与对应的所述原始语句之间的相似度,计算所述原始文本与所述目标文本之间的相似度。可选地,作为本申请第一方面的第一种可能的实现方式,所述获取与每个所述原始语句对应的相关语句,包括:对所述原始语句进行切词,获取所述原始语句中的多个原始分词;根据所述多个原始分词查询所述预设的文本信息库获取包括至少一个或者多个所述原始分词的匹配语句;通过原始分词对所述匹配语句进行投票,并根据投票结果将所述匹配语句进行排序,将排序结果中排序在前的预设数量的所述潜在语确定为与所述原始语句对应的相关语句;可选地,作为本申请第一方面的第二种可能的实现方式,所述通过原始分词对所述匹配语句进行投票,包括:获取所述原始分词在所述匹配语句中的出现次数;根据所述出现次数对所述匹配语句进行投票。可选地,作为本申请第一方面的第三种可能的实现方式,在所述根据投票结果将所述匹配语句进行排序之前,还包括:获取所述原始语句与各所述匹配语句的语句长度比;根据所述语句长度比调整所述投票结果。可选地,作为本申请第一方面的第四种可能的实现方式,获取所述原始语句与所述匹配语句的语句长度比,包括:获取第一常数和第二常数;获取所述原始语句的原始语句长度和所述匹配语句的匹配语句长度;将所述原始语句长度和所述第一常数进行数值相加得到第一语句长度和,将所述匹配语句长度和所述第二常数进行数值相加得到第二语句长度和;将所述第一语句长度和与所述第二语句长度和的比值作为所述语句长度比。可选地,作为本申请第一方面的第五种可能的实现方式,所述计算所述每个所述原始语句与各所述相关语句之间的相似度,包括:对所述原始语句进行单词字符转换得到原始字符序列,并对所述相关语句进行单词字符转换得到相关字符序列;统计所述原始字符序列和所述相关字符序列之间的公共字符个数,通过第一预设算法获取所述原始字符序列和所述相关字符序列之间的编辑距离,通过第二预设算法获取所述原始字符序列和所述相关字符序列之间的最长公共子串的长度;根据所述公共字符个数、所述编辑距离和所述最长公共子串的长度计算所述原始语句和与各所述相关语句的相似度。可选地,作为本申请第一方面的第六种可能的实现方式,所述根据各所述目标语句与对应的所述原始语句之间的相似度,计算所述原始文本与所述目标文本之间的相似度,包括:获取各所述目标语句与对应的所述原始语句之间的相似度的平均值;将所述平均值作为所述原始文本与所述目标文本之间的相似度。本申请第二方面实施例提出了一种文本相似度检测装置,该装置包括:第一获取模块,用于获取待检测的原始文本中的多个原始语句;第二获取模块,用于在预设的文本信息库中获取与每个所述原始语句对应的相关语句;第一计算模块,用于计算所述每个所述原始语句与各所述相关语句之间的相似度;第一筛选模块,用于筛选所述相似度满足预设条件的候选语句;第二筛选模块,用于根据各所述候选语句所对应的文本标识,从所有的候选语句中筛选归属同一目标文本的所有目标语句;第二计算模块,用于根据各所述目标语句与对应的所述原始语句之间的相似度,计算所述原始文本与所述目标文本之间的相似度。可选地,作为本申请第二方面的第一种可能的实现方式,所述第二获取模块,包括:第一获取单元,用于对所述原始语句进行切词,获取所述原始语句中的多个原始分词;第二获取单元,用于根据所述多个原始分词查询所述预设的文本信息库获取包括至少一个或者多个所述原始分词的匹配语句;比较筛选单元,用于通过原始分词对所述匹配语句进行投票,并根据投票结果将所述匹配语句进行排序,将排序结果中排序在前的预设数量的所述潜在语确定为与所述原始语句对应的相关语句。可选地,作为本申请第二方面的第二种可能的实现方式,所述比较筛选单元,具体用于:获取所述原始分词在所述匹配语句中的出现次数;根据所述出现次数对所述匹配语句进行投票。可选地,作为本申请第二方面的第三种可能的实现方式,所述第二获取模块,还包括:比较删除单元,用于获取所述原始语句与各所述匹配语句的语句长度比,根据所述语句长度比调整所述投票结果。可选地,作为本申请第二方面的第四种可能的实现方式,获取所述原始语句与所述匹配语句的语句长度比,包括:获取第一常数和第二常数;获取所述原始语句的原始语句长度和所述匹配语句的匹配语句长度;将所述原始语句长度和所述第一常数进行数值相加得到第一语句长度和,将所述匹配语句长度和所述第二常数进行数值相加得到第二语句长度和;将所述第一语句长度和与所述第二语句长度和的比值作为所述语句长度比。可选地,作为本申请第二方面的第五种可能的实现方式,所述第一计算模块,具体用于:对所述原始语句进行单词字符转换得到原始字符序列,并对所述相关语句进行单词字符转换得到相关字符序列;统计所述原始字符序列和所述相关字符序列之间的公共字符个数,通过第一预设算法获取所述原始字符序列和所述相关字符序列之间的编辑距离,通过第二预设算法获取所述原始字符序列和所述相关字符序列之间的最长公共子串的长度;根据所述公共字符个数、所述编辑距离和所述最长公共子串的长度计算所述原始语句和与各所述相关语句的相似度。可选地,作为本申请第二方面的第六种可能的实现方式,所述第二计算模块,具体用于:获取各所述目标语句与对应的所述原始语句之间的相似度的平均值;将所述平均值作为所述原始文本与所述目标文本之间的相似度。本申请第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现第一方面所述的文本相似度检测方法。本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现第一方面所述的文本相似度检测方法。本申请实施例所提供的技术方案,可以包含如下的有益效果:获取待检测的原始文本中的多个原始语句,并在预设的文本信息库中获取与每个原始语句对应的相关语句,接着计算每个原始语句与各相关语句之间的相似度,从而筛选相似度满足预设条件的候选语句,以及根据各候本文档来自技高网...

【技术保护点】
1.一种文本相似度检测方法,其特征在于,包括以下步骤:获取待检测的原始文本中的多个原始语句;在预设的文本信息库中获取与每个所述原始语句对应的相关语句;计算所述每个所述原始语句与各所述相关语句之间的相似度,筛选所述相似度满足预设条件的候选语句;根据各所述候选语句所对应的文本标识,从所有的候选语句中筛选归属同一目标文本的所有目标语句;根据各所述目标语句与对应的所述原始语句之间的相似度,计算所述原始文本与所述目标文本之间的相似度。

【技术特征摘要】
1.一种文本相似度检测方法,其特征在于,包括以下步骤:获取待检测的原始文本中的多个原始语句;在预设的文本信息库中获取与每个所述原始语句对应的相关语句;计算所述每个所述原始语句与各所述相关语句之间的相似度,筛选所述相似度满足预设条件的候选语句;根据各所述候选语句所对应的文本标识,从所有的候选语句中筛选归属同一目标文本的所有目标语句;根据各所述目标语句与对应的所述原始语句之间的相似度,计算所述原始文本与所述目标文本之间的相似度。2.如权利要求1所述的方法,其特征在于,所述获取与每个所述原始语句对应的相关语句,包括:对所述原始语句进行切词,获取所述原始语句中的多个原始分词;根据所述多个原始分词查询所述预设的文本信息库获取包括至少一个或者多个所述原始分词的匹配语句;通过原始分词对所述匹配语句进行投票,并根据投票结果将所述匹配语句进行排序,将排序结果中排序在前的预设数量的所述匹配语句确定为与所述原始语句对应的相关语句。3.如权利要求2所述的方法,其特征在于,所述通过原始分词对所述匹配语句进行投票,包括:获取所述原始分词在所述匹配语句中的出现次数;根据所述出现次数对所述匹配语句进行投票。4.如权利要求2所述的方法,其特征在于,在所述根据投票结果将所述匹配语句进行排序之前,还包括:获取所述原始语句与各所述匹配语句的语句长度比;根据所述语句长度比调整所述投票结果。5.如权利要求4所述的方法,其特征在于,获取所述原始语句与所述匹配语句的语句长度比,包括:获取第一常数和第二常数;获取所述原始语句的原始语句长度和所述匹配语句的匹配语句长度;计算所述原始语句长度和所述第一常数的第一语句长度和,并计算所述匹配语句长度和所述第二常数的第二语句长度和;将所述第一语句长度和与所述第二语句长度和的比值作为所述语句长度比。6.如权利要求1所述的方法,其特征在于,所述计算所述每个所述原始语句与各所述相关语句之间的相似度,包括:对所述原始语句进行单词字符转换得到原始字符序列,并对所述相关语句进行单词字符转换得...

【专利技术属性】
技术研发人员:汪庆辉
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1