相似网页检测方法、装置、存储介质及电子设备制造方法及图纸

技术编号:21034591 阅读:55 留言:0更新日期:2019-05-04 05:32
本公开涉及一种相似网页检测方法、装置、存储介质及电子设备,在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;获取所有目标网页中的网页文本信息;计算目标文本与网页文本信息的匹配率,并将匹配率大于第一预设阈值的网页确定为与目标文本相似的网页。这样,能够通过将待识别的目标文本分句,并利用搜索引擎进行搜索得到与所述目标文本具有相似内容的目标网页,通过对目标网页中的文本信息与目标文本进行匹配,从而实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。

Similar web page detection methods, devices, storage media and electronic devices

【技术实现步骤摘要】
相似网页检测方法、装置、存储介质及电子设备
本公开涉及文本识别领域,具体地,涉及一种相似网页检测方法、装置、存储介质及电子设备。
技术介绍
网站内容投稿的搬运抄袭现象屡见不鲜,多个网站出现内容相近的内容的情况也是现在网络社区的一种常态,这不仅仅损害了原创作者的利益,同时也对无法识别抄袭内容的网站造成一定的影响。因此需要一种对文本在全网进行相似度检测的方法,这样就能够针对投稿进行抄袭识别,以避免投稿是抄袭于其他网站内容但无法检测出来的现象。
技术实现思路
本公开的目的是提供一种相似网页检测方法、装置、存储介质及电子设备,能够实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。为了实现上述目的,本公开提供一种相似网页检测方法,所述方法包括:在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,以得到第三预设个数的目标网页;获取所有所述目标网页中的网页文本信息;计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本本文档来自技高网...

【技术保护点】
1.一种相似网页检测方法,其特征在于,所述方法包括:在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;获取所有所述目标网页中的网页文本信息;计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似。

【技术特征摘要】
1.一种相似网页检测方法,其特征在于,所述方法包括:在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;获取所有所述目标网页中的网页文本信息;计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似。2.根据权利要求1所述的方法,其特征在于,所述在目标文本中选取第一预设个数的目标句子包括:根据第一预设规则对所述目标文本进行分句,并在根据所述第一预设规则对所述目标文本进行分句后所得到的所有句子中进行随机采样,以获取所述第一预设个数的目标句子。3.根据权利要求1所述的方法,其特征在于,所述第二预设规则包括:选取每个所述搜索引擎针对每个所述目标句子返回的搜索结果网页中的前第四预设个数的网页作为基础召回网页;计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率,所述相似率越高,表征所述摘要文本与所述目标句子之间越相似;计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度;根据所述相似度,将与所述目标句子最相似的前第三预设个数的网页确定为所述目标网页。4.根据权利要求3所述的方法,其特征在于,所述计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率包括:对每个所述目标句子和所述摘要文本进行分词;分别将每个所述目标句子中的词与相对应的所述摘要文本中的词进行匹配,并将匹配到的所述目标句子中的词的个数与所述目标句子中的词的总数的第一比值确定为所述相似率;所述计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度包括:根据以下公式计算所述相似度:score=hit_rate*10+return_counts,其中,所述score为所述相似度,所述hit_rate为所述相似率,所述return_counts为返回了所述基础召回网页的所述搜索引擎的个数。5.根据权利要求1所述的方法,其特征在于,所述计算所述目标文本与所述网页文本信息的匹配率包括:根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高。6.根据权利要求5所述的方法,其特征在于,所述匹配分数的计算方法为:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。7.根据权利要求1所述的方法,其特征在于,所述网页文本信息包括网页正文、发表时间、作者名称中一者或多者。8.一种相似网页检测装置,其特征在于,所述装置包括:第一处理模块,用于在目标文本中选取第一预设个数的目标句子;第二处理模块,用于使用第二预设个数的搜索引擎对每个所述目标句...

【专利技术属性】
技术研发人员:邹启波
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1