【技术实现步骤摘要】
一种基于语义分析的文档查重方法和装置
本专利技术涉及文档查重
,特别涉及一种基于语义分析的文档查重方法和装置。
技术介绍
现有技术中,一般根据标点符号分别将待查重文档和对比文档划分成不同的句子,然后通过句子间的对比确定待查重文档与对比文档的重复率。但是,该方法仅能识别完全复制的句子,对于一些“换词不换意”的句子无法识别。因此,该方法的查重精确度较低。
技术实现思路
本专利技术实施例提供了一种基于语义分析的文档查重方法和装置,能够提高查重精确度。第一方面,本专利技术实施例提供了一种基于语义分析的文档查重方法,包括:确定待查重文档和对比文档;根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;对经过格式转换的所述待查重文档、所述对比文档进行分词;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率。优选地,所述根据所述待查重文档的分词结果和所述对比文档的分词结果, ...
【技术保护点】
1.一种基于语义分析的文档查重方法,其特征在于,包括:确定待查重文档和对比文档;根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;对经过格式转换的所述待查重文档、所述对比文档进行分词;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率。
【技术特征摘要】
1.一种基于语义分析的文档查重方法,其特征在于,包括:确定待查重文档和对比文档;根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;对经过格式转换的所述待查重文档、所述对比文档进行分词;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率。2.根据权利要求1所述的基于语义分析的文档查重方法,其特征在于,所述根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度,包括:根据所述待查重文档的分词结果和所述对比文档的分词结果,确定同时存在于所述待查重文档、所述对比文档中的第一词的数量;确定所述待查重文档中第二词的数量,其中,所述第二词在所述对比文档中存在同义词;根据所述第一词的数量和所述第二词的数量,利用下述第一公式,计算所述第一相似度;所述第一公式,包括:其中,p用于表征所述第一相似度,x用于表征所述第一词的数量,y用于表征所述第二词的数量,z用于表征所述待查重文档中词的总数。3.根据权利要求1所述的基于语义分析的文档查重方法,其特征在于,所述根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度,包括:根据所述待查重文档的分词结果,按照词频由高到低的顺序,在所述待查重文档中确定目标数量的第一高频词;根据所述对比文档的分词结果,按照词频由高到低的顺序,在所述对比文档中确定所述目标数量的第二高频词;确定所述待查重文档中包括所述第一高频词的至少一个第一语句;确定所述对比文档中包括所述第二高频词的至少一个第二语句;确定同时存在于所述至少一个第一语句和所述至少一个第二语句中的第三词的数量;确定所述至少一个第一语句中第四词的数量,其中,所述第四词在所述至少一个第二语句中存在同义词;根据所述第三词的数量和所述第四词的数量,利用下述第二公式,计算所述第二相似度;所述第二公式,包括:其中,k用于表征所述第二相似度,m用于表征所述第三词的数量,n用于表征所述第四词的数量,h用于表征所述至少一个第一语句中词的总数。4.根据权利要求1所述的基于语义分析的文档查重方法,其特征在于,所述根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率,包括:根据所述第一相似度和所述第二相似度,利用下述第三公式,计算所述待查重文档与所述对比文档的重复率;所述第三公式,包括:q=αp+βk其中,q用于表征所述待查重文档与所述对比文档的重复率,α用于表征所述第一相似度的权重,p用于表征所述第一相似度,β用于表征所述第二相似度的权重,k用于表征所述第二相似度。5.根据权利要求2所述的基于语义分析的文档查重方法,其特征在于,进一步包括:根据所述待查重文档的分词结果、所述对比文档的分词结果、所述第一词和所述第二词,生成重叠图;展示所述重叠图;当接收到针对所述重叠图中任意一个所述第一词的点击操作时,突出显示所述待查重文档和所述对比文档中包含所述第一词的句子;或,当接收到针对所述重叠图中任意一个所述第二词的点击操作时,突出显示所述待查重文档中包含所述第二词的句子和...
【专利技术属性】
技术研发人员:王乐,石园,
申请(专利权)人:浪潮软件集团有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。