【技术实现步骤摘要】
相似文档的判定方法和装置
本专利技术涉及数据挖掘
,尤其涉及一种相似文档的判定方法和装置。
技术介绍
随着互联网的发展和应用,各类文档已经被上传至互联网中,进行文档信息的分享和交流,互联网中具有巨大的文档信息库。用户查看文档的时候,经常需要找到与当前文档相似文档,从而查看哪些平台或网站对文档进行了转载,进行文档信息的溯源。从而需要判断各个文档之间的相似程度,进行文档相似度的判定。现有技术中,主要基于文档中的关键词,或者基于文档中的句子进行文档的相似度的判定;两篇文档中相同的关键词越多,则判定两篇文档的相似度较高;两篇文档中相同的句子越多,则判定两篇文档的相似度较高。然而现有技术中,归属于同一领域的文档具有该领域的专业词语,从而归属于同一领域的文档中必然具有较多相同的专业词语,基于关键词判定文档的相似度的方式,并不准确;同时,各文档中意思相同的句子,句子的句式可能不同,例如主动语态、被动语态下句子,为意思相同的句子,但是并不是相同的句子,从而会导致基于句子判定文档的相似度的方式,也不准确。从而现有技术中无法较为准确的判断各文档是否相似,无法准确的判定出文档的相 ...
【技术保护点】
一种相似文档的判定方法,其特征在于,包括:对各文档进行分词处理,分别获取各文档中的各个关键词;统计各文档中的各关键词在所归属的文档中的词频,根据各文档中各关键词的词频,确定各文档中的各关键词的权重;根据各文档中的各关键词的权重,确定各文档中的各句子的权重;确定各文档中的各句子的哈希值;根据各文档中的各句子的权重和各句子的哈希值,确定各文档的向量空间;根据各文档的向量空间,确定各文档与所有文档中的其他文档之间的夹角余弦值;根据各文档与所有文档中的其他文档之间的夹角余弦值,确定各文档之间的相似度。
【技术特征摘要】
1.一种相似文档的判定方法,其特征在于,包括:对各文档进行分词处理,分别获取各文档中的各个关键词;统计各文档中的各关键词在所归属的文档中的词频,根据各文档中各关键词的词频,确定各文档中的各关键词的权重;根据各文档中的各关键词的权重,确定各文档中的各句子的权重;确定各文档中的各句子的哈希值;根据各文档中的各句子的权重和各句子的哈希值,确定各文档的向量空间;根据各文档的向量空间,确定各文档与所有文档中的其他文档之间的夹角余弦值;根据各文档与所有文档中的其他文档之间的夹角余弦值,确定各文档之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述对各文档进行分词处理,分别获取各文档中的各个关键词,包括:对各文档进行分词处理,并对分词处理后得到的词进行词性标注,以获取各文档中的各个关键词,其中,所述关键词为文档中的名词和动词。3.根据权利要求1所述的方法,其特征在于,所述统计各文档中的各关键词在所归属的文档中的词频,根据各文档中各关键词的词频,确定各文档中的各关键词的权重,包括:统计各文档中的各关键词在所归属的文档中的词频;确定各关键词在所归属的文档中的第一出现位置信息;根据各文档中各关键词的第一出现位置信息,确定与第一出现位置信息对应的第一调整值;根据各文档中的各关键词的第一调整值,调整各文档中各关键词的词频;根据各文档中各关键词调整后的词频,以及预设的各关键词反文档频率idf值,确定各文档中的各关键词的权重;对各文档中的各关键词的权重进行归一化处理,得到各文档中各关键词归一化处理后的权重。4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据各文档中的各关键词的权重,确定各文档中的各句子的权重,包括:根据各文档中各关键词在所属句子中的出现次数,以及各关键词的权重,确定各文档中各句子的权重;确定各关键词所属的句子,在句子所归属的文档中的第二出现位置信息;根据各关键词所属的句子的第二出现位置信息,确定与第二出现位置信息对应的第二调整值;根据各文档中的各句子的第二调整值,调整各文档中的各句子的权重;对各文档中各句子调整后的权重,进行归一化处理,得到各文档中的各句子归一化处理后的权重。5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据各文档中的各句子的权重和各句子的哈希值,确定各文档的向量空间,包括:将具有相同哈希值的句子确定为相同的句子,将相同的句子的权重累加;将各文档中各句子累加后的权重,映射至各文档中各句子的哈希值的向量空间中,得到各文档的向量空间。6.一种相似文档的判定装置,其特征在于,包括:获取模块,用于对各文档进行分词处理...
【专利技术属性】
技术研发人员:于晓明,刘克松,蔡慧慧,张丹,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。