一种海量文档相似性的检测方法及装置制造方法及图纸

技术编号:21547889 阅读:25 留言:0更新日期:2019-07-06 21:26
本申请提供了一种海量文档相似性的检测方法及装置,其中,所述方法包括:获取全部已入库文档和待检测文档;预处理全部所述已入库文档中的图片和所述待检测文档中的图片;分词处理全部所述已入库文档和所述待检测文档;根据预设领域相关停用词集,过滤分词后的所述已入库文档和所述待检测文档;训练预处理后的所述已入库文档,生成句向量模型;根据所述句向量模型,生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量;计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值;根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似。

A Method and Device for Detecting Similarity of Massive Documents

【技术实现步骤摘要】
一种海量文档相似性的检测方法及装置
本申请涉及大数据
,尤其涉及一种海量文档相似性的检测方法及装置。
技术介绍
随着电力行业信息化的不断发展,电力领域项目的申报也越来越多。但是,相似项目的重复申报,不仅影响电网行业核心竞争力的提升,还会破坏创新驱动房展战略的实现。因此,如何检测新申报项目与已入库项目文档间的相似性成为了电力领域亟待解决的问题。目前,在电力领域,为了避免重复申报项目,电网公司主要依靠人工的方式检测新申报项目文档与评审通过的已入库项目文档间的相似性。这种方式不仅费时费力效率低下,而且判断方法较为粗放和主观,使得判断结果不够准确和可靠。
技术实现思路
本申请提供了一种海量文档相似性检测方法及装置,以解决现有新申报项目文档与已入库文档之间相似性对比结果准确性低、效率低的问题。本申请第一方面提供了一种海量文档相似性的检测方法,包括:获取全部已入库文档和待检测文档;预处理全部所述已入库文档中的图片和所述待检测文档中的图片;分词处理全部所述已入库文档和所述待检测文档;根据预设领域相关停用词集,过滤分词后的所述已入库文档和所述待检测文档;训练预处理后的所述已入库文档,生成句向量模型;根据所述句向量模型,生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量;计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值;根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似。可选地,所述预处理全部已入库文档中的图片和待检测文档中的图片的具体步骤包括:转换所述已入库文档和所述待检测文档至xml文档;遍历全部xml文档,确定所述已入库文档中的图片和所述待检测文档中的图片所对应的图片标签;删除所述xml文档中所述图片标签所对应的文档内容。可选地,所述训练预处理后的已入库文档,生成句向量模型的具体步骤包括:保存全部所述预处理后的已入库文档于同一个文件夹中;保存全部所述预处理后的已入库文档中各个文档的文档名于名称文档中;按照文档和文档所对应的文档名的格式,合并所述预处理后的已入库文档和对应的文档名为语料集;根据所述语料集,生成句向量模型。可选地,所述计算已入库文档的文档向量和待检测文档的文档向量的余弦值的具体步骤包括:从所述已入库文档的文档向量中随机选择一个文档向量,记作文档向量a,从所述待检测文档的文档向量中随机选择一个文档向量,记作文档向量b;遍历所述文档向量a和所述文档向量b的每个维度,分别计算sum+=ai*bi,a_sum+=ai**2,b_sum+=bi**2;根据所述sumi、所述a_sum和所述b_sum,计算所述文档向量a和所述文档向量b之间的余弦值。可选地,所述根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似的具体步骤包括:比较所述余弦值与预设相似度阈值;如果所述余弦值大于或者等于所述预设相似度阈值,则确定所述余弦值所对应的已入库文档与待检测文档相似;如果所述余弦值小于所述预设相似度阈值,则确定所述余弦值所对应的已入库文档与待检测文档不相似。第二方面,本申请提供了一种海量文档相似性的检测装置,包括:文档获取单元,用于获取全部已入库文档和待检测文档;预处理单元,用于预处理全部所述已入库文档中的图片和所述待检测文档中的图片;分词单元,用于分词处理全部所述已入库文档和所述待检测文档;过滤单元,用于根据预设领域相关停用词集,过滤分词后的所述已入库文档和所述待检测文档;训练单元,用于训练预处理后的所述已入库文档,生成句向量模型;文档向量生成单元,用于根据所述句向量模型,生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量;余弦值计算单元,用于计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值;判断单元,用于根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似。可选地,所述预处理单元包括:转换单元,用于转换所述已入库文档和所述待检测文档至xml文档;标签确定单元,用于遍历全部xml文档,确定所述已入库文档中的图片和所述待检测文档中的图片所对应的图片标签;删除单元,用于删除所述xml文档中所述图片标签所对应的文档内容。可选地,所述文档向量生成单元包括:第一保存单元,用于保存全部所述预处理后的已入库文档于同一个文件夹中;第二保存单元,用于保存全部所述预处理后的已入库文档中各个文档的文档名于名称文档中;合并单元,用于按照文档和文档所对应的文档名的格式,合并所述预处理后的已入库文档和对应的文档名为语料集;模型生成单元,用于根据所述语料集,生成句向量模型。可选地,所述余弦值计算单元包括:随机选择单元,用于从所述已入库文档的文档向量中随机选择一个文档向量,记作文档向量a,从所述待检测文档的文档向量中随机选择一个文档向量,记作文档向量b;文档向量计算单元,用于遍历所述文档向量a和所述文档向量b的每个维度,分别计算sum+=ai*bi,a_sum+=ai**2,b_sum+=bi**2;计算子单元,用于根据所述sumi、所述a_sum和所述b_sum,计算所述文档向量a和所述文档向量b之间的余弦值。可选地,所述判断单元包括:比较单元,用于比较所述余弦值与预设相似度阈值;第一判断单元,用于如果所述余弦值大于或者等于所述预设相似度阈值,则确定所述余弦值所对应的已入库文档与待检测文档相似;第二判断单元,用于如果所述余弦值小于所述预设相似度阈值,则确定所述余弦值所对应的已入库文档与待检测文档不相似。由以上技术可知,本申请提供了一种海量文档相似性的检测方法及装置,其中,所述方法包括:获取全部已入库文档和待检测文档;预处理全部所述已入库文档中的图片和所述待检测文档中的图片;分词处理全部所述已入库文档和所述待检测文档;根据预设领域相关停用词集,过滤分词后的所述已入库文档和所述待检测文档;训练预处理后的所述已入库文档,生成句向量模型;根据所述句向量模型,生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量;计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值;根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似。使用时,首先将已入库的全部文档中的图片和待检测文档中的图片进行预处理,以满足后续处理的内容、格式等要求,然后利用分词处理规则,对已入库文档和待检测文档进行处理,将整段文字拆分为以词为单元的结构,根据预设领域相关停用词集,能够将拆分后的文档中的停用词删除,得到符合计算有效相似性的词。将预处理后的已入库文档训练生成句向量模型,进而通过句向量模型,生成已入库文档的文档向量和待检测文档的文档向量,并进一步计算余弦值。通过余弦值,能够准确判断待检测文档与当前所比较的已入库文档的相似性,之后根据上述方法,逐一对比待检测文档与全部已入库文档的相似性。本申请所提供的海量文档相似性的检测方法,能够摒弃人工,快速、准确地检测出待检测文档与电力领域中已入库文档的相似性,进而有效避免项目的重复申报。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种海量文档相似性的检测方法的流程图;本文档来自技高网...

【技术保护点】
1.一种海量文档相似性的检测方法,其特征在于,所述检测方法包括:获取全部已入库文档和待检测文档;预处理全部所述已入库文档中的图片和所述待检测文档中的图片;分词处理全部所述已入库文档和所述待检测文档;根据预设领域相关停用词集,过滤分词后的所述已入库文档和所述待检测文档;训练预处理后的所述已入库文档,生成句向量模型;根据所述句向量模型,生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量;计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值;根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似。

【技术特征摘要】
1.一种海量文档相似性的检测方法,其特征在于,所述检测方法包括:获取全部已入库文档和待检测文档;预处理全部所述已入库文档中的图片和所述待检测文档中的图片;分词处理全部所述已入库文档和所述待检测文档;根据预设领域相关停用词集,过滤分词后的所述已入库文档和所述待检测文档;训练预处理后的所述已入库文档,生成句向量模型;根据所述句向量模型,生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量;计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值;根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似。2.根据权利要求1所述的检测方法,其特征在于,所述预处理全部已入库文档中的图片和待检测文档中的图片的具体步骤包括:转换所述已入库文档和所述待检测文档至xml文档;遍历全部xml文档,确定所述已入库文档中的图片和所述待检测文档中的图片所对应的图片标签;删除所述xml文档中所述图片标签所对应的文档内容。3.根据权利要求1所述的检测方法,其特征在于,所述训练预处理后的已入库文档,生成句向量模型的具体步骤包括:保存全部所述预处理后的已入库文档于同一个文件夹中;保存全部所述预处理后的已入库文档中各个文档的文档名于名称文档中;按照文档和文档所对应的文档名的格式,合并所述预处理后的已入库文档和对应的文档名为语料集;根据所述语料集,生成句向量模型。4.根据权利要求1所述的检测方法,其特征在于,所述计算已入库文档的文档向量和待检测文档的文档向量的余弦值的具体步骤包括:从所述已入库文档的文档向量中随机选择一个文档向量,记作文档向量a,从所述待检测文档的文档向量中随机选择一个文档向量,记作文档向量b;遍历所述文档向量a和所述文档向量b的每个维度,分别计算sum+=ai*bi,a_sum+=ai**2,b_sum+=bi**2;根据所述sumi、所述a_sum和所述b_sum,计算所述文档向量a和所述文档向量b之间的余弦值。5.根据权利要求4所述的检测方法,其特征在于,所述根据所述余弦值,判断所述待检测文档与所述已入库文档是否相似的具体步骤包括:比较所述余弦值与预设相似度阈值;如果所述余弦值大于或者等于所述预设相似度阈值,则确定所述余弦值所对应的已入库文档与待检测文档相似;如果所述余弦值小于所述预设相似度阈值,则确定所述余弦值所对应的已入库文档与待检测文档不相似。6.一种海量文档相似性的检测装置,其特征在于,所述检测装置包括:文档获取单元,用...

【专利技术属性】
技术研发人员:杨政方正云刘应洁朱华潘侃
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1