一种海量文档相似性的检测方法及装置制造方法及图纸

技术编号：21547889 阅读：25 留言：0更新日期：2019-07-06 21:26

本申请提供了一种海量文档相似性的检测方法及装置，其中，所述方法包括：获取全部已入库文档和待检测文档；预处理全部所述已入库文档中的图片和所述待检测文档中的图片；分词处理全部所述已入库文档和所述待检测文档；根据预设领域相关停用词集，过滤分词后的所述已入库文档和所述待检测文档；训练预处理后的所述已入库文档，生成句向量模型；根据所述句向量模型，生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量；计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值；根据所述余弦值，判断所述待检测文档与所述已入库文档是否相似。

A Method and Device for Detecting Similarity of Massive Documents

全部详细技术资料下载

【技术实现步骤摘要】
一种海量文档相似性的检测方法及装置
本申请涉及大数据
，尤其涉及一种海量文档相似性的检测方法及装置。
技术介绍
随着电力行业信息化的不断发展，电力领域项目的申报也越来越多。但是，相似项目的重复申报，不仅影响电网行业核心竞争力的提升，还会破坏创新驱动房展战略的实现。因此，如何检测新申报项目与已入库项目文档间的相似性成为了电力领域亟待解决的问题。目前，在电力领域，为了避免重复申报项目，电网公司主要依靠人工的方式检测新申报项目文档与评审通过的已入库项目文档间的相似性。这种方式不仅费时费力效率低下，而且判断方法较为粗放和主观，使得判断结果不够准确和可靠。
技术实现思路
本申请提供了一种海量文档相似性检测方法及装置，以解决现有新申报项目文档与已入库文档之间相似性对比结果准确性低、效率低的问题。本申请第一方面提供了一种海量文档相似性的检测方法，包括：获取全部已入库文档和待检测文档；预处理全部所述已入库文档中的图片和所述待检测文档中的图片；分词处理全部所述已入库文档和所述待检测文档；根据预设领域相关停用词集，过滤分词后的所述已入库文档和所述待检测文档；训练预处理后的所述已入库文档，生成句向量模型；根据所述句向量模型，生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量；计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值；根据所述余弦值，判断所述待检测文档与所述已入库文档是否相似。可选地，所述预处理全部已入库文档中的图片和待检测文档中的图片的具体步骤包括：转换所述已入库文档和所述待检测文档至xml文档；遍历全部xml文档，确定所述已入库文档中的...

【技术保护点】
1.一种海量文档相似性的检测方法，其特征在于，所述检测方法包括：获取全部已入库文档和待检测文档；预处理全部所述已入库文档中的图片和所述待检测文档中的图片；分词处理全部所述已入库文档和所述待检测文档；根据预设领域相关停用词集，过滤分词后的所述已入库文档和所述待检测文档；训练预处理后的所述已入库文档，生成句向量模型；根据所述句向量模型，生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量；计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值；根据所述余弦值，判断所述待检测文档与所述已入库文档是否相似。

【技术特征摘要】
1.一种海量文档相似性的检测方法，其特征在于，所述检测方法包括：获取全部已入库文档和待检测文档；预处理全部所述已入库文档中的图片和所述待检测文档中的图片；分词处理全部所述已入库文档和所述待检测文档；根据预设领域相关停用词集，过滤分词后的所述已入库文档和所述待检测文档；训练预处理后的所述已入库文档，生成句向量模型；根据所述句向量模型，生成过滤分词后的所述已入库文档的文档向量和所述待检测文档的文档向量；计算所述已入库文档的文档向量和所述待检测文档的文档向量的余弦值；根据所述余弦值，判断所述待检测文档与所述已入库文档是否相似。2.根据权利要求1所述的检测方法，其特征在于，所述预处理全部已入库文档中的图片和待检测文档中的图片的具体步骤包括：转换所述已入库文档和所述待检测文档至xml文档；遍历全部xml文档，确定所述已入库文档中的图片和所述待检测文档中的图片所对应的图片标签；删除所述xml文档中所述图片标签所对应的文档内容。3.根据权利要求1所述的检测方法，其特征在于，所述训练预处理后的已入库文档，生成句向量模型的具体步骤包括：保存全部所述预处理后的已入库文档于同一个文件夹中；保存全部所述预处理后的已入库文档中各个文档的文档名于名称文档中；按照文档和文档所对应的文档名的格式，合并所述预处理后的已入库文档和对应的文档名为语料集；根据所述语料集，生成句向量模型。4.根据权利要求1所述的检测方法，其特征在于，所述计算已入库文档的文档向量和待检测文档的文档向量的余弦值的具体步骤包括：从所述已入库文档的文档向量中随机选择一个文档向量，记作文档向量a，从所述待检测文档的文档向量中随机选择一个文档向量，记作文档向量b；遍历所述文档向量a和所述文档向量b的每个维度，分别计算sum+＝ai*bi，a_sum+＝ai**2，b_sum+＝bi**2；根据所述sumi、所述a_sum和所述b_sum，计算所述文档向量a和所述文档向量b之间的余弦值。5.根据权利要求4所述的检测方法，其特征在于，所述根据所述余弦值，判断所述待检测文档与所述已入库文档是否相似的具体步骤包括：比较所述余弦值与预设相似度阈值；如果所述余弦值大于或者等于所述预设相似度阈值，则确定所述余弦值所对应的已入库文档与待检测文档相似；如果所述余弦值小于所述预设相似度阈值，则确定所述余弦值所对应的已入库文档与待检测文档不相似。6.一种海量文档相似性的检测装置，其特征在于，所述检测装置包括：文档获取单元，用...

【专利技术属性】
技术研发人员：杨政，方正云，刘应洁，朱华，潘侃，
申请(专利权)人：云南电网有限责任公司电力科学研究院，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人