一种相似文档检测方法、系统、终端设备及计算机可读存储介质技术方案

技术编号：26924372 阅读：13 留言：0更新日期：2021-01-01 22:49

本发明专利技术涉及数据分析技术领域，揭露了一种相似文档检测方法，该方法包括：对目标文档进行分词处理，得到所述目标文档的第一分词集合；根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量；对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合；根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量；根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，将相似度满足要求的历史文档确定为与所述目标文档相似的文档。这样，根据多维向量确定目标文档与各历史文档的相似度，提高相似文档检测效率及准确度，减少时间消耗。

全部详细技术资料下载

【技术实现步骤摘要】
一种相似文档检测方法、系统、终端设备及计算机可读存储介质
本专利技术涉及数据分析
，尤其涉及一种相似文档检测方法、系统、终端设备及计算机可读存储介质。
技术介绍
一般项目实施结束后，会对项目进行总结，生成许多总结文档。文档需要对项目背景、单位基本情况进行介绍，对项目风险、问题进行预测和提示，可以有效体现项目的价值以及履责情况。为保障总结文档的准确性，必须认真地按照有关规定和要求编写文档，用准确、规范文字表达。目前，为保证文档的编写标准一致，经常需要人工选择已有的相似文档进行参考，但是，人工选择相似文档的效率低、准确度低、耗时久。因此，如何在克服以上不足的情况下，提供相似文档检测方案，已经成为一个亟待解决的技术问题。
技术实现思路
有鉴于此，本专利技术提出一种相似文档检测方法、系统、终端设备及计算机可读存储介质，以解决现有技术人工选择相似文档的效率低、准确度低、耗时久的问题。首先，为实现上述目的，本专利技术提出一种相似文档检测方法，所述方法包括步骤：对目标文档进行分词处理，得到所述目标文档的第一分词集合；确定所述第一分词集合中分词的词频及权重，根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量；对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合；确定所述第二分词集合中分词的词频及权重，根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量；根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文...

【技术保护点】
1.一种相似文档检测方法，其特征在于，所述方法包括步骤：/n对目标文档进行分词处理，得到所述目标文档的第一分词集合；/n确定所述第一分词集合中分词的词频及权重，根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量；/n对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合；/n确定所述第二分词集合中分词的词频及权重，根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量；/n根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，将相似度满足要求的历史文档确定为与所述目标文档相似的文档。/n

【技术特征摘要】
1.一种相似文档检测方法，其特征在于，所述方法包括步骤：
对目标文档进行分词处理，得到所述目标文档的第一分词集合；
确定所述第一分词集合中分词的词频及权重，根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量；
对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合；
确定所述第二分词集合中分词的词频及权重，根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量；
根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，将相似度满足要求的历史文档确定为与所述目标文档相似的文档。

2.如权利要求1所述的相似文档检测方法，其特征在于，所述对目标文档进行分词处理，得到所述目标文档的第一分词集合，包括以下步骤：
获取不可分割词汇；
基于所述不可分割词汇，对所述目标文档进行分词操作，得到所述目标文档的第一分词结果。

3.如权利要求2所述的相似文档检测方法，其特征在于，所述对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合，包括以下步骤：
基于所述不可分割词汇，对所述各历史文档进行分词处理，得到每个历史文档各自的第二分词集合。

4.如权利要求3所述的相似文档检测方法，其特征在于，所述根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，包括以下步骤：
根据所述目标文档的多维向量与所述各历史文档的多维向量，分别计算所述目标文档与所述每个历史文档的向量距离，根据所述向量距离确定所述目标文档与所述各历史文档的相似度。

5.如权利要求4所述的相似文档检测方法，其特征在于，所述将相似度满足要求的历史文档确定为与所述目标文档相似的文档，包括以下步骤：
将与所述目标文档向量距离最小的M个历史文档，确定为与所述目标文档相似的文档。

6.如权利要求1所述的相似文档检测方法，其特征在于，所述确定所述第一分词集合中分词的权重，包括以下步骤：
确定所述第一分词集合中每一分词的分词类别，所述分词类别包括不可分割词汇类别及预设权重词汇类别；
在分词属于不可分割词汇类别的情况下，...

【专利技术属性】
技术研发人员：肖畅，钱百万，谭茵，何克东，张奕，朱葛，
申请(专利权)人：平安直通咨询有限公司上海分公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人