一种相似文档检测方法、系统、终端设备及计算机可读存储介质技术方案

技术编号:26924372 阅读:13 留言:0更新日期:2021-01-01 22:49
本发明专利技术涉及数据分析技术领域,揭露了一种相似文档检测方法,该方法包括:对目标文档进行分词处理,得到所述目标文档的第一分词集合;根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量;对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合;根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量;根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,将相似度满足要求的历史文档确定为与所述目标文档相似的文档。这样,根据多维向量确定目标文档与各历史文档的相似度,提高相似文档检测效率及准确度,减少时间消耗。

【技术实现步骤摘要】
一种相似文档检测方法、系统、终端设备及计算机可读存储介质
本专利技术涉及数据分析
,尤其涉及一种相似文档检测方法、系统、终端设备及计算机可读存储介质。
技术介绍
一般项目实施结束后,会对项目进行总结,生成许多总结文档。文档需要对项目背景、单位基本情况进行介绍,对项目风险、问题进行预测和提示,可以有效体现项目的价值以及履责情况。为保障总结文档的准确性,必须认真地按照有关规定和要求编写文档,用准确、规范文字表达。目前,为保证文档的编写标准一致,经常需要人工选择已有的相似文档进行参考,但是,人工选择相似文档的效率低、准确度低、耗时久。因此,如何在克服以上不足的情况下,提供相似文档检测方案,已经成为一个亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术提出一种相似文档检测方法、系统、终端设备及计算机可读存储介质,以解决现有技术人工选择相似文档的效率低、准确度低、耗时久的问题。首先,为实现上述目的,本专利技术提出一种相似文档检测方法,所述方法包括步骤:对目标文档进行分词处理,得到所述目标文档的第一分词集合;确定所述第一分词集合中分词的词频及权重,根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量;对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合;确定所述第二分词集合中分词的词频及权重,根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量;根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,将相似度满足要求的历史文档确定为与所述目标文档相似的文档。可选地,所述对目标文档进行分词处理,得到所述目标文档的第一分词集合,包括以下步骤:获取不可分割词汇;基于所述不可分割词汇,对所述目标文档进行分词操作,得到所述目标文档的第一分词结果。可选的,所述对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合,包括以下步骤:基于所述不可分割词汇,对所述各历史文档进行分词处理,得到每个历史文档各自的第二分词集合。可选地,所述根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,包括以下步骤:根据所述目标文档的多维向量与所述各历史文档的多维向量,分别计算所述目标文档与所述每个历史文档的向量距离,根据所述向量距离确定所述目标文档与所述各历史文档的相似度。可选地,所述将相似度满足要求的历史文档确定为与所述目标文档相似的文档,包括以下步骤:将与所述目标文档向量距离最小的M个历史文档,确定为与所述目标文档相似的文档。可选地,所述确定所述第一分词集合中分词的权重,包括以下步骤:确定所述第一分词集合中每一分词的分词类别,所述分词类别包括不可分割词汇类别及预设权重词汇类别;在分词属于不可分割词汇类别的情况下,根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数,确定所述分词的权重;在分词属于预设权重词汇类别的情况下,从预设权重表中获取所述分词的权重;所述确定所述第二分词集合中分词的权重,包括以下步骤:确定所述第二分词集合中每一分词的分词类别;在分词属于不可分割词汇类别的情况下,根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数,确定所述分词的权重;在分词属于预设权重词汇类别的情况下,从预设权重表中获取所述分词的权重。可选地,采用公式(1)计算文档中的不可分割词语的权重;公式(1):其中,a表示不可分割词汇在文档中出现的次数,b表示文档的词汇总数,c表示语料库中文档数,d表示语料库中出现不可分割词汇的文档数,w表示不可分割词汇在文档中的权重。为实现上述目的,本专利技术还提供一种相似文档检测系统,包括:第一分词处理模块,用于对目标文档进行分词处理,得到所述目标文档的第一分词集合;第一确定模块,用于确定所述第一分词集合中分词的词频及权重,根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量;第二分词处理模块,用于对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合;第二确定模块,用于确定所述第二分词集合中分词的词频及权重,根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量;处理模块,用于根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,将相似度满足要求的历史文档确定为与所述目标文档相似的文档。此外,为实现上述目的,本专利技术还提供一种终端设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的相似文档检测系统,所述相似文档检测系统被所述处理器执行时实现如上述的相似文档检测方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有相似文档检测系统,所述相似文档检测系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的相似文档检测方法的步骤。相较于现有技术,本专利技术所提出的相似文档检测方法、装置、终端设备及计算机可读存储介质,能够通过对目标文档及历史文档进行分词处理得到相应分词集合,根据分词集合中分词的词频及权重确定目标文档、历史文档的多维向量,根据多维向量确定目标文档与各历史文档的相似度,从而将相似度满足要求的历史文档确定为与目标文档相似的文档,能够自动获取与目标文档相似的文档,大大提高相似文档检测效率、准确度,减少时间消耗。附图说明图1是本专利技术终端设备一可选的硬件架构的示意图;图2是本专利技术相似文档检测系统第一实施例的程序模块示意图;图3是本专利技术相似文档检测系统的第一分词处理模块一实施例的示意图;图4是本专利技术相似文档检测系统第二实施例的程序模块示意图;图5是本专利技术相似文档检测方法第一实施例的流程示意图;图6是本专利技术相似文档检测方法的步骤S500的流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围本文档来自技高网...

【技术保护点】
1.一种相似文档检测方法,其特征在于,所述方法包括步骤:/n对目标文档进行分词处理,得到所述目标文档的第一分词集合;/n确定所述第一分词集合中分词的词频及权重,根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量;/n对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合;/n确定所述第二分词集合中分词的词频及权重,根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量;/n根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,将相似度满足要求的历史文档确定为与所述目标文档相似的文档。/n

【技术特征摘要】
1.一种相似文档检测方法,其特征在于,所述方法包括步骤:
对目标文档进行分词处理,得到所述目标文档的第一分词集合;
确定所述第一分词集合中分词的词频及权重,根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量;
对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合;
确定所述第二分词集合中分词的词频及权重,根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量;
根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,将相似度满足要求的历史文档确定为与所述目标文档相似的文档。


2.如权利要求1所述的相似文档检测方法,其特征在于,所述对目标文档进行分词处理,得到所述目标文档的第一分词集合,包括以下步骤:
获取不可分割词汇;
基于所述不可分割词汇,对所述目标文档进行分词操作,得到所述目标文档的第一分词结果。


3.如权利要求2所述的相似文档检测方法,其特征在于,所述对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合,包括以下步骤:
基于所述不可分割词汇,对所述各历史文档进行分词处理,得到每个历史文档各自的第二分词集合。


4.如权利要求3所述的相似文档检测方法,其特征在于,所述根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,包括以下步骤:
根据所述目标文档的多维向量与所述各历史文档的多维向量,分别计算所述目标文档与所述每个历史文档的向量距离,根据所述向量距离确定所述目标文档与所述各历史文档的相似度。


5.如权利要求4所述的相似文档检测方法,其特征在于,所述将相似度满足要求的历史文档确定为与所述目标文档相似的文档,包括以下步骤:
将与所述目标文档向量距离最小的M个历史文档,确定为与所述目标文档相似的文档。


6.如权利要求1所述的相似文档检测方法,其特征在于,所述确定所述第一分词集合中分词的权重,包括以下步骤:
确定所述第一分词集合中每一分词的分词类别,所述分词类别包括不可分割词汇类别及预设权重词汇类别;
在分词属于不可分割词汇类别的情况下,...

【专利技术属性】
技术研发人员:肖畅钱百万谭茵何克东张奕朱葛
申请(专利权)人:平安直通咨询有限公司上海分公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1