一种快速文档相似度判定方法技术

技术编号：18007024 阅读：52 留言：0更新日期：2018-05-21 07:39

本发明专利技术公开了一种快速文档相似度判定方法，选句：选取整篇文档10个最长的句子；分词：将每个句子拆分成基础词汇；词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

全部详细技术资料下载

【技术实现步骤摘要】
一种快速文档相似度判定方法
本专利技术涉及文本处理领域，特别涉及一种快速文档相似度判定方法。
技术介绍
随着我国知识是产权保护的意识越来越强，诞生了版权作者主动维权的意识，而人工判断侵权的工作量太大，在海量数据面前，需要计算机工具作为辅助，对数据进行筛选，然后进行人工判断。申请人在2017年12月23日，申请了名为“一种文档相似度判定方法”的专利技术专利，是将整个文档的词语做hash，并根据词语出现的次数做加权，最后比较1，0数列，得到一个相似对比结果。整个文档的词语做hash，计算量比较大。
技术实现思路
为了克服上述现有技术的不足，本专利技术提供了一种快速文档相似度判定方法。所述方法包括以下步骤：选句：选取整篇文档10个最长的句子；分词：将每个句子拆分成基础词汇；词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。有益效果：具体实施方式实施例：第一步，选句：选取整篇文档10个最长的句子；第二步，分词：将每个句子拆分成基础词汇；第三步，词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；第四步，合并...

【技术保护点】
一种快速文档相似度判定方法，包括以下步骤：第一步，选句：选取整篇文档10个最长的句子；第二步，分词：将每个句子拆分成基础词汇；第三步，词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；第四步，合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；第五步，降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；第六步，对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

【技术特征摘要】
1.一种快速文档相似度判定方法，包括以下步骤：第一步，选句：选取整篇文档10个最长的句子；第二步，分词：将每个句子拆分成基础词汇；第三步，词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*...

【专利技术属性】
技术研发人员：王祝，
申请(专利权)人：奕响大连科技有限公司，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人