文本信息的查重方法、装置及电子设备制造方法及图纸

技术编号：20389686 阅读：21 留言：0更新日期：2019-02-20 02:47

本发明专利技术提供了一种文本信息的查重方法、装置及电子设备，涉及信息处理的技术领域，包括获取待查询文本；对待查询文本进行段落拆分处理，得到待查询文本的多个拆分段落；对每个拆分段落进行哈希函数处理，得到拆分段落的特征指纹；将拆分段落的特征指纹进行分段处理，得到多个特征指纹片段，并将每个特征指纹片段与其对应的特征指纹片段库中的预设特征指纹片段进行匹配，根据匹配结果确定查重结果。该方法通过将每个特征指纹片段与其对应的特征指纹片段库进行匹配，能够快速的得到查重结果，并且是对每个拆分段落进行的查重，查重结果的相似度性能好，缓解了现有的文本信息查重方法存在检索速度慢、检索结果的相似度性能差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本信息的查重方法、装置及电子设备
本专利技术涉及信息处理的
，尤其是涉及一种文本信息的查重方法、装置及电子设备。
技术介绍
大数据时代的数据量远远大于了人可以处理的范围，其中绝大多数是重复的，转载的或者说是抄袭的。出于查明文本抄袭来源或者减少相同内容重复存储的目的，需要查重或者查相似的系统。现有技术中的文本信息查重方法，对文本内容做分词，去掉停止词并进行特征词提取，将特征词向量存储在数据库中，请求的文章会被做一样的处理，并求特征词向量的距离，如：海明距离，余弦距离，距离越近的相似性越高。这种方法可以找到高相似的文章，但问题是特征向量的维数不好把控，维数高的情况下，建立索引以及检索的速度就会很慢，如果维数比较低的情况下，提取的特征词可能就不够用来做相似检索，相似度性能会大打折扣。综上所述，现有的文本信息查重方法存在检索速度慢、检索结果的相似度性能差的技术问题。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种文本信息的查重方法、装置及电子设备，以缓解现有的文本信息查重方法存在检索速度慢、检索结果的相似度性能差的技术问题。第一方面，本专利技术实施例提供了一种文本信息的查重方法，包括：获取待查询文本；对所述待查询文本进行段落拆分处理，得到所述待查询文本的多个拆分段落；对每个所述拆分段落进行哈希函数处理，得到所述拆分段落的特征指纹，其中，所述特征指纹为包含所述待查询文本的特征的数组；将所述拆分段落的特征指纹进行分段处理，得到多个特征指纹片段，并将每个所述特征指纹片段与其对应的特征指纹片段库中的预设特征指纹片段进行匹配，根据匹配结果确定查重结果，其中，所述查...

【技术保护点】
1.一种文本信息的查重方法，其特征在于，包括：获取待查询文本；对所述待查询文本进行段落拆分处理，得到所述待查询文本的多个拆分段落；对每个所述拆分段落进行哈希函数处理，得到所述拆分段落的特征指纹，其中，所述特征指纹为包含所述待查询文本的特征的数组；将所述拆分段落的特征指纹进行分段处理，得到多个特征指纹片段，并将每个所述特征指纹片段与其对应的特征指纹片段库中的预设特征指纹片段进行匹配，根据匹配结果确定查重结果，其中，所述查重结果至少包括：是否存在重复内容，所述重复内容的出处。

【技术特征摘要】
1.一种文本信息的查重方法，其特征在于，包括：获取待查询文本；对所述待查询文本进行段落拆分处理，得到所述待查询文本的多个拆分段落；对每个所述拆分段落进行哈希函数处理，得到所述拆分段落的特征指纹，其中，所述特征指纹为包含所述待查询文本的特征的数组；将所述拆分段落的特征指纹进行分段处理，得到多个特征指纹片段，并将每个所述特征指纹片段与其对应的特征指纹片段库中的预设特征指纹片段进行匹配，根据匹配结果确定查重结果，其中，所述查重结果至少包括：是否存在重复内容，所述重复内容的出处。2.根据权利要求1所述的方法，其特征在于，对所述待查询文本进行段落拆分处理包括：根据所述待查询文本中的分隔符号对所述待查询文本进行分句处理，得到多个语句，其中，所述分隔符号至少包括：句号，换行符，问号；将所述多个语句进行组合，得到所述待查询文本的多个拆分段落，其中，所述拆分段落至少包含一个语句。3.根据权利要求2所述的方法，其特征在于，将所述多个语句进行组合包括：获取动态采样窗口的大小和动态采样窗口的滑动步长，其中，所述动态采样窗口的大小决定所述拆分段落所包含的字数，或，所述动态采样窗口的大小决定所述拆分段落所包含的语句个数；根据所述动态采样窗口的大小和所述动态采样窗口的滑动步长对所述多个语句进行遍历采样，得到所述待查询文本的多个拆分段落。4.根据权利要求1所述的方法，其特征在于，对每个所述拆分段落进行哈希函数处理包括：在每个所述拆分段落中遍历提取连续的n个单字，并将每个所述连续的n个单字作为第一目标词，进而得到由多个第一目标词组成的第一目标词集；对所述第一目标词集中的每个所述第一目标词进行第一哈希函数处理，得到多个第一初始哈希值；基于算式h(x)＝(ax+b)modc对多个所述第一初始哈希值进行第二哈希函数处理，得到多个第一目标哈希值，其中，h(x)表示所述第一目标哈希值，x表示所述第一初始哈希值，a，b，c表示预设随机正整数，且所述预设随机正整数为f组；在每组所述预设随机正整数确定的所述多个第一目标哈希值中确定一个特征值，进而得到f个特征值，其中，所述特征值为所述多个第一目标哈希值中的最小值；对所述f个特征值进行第一压缩处理，得到第一特征指纹，并将所述第一特征指纹作为所述拆分段落的特征指纹。5.根据权利要求1所述的方法，其特征在于，对每个所述拆分段落进行哈希函数处理包括：在每个所述拆分段落中遍历提取连续的m个单字，并将每个...

【专利技术属性】
技术研发人员：熊英超，孙宏跃，刘志远，
申请(专利权)人：南京中孚信息技术有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人