本发明专利技术涉及基于停用词的相似文档查询方法,步骤为:1)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;2)根据分词词典对两个文档进行分词操作,将该些文档转化成词汇流;3)在词汇流中按照书写习惯提取得到停用词;4)将停用词后面的正常语义词和该停用词组合成分段信息指纹;5)把分段信息指纹分别汇总形成两个文档的中指纹标识,并放入信息指纹库中进行比对;6)对信息指纹库中指纹标识相似度进行计算,得到两个文档的相似度值;7)将相似度值大于设定阈值的两文档作为相似文档,按照设定方式输出所有或部分相似文档。本发明专利技术使用“中文停用词”+多个“后续词”的方法,符合中文语境,具备更好比较效果。
【技术实现步骤摘要】
本专利技术涉及对电子化文档与文档之间相似度的查询方法,具体涉及一种利用中文停顿词比较文档相似度的方法,属于计算机语言处理及信息检索
技术介绍
随着互联网技术的普及和应用,电子化文档的使用量越来越大。电子化文档在方便人们提高工作效率、节约纸张等自然资源的利用的同时,也带来一些额外的问题和麻烦。 如电子化文档比较容易复制,也比较容易传播。这些文档电子化的新特征使得文档的抄袭在技术上更加容易。加之电子化数据量的日益增大,这类抄袭的人工判断越来越困难。因此,非常有必要利用现代化信息技术来改进人们对文档相似度判断的方法,从而提高人们处理日益增长的海量电子化文档的能力。在过去几十年内,人们对于自然语言处理的理论和技术都有了比较大的提高,电子文档是文本电子化的产物,而文本正是人类自然语言描述的产物。利用自然语言的处理方法来改变过去对文档逐字、逐词进行比较的方法将有效提高文档比对的效率和效果。文档相似性是文本信息处理领域的核心问题,很多的文本应用包括文档聚类、 文档检索、文档过滤等,都密切依赖于文档形似性的精确度量。在自然语言处理领域, 人们总结了一些通用的方法和规则,如=N-Gram分词方法(具体可参考A. Andoni and P. Indyk, “Near-optimal hashing algorithms for approximate nearest neighbor in highdimensions,,,Comm. ACM 51:1, pp. 117 - 122, 2008.),基于 Shingle 的信息指纹对比(具体可参考 2. A. Z. Broder, “On the resemblance and containment of documents,,,Proc. Compression and Complexity of Sequences, pp. 21 - 29, Positano Italy, 1997.)等。然而这些方法大多数据源于西方的西文文字处理,对于中文等东亚语种的特殊性没有专门的应对。中文及东亚文字有典型的断词问题,这些问题在西方语种中是以单词,即单字的形式出现,在表达上以空格分开。因此,西方文字天然不用分词,而中文语言的处理恰恰相反,在进行结构化处理的时候,需要“分词”的问题,也要考虑由此带来的 “分词歧义”问题。所以,在文档相似度比对方面,有必要充分考虑中文处理的特殊性。
技术实现思路
针对现有文献相似度比较方法,本专利技术提出利用非精确、集合运算比对的算法来提高比对工作效率,利用中文“停用词”(Stop Word)来实现提高中文文档对比效果的比对方法。本专利技术的技术方案提出了,其步骤包括I)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;所述两文档,其一为待查文档,另一取自一个或多个数据源;或两文档为从一个或多个数据源中提取的两文档,2)根据分词词典对所述两个文档进行分词操作,将该些文档转化成词汇流;3)在所述词汇流中按照书写习惯提取得到停用词;4)将所述停用词后面的正常语义词和该停用词组合成分段信息指纹;5)把所述分段信息指纹分别汇总形成所述两个文档的中指纹标识,并放入信息指纹库中进行比对;6)对所述信息指纹库中指纹标识相似度进行计算,得到所述两个文档的相似度值;7)将相似度值大于设定阈值的两文档作为相似文档,按照设定方式输出所有或部分相似文档。所述分段信息指纹通过唯一记数器记录。所述停用词中按照书写习惯由左到右进行提取同时去掉连续的重复词。所述正常语义词选用至少一个以上。所述正常语义词选用2个。所述信息指纹库通过用户计算机保存至本地或上传到远端服务器。所述停用词通过连续提取得到。所述字符信息包括中文标点、符号乱码。所述指纹库中指纹标识相似度通过jaccard相似性算法计算。所述指纹库中指纹标识相似度通过Euclidean Distances或Cosine Distance方法计算。本专利技术的有益效果本专利技术的优点在于,使用了“中文停用词”+多个“后续词”的方法,符合中文语境, 尤其对于一些有一定写作习惯的文章而言,具备更好的比较效果。该方法用于提高中文文档相似度比对的效果和比对的效率,提高人们利用计算机处理相似文档的能力,使人们可以更高效率的在海量文档中找出抄袭或引用原文的文档。附图说明图I是本专利技术基于停用词的相似文档查询方法的流程图2是本专利技术基于停用词的相似文档查询方法Jaccard相似算法示意图3是本专利技术基于停用词的相似文档查询方法一实施例中Jaccard相似算法具体示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本分买那个实施例中的技术方案进行清除、完整地描述,可以理解的是,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图I所示,本方法分成以下几个工作步骤I.将中文电子文档格式归一化。归一化是指将一个文档中所有字符(字符 (Character)是各种文字和符号的总称)去除所有非文字字符和标点之外格式的纯字符信举例归一化前中国啊,_ ¥%......&*我的祖国!归一化后中国啊我的祖国2.根据分词词典,对中文电子文档进行分词操作,将中文电子文档转化成相关的词汇流。举例分词前中国啊我的祖国分词后中国+啊+我+的+祖国3.从左到右根据停用词词典,找出词汇流中的“停用词”。(此处强调必须由左到右,以通过书写习惯提取信息指纹,并且去掉连续的重复词)过滤前中国+啊+我+的+祖国过滤后中国+啊+我+的+祖国(其中“啊”和“的”是停用词)4.每找到一个停用词,将停用词后面的2个正常语义词(可配置成其它参数),和这个停用词一起组合形成一个分段“信息指纹”。在上例中,文本经过抽取后,形成的两个信息指纹包括“啊+我+的”和“的+祖国”5.将该文档的所有分段“电子信息指纹”信息汇总,形成该文档的“电子信息指纹” 标识,并放入信息指纹库中进行比对。除此之外,考虑到被比对文档的长度问题,本方法只使用唯一记数器记录分段信息指纹,在少量牺牲精度的情况下,可以减少计算机内存的使用,大大提高比对速度。如图2所示是本专利技术比较文档相似度的方法Jaccard相似算法示意图Jaccard指数& = c/ (a+b-c),a、b为两个文本的指纹数,c为两文本共有的指纹数。除了 Jaccard相似度判断方法之外,还可以采用Euclidean Distances、Cosine Distance等方法。(具体可参见Μ· S. Charikar,“Similarity estimation techniques from roundingalgorithms,,’ACM Symposium on Theory of Computing, pp. 380 - 388, 2002. X如图3所示是本专利技术比较文档相似度的方法一实施例中Jaccard相似算法具体示意图。以下步骤应用本方法,对两个具体的两个实例进行相似度对比被比较文本如下原文本I (不包含引号)“中国啊,我的母亲!母亲啊,你多么伟大! ”原文本2 (不包含引号)“母亲啊,我的母亲啊,你多本文档来自技高网...
【技术保护点】
一种基于停用词的相似文档查询方法,其步骤包括:1)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;所述两文档,其一为待查文档,另一取自一个或多个数据源;或两文档为从一个或多个数据源中提取的两文档,2)根据分词词典对所述两个文档进行分词操作,将该些文档转化成词汇流;3)在所述词汇流中按照书写习惯提取得到停用词;4)将所述停用词后面的正常语义词和该停用词组合成分段信息指纹;5)把所述分段信息指纹分别汇总形成所述两个文档的中指纹标识,并放入信息指纹库中进行比对;6)对所述信息指纹库中指纹标识相似度进行计算,得到所述两个文档的相似度值;7)将相似度值大于设定阈值的两文档作为相似文档,按照设定方式输出所有或部分相似文档。
【技术特征摘要】
【专利技术属性】
技术研发人员:林述民,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。