一种基于停用词的相似文档查询方法技术

技术编号:8347943 阅读:374 留言:0更新日期:2013-02-21 01:27
本发明专利技术涉及基于停用词的相似文档查询方法,步骤为:1)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;2)根据分词词典对两个文档进行分词操作,将该些文档转化成词汇流;3)在词汇流中按照书写习惯提取得到停用词;4)将停用词后面的正常语义词和该停用词组合成分段信息指纹;5)把分段信息指纹分别汇总形成两个文档的中指纹标识,并放入信息指纹库中进行比对;6)对信息指纹库中指纹标识相似度进行计算,得到两个文档的相似度值;7)将相似度值大于设定阈值的两文档作为相似文档,按照设定方式输出所有或部分相似文档。本发明专利技术使用“中文停用词”+多个“后续词”的方法,符合中文语境,具备更好比较效果。

【技术实现步骤摘要】

本专利技术涉及对电子化文档与文档之间相似度的查询方法,具体涉及一种利用中文停顿词比较文档相似度的方法,属于计算机语言处理及信息检索

技术介绍
随着互联网技术的普及和应用,电子化文档的使用量越来越大。电子化文档在方便人们提高工作效率、节约纸张等自然资源的利用的同时,也带来一些额外的问题和麻烦。 如电子化文档比较容易复制,也比较容易传播。这些文档电子化的新特征使得文档的抄袭在技术上更加容易。加之电子化数据量的日益增大,这类抄袭的人工判断越来越困难。因此,非常有必要利用现代化信息技术来改进人们对文档相似度判断的方法,从而提高人们处理日益增长的海量电子化文档的能力。在过去几十年内,人们对于自然语言处理的理论和技术都有了比较大的提高,电子文档是文本电子化的产物,而文本正是人类自然语言描述的产物。利用自然语言的处理方法来改变过去对文档逐字、逐词进行比较的方法将有效提高文档比对的效率和效果。文档相似性是文本信息处理领域的核心问题,很多的文本应用包括文档聚类、 文档检索、文档过滤等,都密切依赖于文档形似性的精确度量。在自然语言处理领域, 人们总结了一些通用的方法和规则,如=N-Gram分本文档来自技高网...

【技术保护点】
一种基于停用词的相似文档查询方法,其步骤包括:1)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;所述两文档,其一为待查文档,另一取自一个或多个数据源;或两文档为从一个或多个数据源中提取的两文档,2)根据分词词典对所述两个文档进行分词操作,将该些文档转化成词汇流;3)在所述词汇流中按照书写习惯提取得到停用词;4)将所述停用词后面的正常语义词和该停用词组合成分段信息指纹;5)把所述分段信息指纹分别汇总形成所述两个文档的中指纹标识,并放入信息指纹库中进行比对;6)对所述信息指纹库中指纹标识相似度进行计算,得到所述两个文档的相似度值;7)将相似度值大于设定阈值的两文档作为相似文档,按...

【技术特征摘要】

【专利技术属性】
技术研发人员:林述民
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1