相似文件的自动侦测方法技术

技术编号：2842450 阅读：224 留言：0更新日期：2012-04-11 18:40

一种自动侦测相似文件的方法，该方法是对一文件集里的每一篇文件进行词汇断词、标点符号删除、停用词过滤、词汇正规化等前置处理，然后建立每个词汇到每篇文件的一反向索引档，接着将每一篇待比对文件同样经过上述的步骤处理后，透过反向索引档提供的索引功能，快速查阅待比对文件中每个词汇在文件集内每一篇文件出现的次数，并按照给定的相似度公式，计算出待比对文件与其他文件的相似度，如此搜集文件之间的相似度，依照给定的相似度门槛过滤后，即可侦测所有相异的相似文件。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是有关于一种相似文件的侦测方法，且特别是有关于一种具备相似度定义弹性的自动侦测方法，其具有渐进式快速侦测所有相异的相似文件的特性。
技术介绍
电脑文书软体的普遍应用，造成数位文件的大量增加。在处理或管理数位文件时，常常需要某些自动侦测或比对文件的功能。就如同数位文字在生产与利用过程中，需要基本的词汇比对技术，数位文件本身也需要类似的功能，也就是“比对”的“对象”要从“词汇”提升到“文件”的层次。这里所说的“文件”，是指由自然语文或词汇形成的一段或一篇文字。例如一般的文章、文章的“段落”、文章的“句子”、公文的“主旨”等栏位、使用者提问的“问题”或服务人员回答的“答案”等，都可视为是一篇篇的“文件”。了解哪些“文件”雷同或相似，可以有很多应用。例如，当“文件”是使用者“提问的问题”时，侦测相似的文件，可以指引使用者参考过去已经有答案的类似问题，免除使用者等待其问题被回答的时间，同时避免类似的问题一再被提问。又如，当“文件”是公文的“主旨”时，侦测相似的文件，可以将同样案件的公文全部找出来，免除不知道要如何下查询词以找出所有同案公文的困扰。再如，当“文件”是文章的段落或句子时，侦测相似的文件，可以得知某些文章的内容，是否抄自某些文章的某些段落。再者，侦测相似文件，可以得知相同主题的文件，是否被分派到相同的类别，以便了解人工进行文件分类的一致性与可靠性。词汇的相似比对或侦测，可以简单用字串比对，以比对是否相同，或用过去习知的n-gram(n连字，即任意相连的n个字元)断词方法进行比对，以比对其近似性。例如“李远哲院长”与“李院长远哲”，用1-gra...

【技术保护点】
一种相似文件的自动侦测方法，用以自多个测试文件中侦测出与一待比对文件具有相似内容或相似主题的多个相似文件，其特征在于该自动侦测方法包括下列步骤：依照一断词策略，将该些测试文件分别进行断词处理，获得多个断词词汇；根据该些断词词汇，建立一文件向量资讯，其中该文件向量资讯包括对应该些测试文件的多个文件向量，而每一该些文件向量包括多个分量维度及多个向量分量值；将该文件向量资讯转换为词汇到文件的一反向索引档；将该待比对文件依上述步骤，求得一待比对文件向量；选择一相似度比对法，透过该反向索引档，计算出该待比对文件与该些测试文件间的多个相似度；判断该些相似度是否高于一门槛值；以及若高于该门槛值，则将该些相似度所对应的该些测试文件视为该些相似文件。

【技术特征摘要】

【专利技术属性】
技术研发人员：曾元显，
申请(专利权)人：威知资讯股份有限公司，曾元显，
类型：发明
国别省市：71[中国|台湾]

全部详细技术资料下载我是这个专利的主人