一种用于文本复制检测的同义词扩展方法及装置制造方法及图纸

技术编号：7718655 阅读：464 留言：0更新日期：2012-08-30 02:47

本发明专利技术公开了一种用于文本复制检测中的同义词扩展方法及其装置。包括：文本与处理单元，将可疑文本去除停用词并进行词性标注，将动词、名词和形容词作为待处理对象；通过检索单一词汇的同义词，计算笛卡尔积，获取可疑文本中所有词汇搭配的初始扩展集；通过比对初始扩展及和真实语料库，过滤掉其中不可能出现在真实语言环境下的词汇搭配，对集合进行精简，得到最终扩展集；在复制检测时，根据不同的匹配结果，赋予词汇不同权值，以此进行复制检测结果的计算依据。使用本发明专利技术实施例的方法或装置可以有效地克服文本复制中的同义词替换问题，且效率较高，对于复制检测的精确率有较大提高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般地涉及文本复制检测中的同义词扩展技术，尤其设计出ー种可防止同义词扩展过程中扩展集过大的方法和装置。
技术介绍
随着计算机技术与互联网的飞速发展、数字信息的海量增长，如何防止数字信息被非法复制与传播已成为了ー个急需解决的问题。在这些数字信息复制中，最为普遍的是文本复制。文本复制检测的目的就是通过对比可疑文本和指定的语料库，发现文本中的抄袭部分。这种比对方法，针对文本的直接复制有较好的效果。但对于文本中的同义词替换现象却无能为力。针对这种现象，ー些复制检测方法中引入了同义词扩展技木。同义词扩展需要借助于语义词典，语义词典中包含有非常丰富的语义信息，通过它可得到词语之间的类别关系和相似性关系。同义词扩展通常的方法是，用待扩展词汇到同义词词典中进行查询，得到一个词汇的扩展集合。该集合中词汇，包含了所有与待扩展词汇语义相近的词语。在文本复制检测中，可将这些扩展集合中的词汇用于文本之间的比对，对于进行了同义词替换的检测，具有一定的效果。这种同义词扩展的缺陷在于，通过上述方法得到的扩展集合通常较大，若将待检测文本中的每ー个词进行上述扩展，会造成待检测词汇过多而影响到检测的效率甚至准确率。而考虑到真实语言现象中的上下文环境，扩展集合中的大部分词汇如被用于文本复制，会造成语句的不通顺或句子意义的改变而不会被剽窃者采用。因此，如何将扩展集合中不具备检测价值的词汇进行过滤成为了问题的关键。
技术实现思路
有鉴于此，本专利技术实施例提供了一种有效的同义词扩展方法，结合文本中的上下文语境，对词汇的扩展集合进行过滤，将过滤后所得的扩展集合用于文本复制检测。本方法克服了同义...

【技术保护点】

【技术特征摘要】
1.一种用于文本复制检测的同义词扩展方法及装置，其特征在于，包括文本预处理模块，用于过滤待检测文本中的停用词、获取待扩展词汇，并对动词、名词和形容词进行标注；初始扩展集获取模块，针对每ー个待扩展词汇，通过语义词典得到对应的初始扩展集；过滤模块，从预处理后的文本中，得到每ー个带扩展词汇的上下文关系(bigram)，通过计算bigram对应词汇的初始扩展及的交集，获取其所有可能的扩展搭配。并通过文本语料库，对扩展搭配进行过滤，得到最終的扩展集；权值计算模块，对于所得到的最終扩展集，在进行文本复制检测时，根据匹配情况...

【专利技术属性】
技术研发人员：孙星明，
申请(专利权)人：孙星明，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人