当前位置: 首页 > 专利查询>孙星明专利>正文

一种用于文本复制检测的同义词扩展方法及装置制造方法及图纸

技术编号:7718655 阅读:464 留言:0更新日期:2012-08-30 02:47
本发明专利技术公开了一种用于文本复制检测中的同义词扩展方法及其装置。包括:文本与处理单元,将可疑文本去除停用词并进行词性标注,将动词、名词和形容词作为待处理对象;通过检索单一词汇的同义词,计算笛卡尔积,获取可疑文本中所有词汇搭配的初始扩展集;通过比对初始扩展及和真实语料库,过滤掉其中不可能出现在真实语言环境下的词汇搭配,对集合进行精简,得到最终扩展集;在复制检测时,根据不同的匹配结果,赋予词汇不同权值,以此进行复制检测结果的计算依据。使用本发明专利技术实施例的方法或装置可以有效地克服文本复制中的同义词替换问题,且效率较高,对于复制检测的精确率有较大提高。

【技术实现步骤摘要】

本专利技术一般地涉及文本复制检测中的同义词扩展技术,尤其设计出ー种可防止同义词扩展过程中扩展集过大的方法和装置。
技术介绍
随着计算机技术与互联网的飞速发展、数字信息的海量增长,如何防止数字信息被非法复制与传播已成为了ー个急需解决的问题。在这些数字信息复制中,最为普遍的是文本复制。文本复制检测的目的就是通过对比可疑文本和指定的语料库,发现文本中的抄袭部分。这种比对方法,针对文本的直接复制有较好的效果。但对于文本中的同义词替换现象却无能为力。针对这种现象,ー些复制检测方法中引入了同义词扩展技木。同义词扩展需要借助于语义词典,语义词典中包含有非常丰富的语义信息,通过它可得到词语之间的类别关系和相似性关系。同义词扩展通常的方法是,用待扩展词汇到同义词词典中进行查询,得到一个词汇的扩展集合。该集合中词汇,包含了所有与待扩展词汇语义相近的词语。在文本复制检测中,可将这些扩展集合中的词汇用于文本之间的比对,对于进行了同义词替换的检测,具有一定的效果。这种同义词扩展的缺陷在于,通过上述方法得到的扩展集合通常较大,若将待检测文本中的每ー个词进行上述扩展,会造成待检测词汇过多而影响到检测的效率甚至准确率。而考虑到真实语言现象中的上下文环境,扩展集合中的大部分词汇如被用于文本复制,会造成语句的不通顺或句子意义的改变而不会被剽窃者采用。因此,如何将扩展集合中不具备检测价值的词汇进行过滤成为了问题的关键。
技术实现思路
有鉴于此,本专利技术实施例提供了一种有效的同义词扩展方法,结合文本中的上下文语境,对词汇的扩展集合进行过滤,将过滤后所得的扩展集合用于文本复制检测。本方法克服了同义词扩展中,扩展集合过大而影响到检测效率和检测准确率的问题。本专利技术实施例是通过以下技术方案实现的 文本预处理; 通过语义词典,获取待扩展词汇的初始扩展集; 结合带扩展词汇在待检测文本中的上下文语境,通过真实文本语料库对初始扩展集进行过滤; 根据复制检测的匹配情况为同义词搭配计算权值。 本专利技术实施例还提供一种用于文本复制检测的同义词扩展装置,包括文本预处理模 块、初始扩展集获取模块、过滤模块。其中 文本预处理模块,用于过滤待检测文本中的停用词、获取待扩展词汇,并对动词、名词和形容词进行标注;初始扩展集获取模块,针对每ー个待扩展词汇,通过语义词典得到对应的初始扩展集; 过滤模块,从预处理后的文本中,得到每ー个带扩展词汇的上下文关系(bigram),通过计算bigram对应词汇的初始扩展集的交集,获取其所有可能的扩展搭配。并通过文本语料库,对扩展搭配进行过滤,得到最終的扩展集; 权值计算模块,对于所得到的最終扩展集,在进行文本复制检测时,根据匹配情况赋予不同权值。 由上述本专利技术例的具体技术实施方案可以看出,本专利技术实施例对词汇进行扩展的同时,考虑到了真实语言环境下的上下文关系,将不存在同义词搭配的扩展词汇进行了筛选,最終所得的扩展集中所包含的均为真实语言环境下可能出现的同义词搭配,有效地改善了复制检测中的效率,并将同义词扩展对复制检测准确率的影响进行了有效地改善。附图说明图I为本专利技术实施例文本预处理流程图 图2为本专利技术实施例初始扩展集计算图 图3为本专利技术实施例最終扩展集计算图具体实施例方式为使本专利技术的目的、技术方案和优点更加清晰,下面结合附图对本专利技术实施例所提出的技术方案进行详细说明。本专利技术实施例的第一步即文本预处理,參照图I包括如下步骤 步骤I :对于可疑文本,使用已有的自然语言处理工具,对其进行分词。步骤2 :通过停用词表,删除掉可疑文本中的停用词。步骤3 :通过已有的自然语言处理工具,将上述处理后的文本中的动词、名词和形容词进行标注。对于给定的可疑文本,经过上述预处理步骤后,得到文本。 參照图2,对于与处理后所得文本,进行同义词扩展。在此过程中,由于需要引入上下文信息,因此此处扩展的是从中所提取出的bigram。步骤I :对进行bigram切分,获取其中包含的bigram。步骤2 :对于给定的bigram—,分别对,通过语义词典进行扩展,得到,的同义词集ロ > ο步骤3 :计算笛卡尔积,得到的初始扩展集。 初始扩展集特点 I、以bigram为基本単位进行扩展,考虑了词汇所处的上下文环境。2、计算笛卡尔积所得集合中,包含了相邻两个词汇所有的同义词搭配。 參照图3,删除集合中不可能在真实语言环境下出现的词汇搭配,得到最終扩展集合。其生成规则如下 步骤I :对于给定语料库,对其进行bigram切分,得到集合。步骤2 :对构建gitram索引。步骤3 :对于每一个出现在中的bigram,对索引进行查询。若存在于索引中,则保留,否则从中删除。步骤4:重复步骤3,直到其中所有的bigram被处理完毕,最終得到的扩展集合。 采用上述步骤对初始扩展集进行过滤,具有如下优点 初始扩展集由bigram中的词汇的同义词集合计算笛卡尔积得到,其中包含的搭配过多,且绝大部分搭配在真实语言环境下并不存在。通过将与真实语料库进行比对,过滤掉其中的大部分搭配,最終所得扩展集包含的是的所有在真实语言环境下存在的同义词搭配,且数量远小于,在不影响复制检测准确率的前提下,提高了复制检测的效率。 对于最终扩展集中的同义词搭配,其权值计算依赖于复制检测时的匹配情況。若可疑文本与目标文本存在完全相同的bigram匹配,则权值取最大值2。若不完全匹配或完全不匹配,则计算规则如下 步骤I :对于可疑文本中的词汇搭配,若目标文本中也存在词汇搭配,则的权值为2。步骤2 :若在目标文本中不存在,但或存在,则取权值为I。步骤3 :若在目标文本中不存在,且或也不存在,但目标文本中存在,则取权值为,其中为集合中扩展词汇搭配的数量。特点在最終进行复制检测时,充分考虑到词汇的直接复制和同义词替换情况,根据不同情况赋予不同权值。直接bigram匹配权值最高,部分匹配权值次之,若不存在直接匹配或部分匹配,则根据词汇扩展集合的大小计算其同义词替换的概率,以此作为匹配的权值。 综上所述,本专利技术实施例提供了ー种文本复制检测中的同义词扩展方法,与普通的同义词扩展不同的是,本方法不仅考虑了词汇的扩展,还在扩展的同时考虑到了词汇所处的上下文环境。以上所述,仅为本专利技术较佳的具体实施方式。但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于文本复制检测的同义词扩展方法及装置,其特征在于,包括文本预处理模块,用于过滤待检测文本中的停用词、获取待扩展词汇,并对动词、名词和形容词进行标注;初始扩展集获取模块,针对每ー个待扩展词汇,通过语义词典得到对应的初始扩展集;过滤模块,从预处理后的文本中,得到每ー个带扩展词汇的上下文关系(bigram),通过计算bigram对应词汇的初始扩展及的交集,获取其所有可能的扩展搭配。并通过文本语料库,对扩展搭配进行过滤,得到最終的扩展集;权值计算模块,对于所得到的最終扩展集,在进行文本复制检测时,根据匹配情况...

【专利技术属性】
技术研发人员:孙星明
申请(专利权)人:孙星明
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1