一种基于上下文关联的中文相似性比较方法技术

技术编号:7045009 阅读:307 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种基于上下文关联的中文相似性比较方法,应用于中文相似性比较技术领域,该方法首先将要进行比较的两篇文本的文本流进行分词和索引,为每一个文本建立倒排表,然后对倒排表进行相似性检测,得到可疑相似片段,最后对可疑相似片段进行聚合,得到相似文本块,在相似文本块的生成过程中考虑到上下文的关联。本发明专利技术方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾,实现对两篇文本的相似性比较。

【技术实现步骤摘要】

本专利技术涉及中文相似性比较
,具体是。
技术介绍
中文相似性比较技术广泛应用于抄袭检测、信息检索、机器翻译、文本挖掘、网页去重等领域,因为计算机对自然语言,尤其是中文的理解很困难,所以一直是人们研究的热点和难点。相似性比较方法的目的是判断两篇文本是否“相似”。这里所说的“相似”,应该是指语义层面的所谓的“形不似而神似”。即两篇“相似”的文章,在经过(1)语法结构改变; (2)语序调换;C3)部分词语替换;(4)加入其他内容之后,仍然能检测出其相关性。其相似度大小取决于相似片段长度、改动程度等因素。目前文本相似性比较广泛采用基于词频统计的方法,该方法基于VSM(向量空间模型),对粒度设置很敏感,粒度过小则会将大量不相关的片段判定为相似,粒度过大则会产生大量漏判。使用基于词频统计的方法的技术包括SCAM(N Shivakumar, H Garcia-Molina, SCAM A Copy Detection Mechanism for Digital Documents,1995)、 CHECK(Antonio Si Hong Va Leong Rynson W. H. Lau, CHECK :A Document Plagiarism Detection System, 1997)等。上述基于VSM的中文相似性比较方法是把一篇文本或其中的一个粒度单位作为一个向量,其中的每一个词或字作为该向量的一个维;这个词或字出现的次数即为该向量在该维度上的值。这种方法相当于把一个粒度范围内的文本完全拆散成为孤立的字或词, 而忽略了这些字或词之间的上下文关联。然而在判定两篇文本是否相似的时候,其上下文经常会提供重要的信息。现有的这些方法并没有充分利用这些上下文信息。有关VSM 的知识可以参考 N Shivakumar,H Garcia-Molina 的论文SCAM :A Copy Detection Mechanism for Digital Documents。
技术实现思路
本专利技术针对现有基于VSM的中文相似性比较方法并没有充分利用上下文信息进行比较的问题,提出了。本专利技术,具体包括以下步骤步骤1、首先将要进行比较的两篇文本的文本流进行分词,然后为每一个文本建立倒排表,具体是通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为索引值;步骤2、对倒排表进行相似性检测,得到可疑相似片段(suspicious fragment);步骤3、对可疑相似片段进行聚合,得到最终的相似文本块(Similar Chunk)及该相似文本块的相似度。所述的步骤2具体又包括步骤2. 1、首先使用倒排表对中心词进行映射若词X同时在文本S的倒排表和文本D的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到以词X作为中心词、以r作为半径,长度η = 2r+l的一对可疑相似片段;步骤2. 2、以η 个词作为一个粒度对两篇文本S和D进行相似性检测,并确定每一对可疑相似片段的相似度;步骤2. 3、确定文本S和文本D的相似值RLl^ = max (Rs,D, Rd,s); D表示文本S对文本D的相似度,Rd, s表示文本D对文本S的相似度。所述的步骤3中生成相似文本块,是针对文本S中每个核心可疑相似片段,进行下面过程寻找该核心可疑相似片段的直接密度可达集合,将生成的直接密度可达集合中的核心可疑相似片段的最小的起始位置索引号作为所要生成的相似文本块的起始位置,最大的终止位置索引号作为所要生成的相似文本块的结束位置。本专利技术的优点与积极效果在于本专利技术方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾。附图说明图1是本专利技术的中文相似性比较方法的整体步骤流程图;图2是本专利技术方法步骤二中使用倒排表对中心词进行映射的示意图;图3是一个可疑相似片段的数据结构所包含的信息。具体实施例方式下面将结合附图和实施例对本专利技术的技术方案作进一步的详细说明。本专利技术的基于上下文关联的中文相似性比较方法,如图1所示,具体包括以下步骤步骤一、读取要进行比较的文本S和文本D,将两篇文本的文本流(Text Stream) 进行分词和索引。从句子中划分出的每个有独立意义的词被称作分词。由于中文的词与词之间没有明确的边界,因此,中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。本专利技术方法采用基于二元迭代的自适应中英文分词算法(参考文献曹勇刚,曹羽中等,《面向信息检索的自适应中文分词系统》,软件学报,2006年3月)。该自适应中英文分词算法利用它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词搜索引擎的倒排索引,筛选候选词并进行歧义消解。在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度,达到了进行消歧和识别新词,为用户提供检索的中心词的目的。在分词之后,为每一个文本建立倒排表(Indexed Doc),具体是通过词汇内容建立索引,词汇本身作为索引的键,词汇在文本中的位置作为索引值。步骤二、对倒排表进行相似性检测,得到可疑相似片段。在建立索引之后,使用较小粒度进行相似性检测,得到可疑的相似片段。所述的可疑相似片段要经过进一步判定才可以确定是否属于一个相似文本块。步骤2. 1、寻找可疑相似片段的时候,首先使用倒排表对中心词进行映射,如图2所示。对于每一个可疑相似片段,设立中心词和一个半径r,则可疑相似片段长度η = 2r+l。 如图2所示在待比较的两篇文本S和文本D的倒排表中,若某一个词X同时在S的倒排表和D的倒排表中出现,则将该词X作为中心词,建立该中心词X的关系映射。经过实验,选取可疑相似片段半径r = 2,如图2所示,画斜线部分为可疑相似片段长度,该长度为5,即由步骤一产生的5个词为一个粒度进行相似性检测。步骤2. 2、以η个词作为一个粒度进行相似性检测,并确定可疑相似片段的相似度。令S表示候选文本、D表示待检测(或者查询)文本;令s表示候选片段,s e S,d表示待检测(或者查询)片段,d e D,F(s)表示片段s的词汇向量,即VSM模型中的“向量”, 该向量以所有可能的词汇作为维度,以某维度上的词汇出现在文本S中的次数作为该维度上的数值,F(d)表示片段d的词汇向量,以某维度上的词汇出现在文本D中的次数作为该维度上的数值。rsf(s,d)表示一对可疑相似片段s、d的相似度。可疑相似片段的相似度 rsf(s,d)可以使用经典的VSM算法进行计算(SCAM中的算法)权利要求1.,其特征在于,该方法具体包括如下步骤步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词,然后为每一个文本建立倒排表,具体是通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为索引值;步骤2、对倒排表进行相似性检测,得到可疑相似片段,具体是步骤2. 1、首先使用倒排表对中心词进行映射若词X同时在文本S的倒排表和文本D 的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到以词X作为中心词、以r作为半径,长度η = 2r+l的一对可疑相似片段;步骤2. 2、以η个词作为一个粒度对两篇文本S和D进行相似性检测,本文档来自技高网
...

【技术保护点】
1.一种基于上下文关联的中文相似性比较方法,其特征在于,该方法具体包括如下步骤:步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词,然后为每一个文本建立倒排表,具体是:通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为索引值;步骤2、对倒排表进行相似性检测,得到可疑相似片段,具体是:步骤2.1、首先使用倒排表对中心词进行映射:若词X同时在文本S的倒排表和文本D的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到以词X作为中心词、以r作为半径,长度n=2r+1的一对可疑相似片段;步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测,并确定每一对可疑相似片段的相似度;步骤2.3、确定文本S和文本D的相似值RS,D表示文本S对文本D的相似度,RD,S表示文本D对文本S的相似度;步骤3、对可疑相似片段进行聚合,生成相似文本块。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵长海晏海华郎钰泽
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1