文档相似性评价系统、文档相似性评价方法以及计算机程序技术方案

技术编号:8959440 阅读:165 留言:0更新日期:2013-07-25 18:59
一种能够评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统或类似系统,包括:片段搜索单元,在第一片段串和第二片段串二者中寻找公共片段,对找到的公共片段的个数进行计数,并识别出现所述公共片段的出现范围;以及相似性指数计算单元,执行:计算第一和,即片段搜索单元识别出的出现范围中包括的每个片段的字符个数和;计算第二和,即是被识别为公共片段的每个片段的字符个数和;并且使用以下等式计算对第一片段串与第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC)/G(NCC)×NS(其中,NTC是第一和,NCC是第二和,NS是公共片段的个数,函数F和函数G是将特定整数值与正实数值相关联的单调增函数)。

【技术实现步骤摘要】
文档相似性评价系统、文档相似性评价方法以及计算机程序本申请基于并要求2012年1月19日递交的日本专利申请No.2012-008691的优先权权益,其全部公开内容通过引用合并于此。
本专利技术涉及评价文档之间相似性的信息处理

技术介绍
评价不同文档之间相似性的方法广泛用于评价科学论文之间的相似性或者检测公司文档之间的相似性。专利文档1至3公开了文档相似性确定系统。在专利文档1至2中公开的文档相似性确定系统中,首先针对每一页分离整个文档,或者在出现特定字符串的每个位置处分割整个文档(在下文中,一个分离出(或分割出)的单元被称作“片段”),并且针对每个片段计算特性值。按照文档中从第一个片段到最后一个片段的顺序,通过比较片段的特性值,基于特性值彼此相同的片段的个数来确定不同文档之间的相似性。作为确定的结果,当特性值彼此相同的片段的个数较多时,文档之间的相似性较高,相反,当特性值彼此相同的片段的个数较少时,文档之间的相似性较低。在专利文档3中公开的文档相似性确定系统中,从句子中分离文档中存在的图和等式,针对分离出的图和等式的布置来定义密集程度,并且将密集程度用作确定相似性的指数。[专利文档][专利文档1]日本专利申请特开No.2008-257444[专利文档2]日本专利申请特开No.2010-256951[专利文档3]国际公开No.WO2009/048149[本专利技术的简要概述][本专利技术要解决的问题]上述专利文档中描述的文档相似性确定系统可以评价整个文档之间的相似性。然而,这些文档相似性确定系统不能评价具有高相似性的部分是集中在特定段落中还是分散在整个文档中。
技术实现思路
考虑到上述问题提出本专利技术。本专利技术的主要目的是提供一种针对至少两类文档之间的相似性确定具有高相似性的部分的文档相似性评价系统或类似系统。为了实现上述目的,根据本专利技术的文档相似性评价系统的特征在于具有以下配置。即,根据本专利技术的文档相似性评价系统的特征在于包括:片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及相似性指数计算单元,所述相似性指数计算单元:计算第一和,所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC)/G(NCC)×NS,(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。)作为本专利技术的另一方面,根据本专利技术的文档相似性评价方法的特征在于包括:在第一片段串和第二片段串二者中寻找公共片段;对找到的所述公共片段的个数进行计数;识别出现所述公共片段的出现范围;计算第一和,所述第一和是所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;并且使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC)/G(NCC)×NS,(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。)此外,该目的还可以通过使用计算机程序以及存储了所述计算机程序的计算机可读存储介质来实现,所述计算机程序使计算机实现具有上述配置的文档相似性评价系统和对应方法。通过使用本专利技术,可以针对至少两类文档之间的相似性来确定具有高相似性的部分。附图说明结合附图,通过以下详细描述,本专利技术的示例性特征和优点将变得显而易见,在附图中:图1是示出了根据本专利技术第一示例性实施例的文档相似性评价系统的配置的框图,图2是示出了根据本专利技术第一示例性实施例的文档相似性评价系统中执行的处理步骤的流程图,图3是示意性示出了可以实现根据示例性实施例的文档相似性评价系统的计算机处理装置的硬件配置的图,图4是示出了用于说明根据本专利技术第一示例性实施例的文档相似性评价系统中执行的处理步骤的示例的图,以及图5是示出了字符个数表的示例的图,在字符个数表中,片段与片段中包括的字符个数相关联。具体实施方式接着,参照附图详细描述本专利技术的示例性实施例。在以下说明中,片段是例如通过针对每一页分离整个文档或者在出现特定字符串的每个位置处分割整个文档或者通过以特定长度分割整个文档而获得的一个分离出或分割出的单元。特性值是通过将诸如散列值、CRC(循环冗余校验)值、和校验值等特定字符串转换成数字值而获得的值。已知并广泛使用用于将文档分离成片段的方法以及用于计算特性值的各种方法。因此,在本示例性实施例中省略了对这些方法的说明。将文档分离成片段的方法和用于计算特性值的方法不限于本示例性实施例中作为示例描述的方法。<第一示例性实施例>图1是示出了根据本专利技术第一示例性实施例的文档相似性评价系统的配置的框图。参照图1,根据示例性实施例的文档相似性评价系统101包括片段搜索单元102和相似性指数计算单元103。以下描述计算文档A与文档B之间的相似性的情况。片段搜索单元102接收串1(在下文中,被称作“片段串1”)和串2(在下文中,被称作“片段串2”)作为输入,串1表示与文档A有关的片段的特性值序列,串2表示与文档B有关的片段的特性值序列。片段搜索单元102按照作为评价目标的文档中从第一个片段到最后一个片段或者从最后一个片段到第一片段的顺序,通过执行片段串1与片段串2之间的比较来在片段串1和片段串2二者中寻找公共片段。接着,片段搜索单元102对找到的公共片段的个数进行计数(下文中,描述为NS),并且识别片段串2中公共片段的第一个位置和公共片段的最后一个位置(下文中,包括了在第一个位置与最后一个位置之间存在的所有片段在内的范围被称作“出现范围”)。接着,相似性指数计算单元103接收作为输入接收到的片段串2、上述出现范围以及输入的字符个数表(字符个数信息)。在作为字符个数信息的字符个数表中,将存在于片段串1或片段串2中的片段与在相应片段中存在的字符的个数相关联,并且至少存储这些信息(图5)。例如,在图5中示出的字符个数表中,由于句子A1包括12个字符,因此“A1”与“12”相关联,并且存储该信息。相似性指数计算单元103针对片段搜索单元102识别出的出现范围中包括的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算字符个数和(下文中,描述为“NCC”)。此外,相似性指数计算单元103针对作为识别为公共片段的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算字符个数和(下文中,描述为“NTC”)。接着,相似性指数计算单元103使用以下等式计算相似性指数。相似性指数=F(NTC)/G(NCC)×NS(等式1)这里,函数F和函数G是将特定整数值与正实数值相关联的单调增函数。在说明上述文档相似性评价系统的配置时,根据示例性实施例的文档相似性评价系统针对片段串2识别出现范围。但是,根据该示例性实施例的文档相似性评本文档来自技高网
...
文档相似性评价系统、文档相似性评价方法以及计算机程序

【技术保护点】
一种文档相似性评价系统,包括:片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及相似性指数计算单元,所述相似性指数计算单元:计算第一和,所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC)/G(NCC)×NS,其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。

【技术特征摘要】
2012.01.19 JP 2012-0086911.一种文档相似性评价系统,包括:片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及相似性指数计算单元,所述相似性指数计算单元:计算第一和,所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC)/G(NCC)×NS,其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。2.根据权利要求1所述的文档相似性评价系统,其中,所述相似性指数计算单元基于字符个数信息来计算所述第一和以及所述第二和,在所述字符个数信息中,所述出现范围中包括的每个片段与所述每个片段中包括的字符个数相关联。3.根据权利要求1所述的文档相似性评价系统,其中,所述相似性指数计算单元使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的所述相似性指数:相似性指数=H(NTC/NCC)×NS,其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数H是将特定整数值与正实数值相关联的单调增函数。4.根据权利要求1所述的文档相似性评价系统,其中,...

【专利技术属性】
技术研发人员:周文琦
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1