信息处理装置和信息处理方法制造方法及图纸

技术编号:15030621 阅读:54 留言:0更新日期:2017-04-05 08:06
本发明专利技术公开了一种信息处理装置和信息处理方法,所述信息处理装置具备获取单元、提取单元、以及选择单元。所述获取单元针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项。所述提取单元从由所述获取单元获取的所述候选项中提取为所述多个文件中的两个或更多个所共有的共同元素。所述选择单元从所述多个文件中提取包括这些共同元素中的两个或更多个共同元素的文件,并且将所提取文件中所包含的所述两个或更多个共同元素确定为表示所述文件的特性的元素。

【技术实现步骤摘要】

本专利技术涉及一种信息处理装置和信息处理方法
技术介绍
日本专利文献特开2003-115028号公报中描述的文件处理系统从文件图像提取字符串,针对每个所提取的字符串根据关于该字符串的位置信息和该字符串的出现频率来计算字符串的稳定程度,针对每个字符串根据相同区域中出现该字符串的文件类型的数量来计算该字符串的独特程度,并且根据所述稳定程度和独特程度来计算这些字符串在文件标识字典中登记的优先级。
技术实现思路
为了提高文件的处理效率,转换成数字形式可能是有效的方法。例如,将表示多种类型的文件的特性的元素预先登记在计算机中。使用扫描器来读取文件,并且生成其图像。将所生成的图像中包含的元素进行提取。所读取文件的类型是通过将所提取的元素与预先登记的元素进行比较来确定的。然而,有这样一种趋势,即文件的类型的数量越大,格式彼此相似的文件就越多。对于格式彼此相似的文件,表示文件的特性的元素通常彼此相似。当将与其他文件的元素相似的元素以这种方式登记为文件的元素时,这可能导致错误的文件类型确定(文件的类型被确定为非真实的类型)。当发生错误确定时,需要执行复杂的操作以纠正确定结果,而这是低效率的。因此,本专利技术的目的是减少由于多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。根据本专利技术的第一方面,提供了一种信息处理装置,该信息处理装置具备获取单元、提取单元、以及选择单元。获取单元针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项。提取单元从由获取单元获取的候选项中提取为多个文件中的两个或更多个所共有的共同元素。选择单元从多个文件中提取包括这些共同元素<br>中的两个或更多个共同元素的文件,并且将所提取文件中所包含的两个或更多个共同元素确定为表示文件的特性的元素。根据本专利技术的第二方面,根据第一方面的信息处理装置还具备第一获取单元、添加单元、第二获取单元、以及第一提取单元。第一提取单元针对多个文件中的每一个提取通过读取文件而生成的第一图像中所包含的第一组元素。添加单元通过将彼此不同的噪声添加到第一图像来生成多个第二图像。第二获取单元获取多个第二图像的每一个中所包含的第二组元素。第一提取单元根据第一组元素中所包含的元素与第二组元素中所包含的元素之间的相似程度来从第一组元素中提取表示文件的特性的元素的候选项。获取单元获取由第一提取单元提取的候选项。根据本专利技术的第三方面,在根据第二方面的信息处理装置中,提取单元从由获取单元获取的候选项中提取不为多个文件中的两个或更多个所共有的独特元素;并且在当第一提取单元将独特元素作为候选项中的一个候选项来提取时所获得的相似程度不满足预定条件的情况下,选择单元将独特元素和两个或更多个共同元素确定为表示文件的特性的元素。根据本专利技术的第四方面,在根据第二方面的信息处理装置中,从第一组元素中所包含的元素中,第一提取单元不将与不满足预定条件的相似程度相对应的元素提取为表示文件的特性的元素的候选项。根据本专利技术的第五方面,在根据第一方面的信息处理装置中,提取单元从由获取单元获取的候选项中提取不为多个文件中的两个或更多个所共有的独特元素;并且选择单元将独特元素确定为表示包含独特元素的文件的特性的元素。根据本专利技术的第六方面,提供了一种信息处理装置,该信息处理装置具备获取单元、提取单元、分配单元、以及选择单元。获取单元针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项。提取单元从候选项中提取不为多个文件中的两个或更多个所共有的独特元素和为多个文件中的两个或更多个所共有的共同元素。分配单元针对多个文件中的每一个给文件中所包含的独特元素之中的独特元素和共同元素之中的共同元素分配优先级。选择单元针对多个文件中的每一个根据由分配单元分配的优先级将独特元素和共同元素中的至少一个确定为表示文件的特性的元素。根据本专利技术的第七方面,在根据第六方面的信息处理装置中,分配单元给独特元素比给共同元素分配更高的优先级,并且选择单元仅将独特元素确定为表示文件的特性的元素。根据本专利技术的第八方面,在根据第六方面的信息处理装置中,多个文件中的共同元素的出现频率越低,分配单元分配给共同元素的优先级就越高,并且选择单元将独特元素和根据由分配单元分配的优先级选择出的共同元素确定为表示文件的特性的元素。根据本专利技术的第九方面,根据第六至第八方面中任一个的信息处理装置还具备确定单元和权重分配单元。确定单元通过将从文件读取的元素与经选择单元确定的元素进行比较来确定文件的类型。权重分配单元分配权重以使得元素的由分配单元分配的优先级越高,权重分配单元分配给元素的用于由确定单元执行的确定的权重就越大。根据本专利技术的第十方面,提供了一种信息处理方法,该信息处理方法包括针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项、从在获取过程中获取的候选项中提取为多个文件中的两个或更多个所共有的共同元素、从多个文件中提取包含共同元素之中的两个或更多个共同元素的文件,并且将提取文件中所包含的两个或更多个共同元素确定为表示文件的特性的元素。根据本专利技术的第十一方面,提供了一种信息处理方法,该信息处理方法包括针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项、从候选项中提取不为多个文件中的两个或更多个所共有的独特元素和为多个文件中的两个或更多个所共有的共同元素、针对多个文件中的每一个给文件中所包含的独特元素之中的独特元素和共同元素之中的共同元素分配优先级、并且针对多个文件中的每一个根据在分配过程中分配的优先级将独特元素和共同元素中的至少一个确定为表示文件的特性的元素。根据本专利技术的第一和第十方面,相比于不存在用于将两个或更多个共同元素确定为表示文件的特性的元素的配置的情况,可以减少由于多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。根据本专利技术的第二方面,相比于不存在用于使用通过将彼此不同的噪声添加到第一图像而获得的多个第二图像来提取表示文件的元素的配置的情况,可以减少由于通过读取文件而生成的图像中所包含的噪声而造成的错误的文件类型确定的次数。根据本专利技术的第三方面,在独特元素的噪声耐性不充足的情况下,可以补偿耐性的不足。根据本专利技术的第四方面,具有不充足噪声耐性的元素可以不用作表示文件的特性的元素。根据本专利技术的第五方面,在文件包括独特元素的情况下,独特元素可以用作表示文件的特性的元素。根据本专利技术的第六和第十一方面,相比于不存在用于根据确定文件的类型的优先级来确定表示文件的特性的元素的配置的情况,可以减少由于多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。根据本专利技术的第七方面,在文件包括独特元素的情况下,独特元素可以用作表示文件的特性的元素。根据本专利技术的第八方面,相比于不存在用于给具有较低出现频率的共同元素分配较高的优先级的配置的情况,可以减少错误的文件类型确定的次数。根据本专利技术的第九方面,相比于不存在用于给具有较高优先级的元素分配较大的权重的配置的情况,可以提高文件类型确定的准确度。附图说明将基于以下附图详细地描述本专利技术的示例性实施方式,其中:图1是示出根据示例性实施方式的整个系统的图表;图2是示出信息处理装置的硬件配置的图表;图3是示出文件的示例的图表;图4是示出信息处理装置的功能的框本文档来自技高网...

【技术保护点】
一种信息处理装置,其特征在于,具备:获取单元,所述获取单元针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项;提取单元,所述提取单元从由所述获取单元获取的所述候选项中提取为所述多个文件中的两个或更多个所共有的共同元素;以及选择单元,所述选择单元从所述多个文件中提取包括这些共同元素中的两个或更多个共同元素的文件,并且将所提取文件中所包含的所述两个或更多个共同元素确定为表示所述文件的特性的元素。

【技术特征摘要】
2015.09.30 JP 2015-192960;2015.10.23 JP 2015-208921.一种信息处理装置,其特征在于,具备:获取单元,所述获取单元针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项;提取单元,所述提取单元从由所述获取单元获取的所述候选项中提取为所述多个文件中的两个或更多个所共有的共同元素;以及选择单元,所述选择单元从所述多个文件中提取包括这些共同元素中的两个或更多个共同元素的文件,并且将所提取文件中所包含的所述两个或更多个共同元素确定为表示所述文件的特性的元素。2.根据权利要求1所述的信息处理装置,还具备:第一获取单元,所述第一获取单元针对所述多个文件中的每一个获取通过读取所述文件而生成的第一图像中所包含的第一组元素;添加单元,所述添加单元通过将彼此不同的噪声添加到所述第一图像来生成多个第二图像;第二获取单元,所述第二获取单元获取所述多个第二图像的每一个中所包含的第二组元素;以及第一提取单元,所述第一提取单元根据所述第一组元素中所包含的元素与所述第二组元素中所包含的元素之间的相似程度来从所述第一组元素中提取用于表示所述文件的特性的元素的候选项,其中,所述获取单元获取由所述第一提取单元提取的候选项。3.根据权利要求2所述的信息处理装置,其中,所述提取单元从由所述获取单元获取的所述候选项中提取不为所述多个文件中的两个或更多个所共有的独特元素;并且在当所述第一提取单元将所述独特元素作为所述候选项中的一个候选项来提取时所获得的相似程度不满足预定条件的情况下,所述选择单元将所述独特元素和所述两个或更多个共同元素确定为表示所述文件的特性的元素。4.根据权利要求2所述的信息处理装置,其中,从所述第一组元素中所包含的元素中,所述第一提取单元不将与不满足预定条件
\t的相似程度相对应的元素提取为表示所述文件的特性的元素的候选项。5.根据权利要求1所述的信息处理装置,其中,所述提取单元从由所述获取单元获取的所述候选项中提取不为所述多个文件中的两个或更多个所共有的独特元素;并且所述选择单元将所述独特元素确定为表示包含所述独特元素的文件的特性的元素。6.一种信息处理装置,其特征在于,具备:获取单元,所述获取单元针对多个文件获取用于表示所述多个文件中的每...

【专利技术属性】
技术研发人员:重枝信之鹿岛洋三
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1