分析装置和分析方法制造方法及图纸

技术编号:17467224 阅读:36 留言:0更新日期:2018-03-15 04:50
本发明专利技术提供一种分析装置和分析方法,不使用文件的布局属性信息或字词典的附加输入,按每个样式将各种大量的文件进行分类。分析装置具有执行程序的处理器和存储上述程序和电子表格格式的文件组的存储器件。处理器的特征在于,包括:从存储器件获取文件组的获取处理;基于通过上述获取处理所获取的文件组中的文件之间的、包含于各文件的单元格中的字符串和包含字符串的单元格的位置的共同性,将文件组中的文件分类为样式共同的一个以上的共同样式组;和输出基于分类处理的分类结果的输出处理。

Analysis device and analysis method

The invention provides an analysis device and analysis method, and does not use the layout attribute information of the file or the additional input of the word dictionary, and classifies a large number of files according to each style. The analysis device has the processor with the execution program and the storage device that stores the file group of the above program and the form of the spreadsheet. The processor is characterized by comprising the steps of: obtaining access file groups from memory; common string between cells through the acquisition and processing the file group files, each file contained in the string and cell location based on the file set file in the classification of common style more than one common style group; and the output of processing the classification process based on the.

【技术实现步骤摘要】
分析装置和分析方法
本专利技术涉及一种用于分析信息的分析装置和分析方法。
技术介绍
在系统开发中,制作了描述系统要求的规范书和描述系统构成要素的设计信息的设计书等的文件。系统开发文件以将大量的规范和设计项目列举在表中为目的,以使用电子表计算软件等的电子表格格式创建。为了进行系统开发文件的质量检查、充分利用系统开发文件中记载的信息的程序自动生成等的机械化处理,有一种方式是将电子表格格式的系统开发文件的记载内容转换为结构化的信息,用数据库统一管理的方式。专利文献1公开了一种文件转换装置,其基于按每种文件的样式准备的样式定义信息,将样式不同的多个文件转换为结构化的信息。专利文献2公开了一种使用格式化文件的内容的特征和体裁的特征按每个样式将系统开发文件分类的信息分类方式。专利文献3公开了一种报表识别装置,其使用预先准备的项目名称和项目值的字词典机械地识别各种样式的报表中记载的项目信息。现有技术文献专利文献专利文献1:日本特开2013-257852号公报专利文献2:日本特开2000-268040号公报专利文献3:日本特开2011-248609号公报
技术实现思路
专利技术要解决的课题专利文献1的文件转换装置基于按每种样式预先准备的样式定义信息执行文件转换,但是专利文献1没有公开样式定义信息的准备部件。因此,当管理对象的系统开发文件的数量和种类巨大的情况下,通过人工进行样式定义信息的制作需要大量的工时。此外,专利文献2的信息分类方法不适用于以CSV(逗号分隔值)格式为主的不具有格式和格线的布局属性信息的电子表格格式文件的分类。具体地说,例如专利文献2中公开了“在提取内容的特征时,例如,使用上述TF/IDF法等从文本文件中出现的词汇的类型以及发生频率生成赋予权重的词汇的频率向量,将其作为上述类别的内容的特征。另一方面,在提取体裁的特征时,例如使用求取上述页面中的属性区域的位置的重叠的方法来生成页面中的共同属性区域信息,并将其作为上述类别的体裁的特征”。此外,在系统开发中,系统的输入设定文件、批量输出的报表文件、应用程序的日志文件等文件,作为不具有布局属性信息的电子表格格式文件被创建或输出。因此,在专利文献2的信息分类方式中,不能在不具有布局属性信息的文件中提取体裁的特征,并且不能对于文件中出现的词汇相似但样式不同的文件进行区别。此外,专利文献3的报表识别装置在文件的数量和类型非常大的情况下,与样式定义信息同样地需要大量的工时来通过人工创建字词典。本专利技术鉴于上述情况而完成,本专利技术的目的在于不使用文件的布局属性信息或字词典等的附加输入,按每个样式将各种大量的系统开发文件进行分类,机械地生成各样式的样式定义信息。解决问题的技术手段在本专利技术中公开的专利技术的一个方面的分析装置和分析方法的特征在于,执行以下的处理:获取文件组的获取处理;分类处理,基于通过所述获取处理所获取的文件组中的文件之间的、包含于各文件中的单元格中的字符串和包含所述字符串的单元格的位置的共同性,将所述文件组中的文件分类为样式共同的一个以上的共同样式组;和输出所述分类处理的分类结果的输出处理。专利技术效果根据本专利技术的代表性的实施方式,能够不使用文件的布局属性信息或字词典等的附加输入,按每个样式将各种大量的文件进行分类。除了上述以外的课题、结构和效果通过以下的实施例的说明可以明确。附图说明图1是表示样式分析例的说明图。图2是表示分析装置的硬件结构例的框图。图3是表示文件的一例的说明图。图4是表示样式定义信息的一例的说明图。图5是表示分析装置的功能性结构例的框图。图6是表示单元格配置特征量的生成例的说明图。图7是表示共同样式组的生成例的说明图。图8是表示单元格的共同性和可变性的分析例的说明图。图9是表示伪项目名称单元格的特定例的说明图。图10是表示样式判定条件要素候选的一例的说明图。图11是表示样式判定条件的特定例的说明图。图12是表示样式定义信息的确认和修正的一例的说明图。图13是表示基于分析装置的分析处理流程例的流程图。图14是表示图13所示的文件分类处理(步骤S1302)的详细处理流程例的流程图。图15是表示图13所示的单元格确定处理(步骤S1304)的详细处理流程例的流程图。图16是表示图13所示的条件确定处理(步骤S1306)的详细处理流程例的流程图。具体实施方式<样式分析示例>如上所述,本例中成为对象的文件例如是具有布局属性信息的电子表格格式文件,例如系统的输入设定文件、批量输出的报表文件和应用程序日志文件,除此之外,还包括以CSV格式为主的不具有格式或格线的布局属性信息的电子表格格式文件。图1是表示样式分析例的说明图。分析装置将文件组ds分类为文件d中的单元格的配置相似的组(相似单元格配置分类)。具体而言,例如,分析装置基于文件d的单元格中的值的存在/不存在来抽取文件d,求得单元格配置特征量。例如,分析装置生成向非空单元格分配“1”、且向空单元格分配“0”的向量(非空单元格矩阵M)”。此外,分析装置对于由数字表示的行号,生成向该行的单元格非空时分配“1”、空时分配“0”的向量(非空单元格行向量L)。相似地,对于由大写字母表示的列号,分析装置生成向向该列的单元格非空时分配“1”、空时分配“0”的向量(非空单元格列向量C)”。单元格配置特征量是包括非空单元格矩阵、非空单元格行向量和非空单元格列向量的特征量。然后,分析装置基于非空单元格矩阵、非空单元格行向量和非空单元格列向量的相似性来聚类文件组ds,并将文件组ds分类为相似配置组A,B,...,Z。由此,能够将单元格配置相似的文件分组。另外,通过按单元格中的值的存在/不存在来将文件进行向量化,关于以CSV格式为主的不具有格式和格线的布局属性信息的电子表格格式文件也进行分类。接下来,分析装置将按相似单元格配置分类进行了分类的相似配置组A,B,...,Z中的文件d分类为样式共同的组(共同样式组)(共同样式分类)。具体而言,例如,分析装置在相似配置组A,B,...,Z中的文件d中确定具有相同位置和相同值的单元格(共同单元格)。更具体而言,例如,文件d1至d4是属于组A的文件组ds。分析装置将文件d1和d2的行1列A中的单元格(画面名称)确定为共同单元格。分析装置将文件d3和d4的行1列A的单元格(任务名称)确定为共同单元格。分析装置将文件d1至d4的行3列A中的单元格(项号)确定为共同单元格。分析装置将文件d1和d2的行3列B的单元格(项目名称)确定为共同单元格。分析装置将文件d3和d4的行3列B的单元格(画面名称)确定为共同单元格。换句话说,文件d1和d2被分类为以行1列A的单元格(画面名称)、行3列A的单元格(项号)和行3列B的单元格(项目名称)为共同单元格的共同样式组A1。将文件d3和d4分类为以行1列A的单元格(任务名称)、行3列A的单元格(项号)和行3列B的单元格(画面名称)为共同单元格的共同样式组A2。以这种方式,能够根据文件d中的样式的共同性来进一步将单元格的配置相似的文件d分组。而且,由此能够不使用单元格中的字符串的字词典而对文件进行分类。<分析装置的硬件结构例>图2是表示分析装置的硬件结构例的框图。分析装置200包括处理器201、存储器件2本文档来自技高网...
分析装置和分析方法

【技术保护点】
一种分析装置,其包括:执行程序的处理器;和存储所述程序和电子表格格式的文件组的存储器件,所述分析装置的特征在于:所述处理器执行以下的处理:从所述存储器件获取所述文件组的获取处理;分类处理,基于通过所述获取处理所获取的文件组中的文件之间的、包含于各文件的单元格中的字符串和包含所述字符串的单元格的位置的共同性,将所述文件组中的文件分类为样式共同的一个以上的共同样式组;和输出所述分类处理的分类结果的输出处理。

【技术特征摘要】
2016.09.02 JP 2016-1719351.一种分析装置,其包括:执行程序的处理器;和存储所述程序和电子表格格式的文件组的存储器件,所述分析装置的特征在于:所述处理器执行以下的处理:从所述存储器件获取所述文件组的获取处理;分类处理,基于通过所述获取处理所获取的文件组中的文件之间的、包含于各文件的单元格中的字符串和包含所述字符串的单元格的位置的共同性,将所述文件组中的文件分类为样式共同的一个以上的共同样式组;和输出所述分类处理的分类结果的输出处理。2.根据权利要求1所述的分析装置,其特征在于:在所述分类处理中,所述处理器将所述文件组中的文件分类为各所述文件中的单元格组中、作为包含所述字符串的单元格的非空单元格和不包含所述字符串的空单元格的配置相同或相似的一个以上的相似配置组,并且,基于包含在属于所述相似配置组的文件组之间的各文件中的所述非空单元格中的字符串和所述非空单元格的位置的共同性,将属于所述相似配置组的文件组分类为所述一个以上的共同样式组。3.根据权利要求1所述的分析装置,其特征在于:所述处理器执行确定处理,其基于属于所述共同样式组的文件组中的两个以上文件之间的、包含所述字符串的单元格的位置和所述字符串为共同这一共同性,来确定所述字符串表示项目名称的项目名称单元格,在所述输出处理中,所述处理器输出表示属于所述共同样式组的文件组中通过所述确定处理所确定的项目名称单元格的信息。4.根据权利要求3所述的分析装置,其特征在于:在所述输出处理中,所述处理器控制显示画面来重叠显示所述文件和表示所述项目名称单元格的信息。5.根据权利要求3所述的分析装置,其特征在于:在所述确定处理中,所述处理器基于属于所述共同样式组的文件组中的两个以上文件之间的、包含所述字符串的单元格的位置是共同的、但所述字符串不同这一所述字符串的可变性,确定所述字符串表示所述项目的值的项目值单元格,在所述输出处理中,所述处理器输出表示属于所述共同样式组的文件组中通过所述确定处理所确定的项目值单元格的信息。6.根据权利要求5所述的分析装置,其特征在于:在所述确定处理中,所述处理器使用作为特定的项目名...

【专利技术属性】
技术研发人员:土屋良介野尻周平河合克己山田仁志夫神祐介高井康势
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1