The invention provides an analysis device and analysis method, and does not use the layout attribute information of the file or the additional input of the word dictionary, and classifies a large number of files according to each style. The analysis device has the processor with the execution program and the storage device that stores the file group of the above program and the form of the spreadsheet. The processor is characterized by comprising the steps of: obtaining access file groups from memory; common string between cells through the acquisition and processing the file group files, each file contained in the string and cell location based on the file set file in the classification of common style more than one common style group; and the output of processing the classification process based on the.
【技术实现步骤摘要】
分析装置和分析方法
本专利技术涉及一种用于分析信息的分析装置和分析方法。
技术介绍
在系统开发中,制作了描述系统要求的规范书和描述系统构成要素的设计信息的设计书等的文件。系统开发文件以将大量的规范和设计项目列举在表中为目的,以使用电子表计算软件等的电子表格格式创建。为了进行系统开发文件的质量检查、充分利用系统开发文件中记载的信息的程序自动生成等的机械化处理,有一种方式是将电子表格格式的系统开发文件的记载内容转换为结构化的信息,用数据库统一管理的方式。专利文献1公开了一种文件转换装置,其基于按每种文件的样式准备的样式定义信息,将样式不同的多个文件转换为结构化的信息。专利文献2公开了一种使用格式化文件的内容的特征和体裁的特征按每个样式将系统开发文件分类的信息分类方式。专利文献3公开了一种报表识别装置,其使用预先准备的项目名称和项目值的字词典机械地识别各种样式的报表中记载的项目信息。现有技术文献专利文献专利文献1:日本特开2013-257852号公报专利文献2:日本特开2000-268040号公报专利文献3:日本特开2011-248609号公报
技术实现思路
专利技术要解决的课题专利文献1的文件转换装置基于按每种样式预先准备的样式定义信息执行文件转换,但是专利文献1没有公开样式定义信息的准备部件。因此,当管理对象的系统开发文件的数量和种类巨大的情况下,通过人工进行样式定义信息的制作需要大量的工时。此外,专利文献2的信息分类方法不适用于以CSV(逗号分隔值)格式为主的不具有格式和格线的布局属性信息的电子表格格式文件的分类。具体地说,例如专利文献2中公开了“在提取内容的 ...
【技术保护点】
一种分析装置,其包括:执行程序的处理器;和存储所述程序和电子表格格式的文件组的存储器件,所述分析装置的特征在于:所述处理器执行以下的处理:从所述存储器件获取所述文件组的获取处理;分类处理,基于通过所述获取处理所获取的文件组中的文件之间的、包含于各文件的单元格中的字符串和包含所述字符串的单元格的位置的共同性,将所述文件组中的文件分类为样式共同的一个以上的共同样式组;和输出所述分类处理的分类结果的输出处理。
【技术特征摘要】
2016.09.02 JP 2016-1719351.一种分析装置,其包括:执行程序的处理器;和存储所述程序和电子表格格式的文件组的存储器件,所述分析装置的特征在于:所述处理器执行以下的处理:从所述存储器件获取所述文件组的获取处理;分类处理,基于通过所述获取处理所获取的文件组中的文件之间的、包含于各文件的单元格中的字符串和包含所述字符串的单元格的位置的共同性,将所述文件组中的文件分类为样式共同的一个以上的共同样式组;和输出所述分类处理的分类结果的输出处理。2.根据权利要求1所述的分析装置,其特征在于:在所述分类处理中,所述处理器将所述文件组中的文件分类为各所述文件中的单元格组中、作为包含所述字符串的单元格的非空单元格和不包含所述字符串的空单元格的配置相同或相似的一个以上的相似配置组,并且,基于包含在属于所述相似配置组的文件组之间的各文件中的所述非空单元格中的字符串和所述非空单元格的位置的共同性,将属于所述相似配置组的文件组分类为所述一个以上的共同样式组。3.根据权利要求1所述的分析装置,其特征在于:所述处理器执行确定处理,其基于属于所述共同样式组的文件组中的两个以上文件之间的、包含所述字符串的单元格的位置和所述字符串为共同这一共同性,来确定所述字符串表示项目名称的项目名称单元格,在所述输出处理中,所述处理器输出表示属于所述共同样式组的文件组中通过所述确定处理所确定的项目名称单元格的信息。4.根据权利要求3所述的分析装置,其特征在于:在所述输出处理中,所述处理器控制显示画面来重叠显示所述文件和表示所述项目名称单元格的信息。5.根据权利要求3所述的分析装置,其特征在于:在所述确定处理中,所述处理器基于属于所述共同样式组的文件组中的两个以上文件之间的、包含所述字符串的单元格的位置是共同的、但所述字符串不同这一所述字符串的可变性,确定所述字符串表示所述项目的值的项目值单元格,在所述输出处理中,所述处理器输出表示属于所述共同样式组的文件组中通过所述确定处理所确定的项目值单元格的信息。6.根据权利要求5所述的分析装置,其特征在于:在所述确定处理中,所述处理器使用作为特定的项目名...
【专利技术属性】
技术研发人员:土屋良介,野尻周平,河合克己,山田仁志夫,神祐介,高井康势,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。