当前位置: 首页 > 专利查询>株式会社IPB专利>正文

信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成制造方法及图纸

技术编号:2828747 阅读:192 留言:0更新日期:2012-04-11 18:40
提供一种可将调查对象文件的信息相对成为比较对象的文件进行解析并自动生成报告书的信息解析报告书自动生成装置。信息解析报告书自动生成装置100的构成包括处理装置1、输入装置2、记录装置3、以及输出装置4。在生成信息解析报告书时,指定并输入调查对象文件和比较对象文件,输入进行信息解析的条件,从比较对象文件中选出由和调查对象文件类似的文件群所构成的母集团文件,提取调查对象文件相对母集团文件的具有特征的索引词,基于母集团文件和索引词,生成表示调查对象文件的特征的信息解析报告书,并且,将所生成的信息解析报告书输出给显示单元、记录单元或通信单元。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及文件的解析装置,尤其涉及解析调查对象文件或文件 群并表示其特征的信息解析报告书自动生成装置、信息解析报告书自 动生成程序以及信息解析报告书自动生成方法。
技术介绍
以专利文件为首、技术文件或其他文件的量年年确实地增加。近 年,自从电子化文件数据进行流通以来,从大量的文件当中仅自动检 索与调查对象的文件类似的文件的系统被实用化。但即便如此,检索 结果中类似文件的量还是很大,为了了解调查对象的文件内容或属性, 熟练者不得不读入检索结果中的类似文件。例如,在专利文献1的[类似文件检索装置以及类似文件检索方 法中,比较包含在调查对象的文件或者文件群中的索引词和包含在比 较对象的文件群中的索引词,根据类似的索引词的种类或者出现次数等计算出相似性,从相似性最高的文件开始依次输出。图34是专利文 献l所示装置的整体结构图。以往,由控制装置601中的相似性计算 系统对从输入装置602输入的调查对象文件、按某一提取条件与外部 辅助存储装置603的数据库的文件群相比较,并进行相似性计算的处 理,由输出装置604输出,熟练的评价者基于输出的文件一览的结果、 读入相似性高的文件内容,作为调查对象文件的评价。评价者为了了 解相似性高的文件内容,不得不读入这些数件乃至数千件左右的文件。专利文献1:日本专利特开平11-73415号公报但是,与上述专利文献l同样的类似文件自动检索系统产生这样 的问题从比较对象文件群中将与调查对象文件类似的文件一览作为 检索结果而输出,评价者从与调查对象文件类似的该文件一览中提取 相似性高的、从数件到数千件左右的文件并读入,找到与调查对象的 文件类似的文件,进一步读入并评价,以这些为基准对调查对象文件 的属性进行定位,所以,评价者如果不提取数件至数千件左右的文件 并读入,就不能找到准确地表示调查对象文件属性的表现。
技术实现思路
因此,本专利技术的目的在于,A们完全不需要读取调查对象文件及 庞大的比较对象文件的内容,自动生成能够准确地报告该调查对象的 文件信息的信息解析报告书。为解决上述课题,本专利技术的信息解析报告书自动生成装置在调查 对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的 特征的报告书,包括接收至少上述调查对象文件的输入的输入单元; 基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群 的信息中选出与该调查对象文件类似的母集团文件的集合,即母集团 文件群的选出单元;提取上述调查对象文件相对上述母集团文件的具 有特征的索引词的提取单元;基于上述母集团文件以及上述索引词, 生成表示上述调查对象文件的特征的信息解析报告书的生成单元;以 及将上述信息解析报告书向显示单元、记录单元、或者通信单元输出 的输出单元。例如,进一步具有计算相对比较对象文件的相似率的计算单元, 选出单元根据计算单元的结果而选出母集团文件。并且,计算单元基 于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。 并且例如,进一步具有分布母集团或索引词,形成地图(map) 状的地图生成单元,取入母集团或上述索引词的数据的一部分的输出 数据取入单元,取入与地图以及数据的内容相对应的固定的评注 (comment)的固定评注取入单元,以及记入自由的评注的评注记入 单元,生成单元对地图、数据以及/或者评注进行合成,生成表示调查 对象文件的特征的信息解析报告书。在优选实施例中,上述生成单元进行上述索引词或母集团文件中 的每个预定项目的累计、即关键词累计,表示关键词或母集团文件中 的预定项目的时序的推移的时序累计,以及/或者母集团文件中的多个预定项目的矩阵(matrix)累计,生成包含累计结果的信息解析报告 书。尤其优选的是,上迷生成单元生成由上述时序累计中关键词或母 集团文件中预定项目的累计结果以及该累计结果的时序延伸率的矩阵所表示的组合(portfolio),生成包含该组合的信息解析报告书。在其他优选实施例中,上述生成单元具有计算上述提取的索引词 在上述比较对象文件群中的出现频率的函数值的第一出现值频率计算 单元;计算上述提取的索引词在上述母集团文件群中的出现频率的函 数值的第二出现值频率计算单元;以及根据上述计算出的各索引词在 比较对象文件群中的出现频率的函数值和在上述母集团文件群中的出 现频率的函数值的组合,生成包含各索引词和其定位数据的频率散布 图的频率散布图生成单元。并且在其他实施例中,上述生成单元具有提取上述母集团文件、 或者上述调查对象文件以及母集团文件的内容数据以及时间数据的提 取单元;基于上述各文件的内容数据,生成表示上述多个文件的相关 性的树状图的树状图生成单元;基于预定规则切断上述树状图并提取 集群(cluster)的聚类单元(clustering);以及基于上述各文件的时间 数据,决定属于上述各集群的文件群在该集群中的排列的集群内排列 单元。尤其优选的是,上述聚类单元切断上述树状图,提取父集群 (parent cluster ),并基于属于上述父集群的各文件的内容数据而生 成表示属于上述父集群的文件群的相关性的部分树状图,基于预定规 则切断该生成的部分树状图,提取子孙集群。优选的是,上述聚类单元为了生成上述部分树状图,从各文件向 量中除去在属于上述父集群的多个文件间的偏差值比按预定方法确定 的值小的向量分量。并且,在其他优选实施例中,上述生成单元具有分别计算上述 各索引词在上述各集群中的评价值的评价值计算单元;集中度计算单 元,该单元针对各索引词,计算在上述各集群中的评价值在所有集群 中的和,并针对各集群计算出在各集群中的评价值相对该和的比,分 别计算出该比的平方,并计算该比的平方在上述所有集群中的和,从 而计算出各索引词在上述集群中的分布集中度;份额计算单元,该单 元针对从上述各集群中提取的所有索引词,计算各索引词在上述分析 对象集群中的评价值的和,并针对各索引词计算出各索引词的评价值 相对该和的比,从而计算出上述分析对象集群中各索引词的份额;计 算出各索引词在上述集群中的出现频率倒数的函数值的第一倒数计算 单元;计算出各索引词在包括上述集群在内的所有文件中的出现频率 倒数的函数值的第二倒数计算单元;根据从上述第一倒数计算单元的 计算结果中减去上述第二倒数计算单元的计算结果所得的函数值而计 算出独创度的独创度计算单元;以及,基于上述集中度计算单元计算 出的集中度、上述份额计算单元关于上述分析对象的文件群而计算出 的份额、和由上述独创度计算单元计算出的独创度的组合,提取关键 词的关键词提取单元。并且,本专利技术的信息解析报告书生成装置具有网络服务器(web server),其连接到网络上,从经由该网络所连接的客户端接收调查 对象文件的输入;管理服务器,其对上述调查对象文件进行排队 (queuing),对于成为应处理顺序的调查对象文件,向解析服务器请 求处理;以及解析服务器,其响应上述请求,基于上述输入的调查对 象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查 对象文件类似的母集团文件的集合、即母集团文件群,提取上述调查 对象文件相对上述母集团文件的具有特征的索引词,并且基于上述母 集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息 解析报告书。为解决上述课本文档来自技高网
...

【技术保护点】
一种信息解析报告书自动生成装置,在调查对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的特征的报告书,其特征在于包括:输入单元,其至少接收上述调查对象文件的输入;选出单元,其根据上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群;提取单元,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;生成单元,其根据上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书;以及输出单元,其将上述信息解析报告书向显示单元、记录单元、或通信单元进行输出。

【技术特征摘要】
【国外来华专利技术】JP 2005-4-25 127118/20051.一种信息解析报告书自动生成装置,在调查对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的特征的报告书,其特征在于包括输入单元,其至少接收上述调查对象文件的输入;选出单元,其根据上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群;提取单元,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;生成单元,其根据上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书;以及输出单元,其将上述信息解析报告书向显示单元、记录单元、或通信单元进行输出。2. 根据权利要求1记载的信息解析报告书自动生成装置,其特 征在于,进一步具有计算相对上述比较对象文件的相似率的计算单元, 上述选出单元根据上述计算单元的结果选出母集团文件。3. 根据权利要求2记载的信息解析报告书自动生成装置,其特 征在于,上述计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。4. 根据权利要求2记载的信息解析报告书自动生成装置,其特 征在于,进一步具有地图生成单元,其分布上述母集团或上述索引词并形成为地图状;输出数据取入单元,其取入上述母集团或上述索引词的数据的一部分;固定评注取入单元,其取入与上述地图以及数据内容相对应的固定的评注;以及记入自由的评注的评注记入单元中的至少一个, 上述生成单元合成上述地图、上述数振以及/或者上述评注,生成表示上述调查对象文件的特征的信息解析^^艮告书。5. 根据权利要求1至4中任意一项记栽的信息解析报告书自动 生成装置,其特征在于,上述生成单元进行作为上述索引词或者母集团文件中的每个预 定项目的累计的关键词累计、表示关键词或者母集团文件中的预定项 目的时序的推移的时序累计、以及/或者母集团文件中的多个预定项目 的矩阵累计,生成包含累计结果的信息解析报告书。6. 根据权利要求5记载的信息解析报告书自动生成装置,其特 征在于,上述生成单元在上述时序累计中生成由关键词或母集团文件中 的预定项目的累计结果、以及该累计结果的时序的延伸率的矩阵所表 示的组合,并生成包含该组合的信息解析报告书。7. 根据权利要求1至6中任意一项记载的信息解析报告书生成 装置,其特征在于,上述生成单元具有计算上述提取的索引词在上述比较对象文件群中的出现频率的 函数值的第一出现值频率计算单元;计算上述提取的索引词在上述母集团文件群中的出现频率的函 数值的第二出现值频率计算单元;以及根据上述计算出的各索引词在比较对象文件群中的出现频率的 函数值和在上述母集团文件群中的出现频率的函数值的组合、生成包 含各索引词和其定位数据的频率散布图的频率散布图生成单元。8. 根据权利要求1至7中任意一项记栽的信息解析报告书生成 装置,其特征在于,上述生成单元包括提取单元,其提取上述母集团文件、或者上述调查对象文件以及 母集团文件的内容数据以及时间数据;树状图生成单元,其根据上述各文件的内容数据,生成表示上述多个文件的相关性的树状图;聚类单元,其根据预定规则切断上述树状图,并提取集群;以及集群内排列单元,其根据上述各文件的时间数据,决定属于上述 各集群的文件群在该集群内的排列。9. 根据权利要求8记载的信息解析报告书生成装置,其特征在于,上述聚类单元切断上述树状图并提取父集群,根据属于上述父集 群的各文件的内容数据生成表示属于上述父集群的文件群的相关性的 部分树状图,根据预定规则切断该生成的部分树状图并提取子孙集群。10. 根据权利要求9记栽的信息解析报告书生成装置,其特征在于,为了生成上述部分树状图,上述聚类单元从各文件向量中除去在 属于上述父集群的多个文件间的偏差值比按预定方法确定的值小的向 量分量。11. 根据权利要求8记载的信息解析报告书生成装置,其特征在 于,上述生成单元具有评价值计算单元,其分别计算上述各索引词在上述各集群中的评价值;集中度计算单元,其针对各索引词,计算在上述各集群中的评价 值在所有集群中的和,并针对各集群计算出在各集群中的评价值相对 该和的比,分别计算出该比的平方,并计算该比的平方在上述所有集 群中的和,从而计算出各索引词在上述集群中的分布集中度;份额计算单元,其针对从上述各集群中提取的所有的索引词,计算各索引词在上述分析对象集群中的评价值的和,并针对各索引词计 算各索引词的评价值相对该和的比,从而计算出上述分析对象集群中 各索引词的份额;第一倒数计算单元,其计算出各索引词在上述集群中的出现频率 的倒数的函数值;第二倒数计算单元,其计算出各索引词在包括上述集群在内的所有文件中的出现频率的倒数的函数值;独创度计算单元,其根据从上述第一倒数计算单元的计算结果减 去上述第二倒数计算单元的计算结果后的函数值而计算独创度;关键词提取单元,其根据由上述集中度计算单元计算的集中度、 由上述份额计算单元关于上述分析对象的文件群计算的份额、和由上 述独创度计算单元计算的独创度的组合,提取关键词。12. 根据权利要求1至12中任意一项记栽的信息解析报告书生 成装置,其特征在于具有,网络服务器,其连接到网络上,且从经由该网络所连接的客户端 接收调查对象文件的输入;管理服务器,其对上述调查对象文件进行排队,并且关于成为应 进行处理的顺序的调查对象文件,向解析服务器请求处理;以及解析服务器,其响应上述请求,基于上述输入的调查对象文件, 从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件 类似的母集团文件的集合、即母集团文件群,提取上述调查对象相对 上述母集团文件的具有特征的索引词,并且基于上述母集团文件和上 述索引词生成表示上述调查对象文件的特征的信息解析报告书。13. —种信息解析报告书自动生成程序,在调查对象文件的信息 解析中,生成表示调查对象文件相对比较对象文件的特征的报告书, 其特征在于使计算机作为下列单元起作用输入单元,其至少接收上述调查对象文件的输入;选出单元,其基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中,选出与该调查对象文件类似的母集团文件的集合、即母集团文件群;提取单元,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;生成单元,其基于上述母集团文件以及上述索引词,生成表示上 述调查对象文件的特征的信息解析报告书,以及输出单元,其将上述信息解析报告书输出给显示单元、记录单元、 或者通信单元。14. 根据权利要求13记栽的信息解析报告书自动生成程序,其 特征在于,使计算机作为计算相对上述比较对象文件的相似率的计算单元 而起作用,上述选出单元根据上述计算单元的结果而选出母集团文件。15. 根据权利要求14记载的信息解析报告书自动生成程序,其特征在于,上述计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。16. 根据权利要求14记载的信息解析报告书自动生成程序,其 特征在于,使计算机至少作为下列单元中的一个而起作用, 地图生成单元,其分布上述母集团或上述索引词并形成地图状; 输出数据取入单元,其取入上述母集团或上述索引词的数据的一部分;固定评注取入单元,其取入与上述地图或数据的内容相对应的固 定评注;以及记入自由的评注的评注记入单元,上述生成单元合成上述地图、上述数据和/或上述评注,生成表 示上述调查对象文件的特征的信息解析报告书。17. 根据权利要求13至16中任意一项记载的信息解析报告书自 动生成程序,其特征在于,上述生成单元进行上述索引词或母集团文件中的每个预定项目 的累计、即关键词累计;表示关键词或母集团文件中的预定项目的时序的推移的时序累计;以及/或者母集团文件中的多个预定项目的矩阵 累计,生成包含累计结果的信息解析报告书。18. 根据权利要求17记载的信息解析报告书自动生成程序,其特征在于,上述生成单元生成由在上述时序累计中、关键词或母集团文件中 的预定项目的累计结果、以及该累计结果的时序的延伸率的矩阵所表 示的组合,生成包含该组合的信息解析报告书。19. 根据权利要求13至18中任意一项记栽的信息解析报告书生 成程序,其特征在于,上述生成单元具有第一出现值频率计算单元,该单元计算上述提取的索引词在上述 比较对象文件群中的出现频率的函数值;第二出现值频率计算单元,该单元计算上述提取的索引词在上述 母集团文件群中的出现频率的函数值;以及频率散布图生成单元,其根据上述计算出的各索引词在比较对象 文件群中的出现频率的函数值和在上述母集团文件群中的出现频率的 函数值的组合,生成包含各索引词及其定位数据的频率散布图。20. 根据权利要求13至19中任意一项记栽的信息解析报告书生 成程序,其特征在于,上述生成单元具有提取单元,其提取上述母集团文件、或者上述调查对象文件以及 母集团文件的内容数据以及时间数据;树状图生成单元,其基于上述各文件的内容数据,生成表示上述 多个文件的相关性的树状图;聚类单元,其按照预定规则切断上述树状图,并提取集群;以及集群内排列单元,其根据上述各文件的时间数据,决定属于上述 各集群的文件群在该集群内的排列。21. 根据权利要求20记载的信息解析报告书生成程序,其特征在于,上述聚类单元切断上述树状图并提取父集群,基于属于上述父集 群的各文件的内容数据生成表示属于上述父集群的文件群的相关性的 部分树状图,按照预定规则切断该生成的部分树状图并提取子孙集群。22. 根据权利要求21记载的信息解析报告书生成程序,其特征在于,上述聚类单元为了生成上述部分树状图,从各文件中除去在属于 上述父集群的多个文件间的偏差值比按预定方法确定的值小的向量分 量。23. 根据权利要求20记载的信息解析报告书生成程序,其特征在于,上述生成单元具有评价值计算单元,其分别计算上述各索引词在上述各集群中的评价值;集中度计算单元,其针对各索引词,计算在上述各集群中的评价值在所有集群中的和,并针对各集群计算出在各集群中的评价值相对 该和的比,分别计算出该比的平方,并且计算该比的平方在上述所有 集群中的和,从而计算出各索引词在上述集群中的分布集中度;份额计算单元,其针对从上述各集群中提取的所有索引词,计算 各索引词在上述分析对象集群中的评价值的和,并针对各索引词计算 出各索引词的评价值相对该和的比,从而计算出上述分析对象集群中 各索引词的份额;第一倒数计算单元,其计算出各索引词在上述集群中的出现频率 的倒数的函数值;第二倒数计算单元,其计算出各索引词在包括上述集群在内的所有文件中的出现频率的倒数的函数值;独创度计算单元,其根据从上述第一倒数计算单元的计算结果中 减去上述第二倒数计算单元的计算结果所得的函数值计算独创度;以 及关键词提取单元,其根据上述集中度计算单元计算出的集中度、 上述份额计算单元关于上述分析对象的文件群而计算出的份额、和上 述独创度计算单元计算出的独创度的组合,提取关键词。24. —种信息解析报告书自动生成方法,在调查对象文件的信息 解析中,生成表示调查对象文件相对比较对象文件的特征的报告书, 其特征在于包括输入步骤,其至少接收上述调查对象文件的输入; 选出步骤,其基于上述输入的调查对象文件,从存储在数据库中 的比较对象文件群的信息中,选出与该调查对象文件类似的母集团文件的集合、即母集团文件群;提取步骤,其提取上述调查对象文件相对上述母集团文件的具有 特征的索引词;生成步骤,其基于上述母集团文件以及上述索引词,生成表示上 述调查对象文件的特征的信息解析报告书,以及输出步骤,其将上述信息解析报告书输出给显示单元、记录单元、 或者通信单元。25. 根据权利要求24记载的信息解析报告书自动生成方法,其 特征在于,进一步具有计算相对上述比较对象文件的相似率的计算步骤, 在上述选出步骤中根据上述计算步骤的结果选出母集团文件。26. 根据权利要求25记载的信息解析报告书自动生成方法,其 特征在于,在上述计算步骤中,基于各文件的每个索引词的出现频率和文件 频率的函数值计算相似率。27. 根据权利要求25记载的信息解析报告书自动生成方法,其 特征在于,进一步至少具有下列步骤中的一个,地图生成步骤,其分布上述母集团或上述索引词并形成地图状; 输出数据取入步骤,其取入...

【专利技术属性】
技术研发人员:增山博昭吉野令晃
申请(专利权)人:株式会社IPB
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1