信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成制造方法及图纸

技术编号：2828747 阅读：192 留言：0更新日期：2012-04-11 18:40

提供一种可将调查对象文件的信息相对成为比较对象的文件进行解析并自动生成报告书的信息解析报告书自动生成装置。信息解析报告书自动生成装置１００的构成包括处理装置１、输入装置２、记录装置３、以及输出装置４。在生成信息解析报告书时，指定并输入调查对象文件和比较对象文件，输入进行信息解析的条件，从比较对象文件中选出由和调查对象文件类似的文件群所构成的母集团文件，提取调查对象文件相对母集团文件的具有特征的索引词，基于母集团文件和索引词，生成表示调查对象文件的特征的信息解析报告书，并且，将所生成的信息解析报告书输出给显示单元、记录单元或通信单元。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及文件的解析装置，尤其涉及解析调查对象文件或文件群并表示其特征的信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法。
技术介绍
以专利文件为首、技术文件或其他文件的量年年确实地增加。近年，自从电子化文件数据进行流通以来，从大量的文件当中仅自动检索与调查对象的文件类似的文件的系统被实用化。但即便如此，检索结果中类似文件的量还是很大，为了了解调查对象的文件内容或属性，熟练者不得不读入检索结果中的类似文件。例如，在专利文献1的[类似文件检索装置以及类似文件检索方法中，比较包含在调查对象的文件或者文件群中的索引词和包含在比较对象的文件群中的索引词，根据类似的索引词的种类或者出现次数等计算出相似性，从相似性最高的文件开始依次输出。图34是专利文献l所示装置的整体结构图。以往，由控制装置601中的相似性计算系统对从输入装置602输入的调查对象文件、按某一提取条件与外部辅助存储装置603的数据库的文件群相比较，并进行相似性计算的处理，由输出装置604输出，熟练的评价者基于输出的文件一览的结果、读入相似性高的文件内容，作为调查对象文件的评价。评价者为了了解相似性高的文件内容，不得不读入这些数件乃至数千件左右的文件。专利文献1:日本专利特开平11-73415号公报但是，与上述专利文献l同样的类似文件自动检索系统产生这样的问题从比较对象文件群中将与调查对象文件类似的文件一览作为检索结果而输出，评价者从与调查对象文件类似的该文件一览中提取相似性高的、从数件到数千件左右的文件并读入，找到与调查对象的...

【技术保护点】
一种信息解析报告书自动生成装置，在调查对象文件的信息解析中，生成表示调查对象文件相对比较对象文件的特征的报告书，其特征在于包括：输入单元，其至少接收上述调查对象文件的输入；选出单元，其根据上述输入的调查对象文件，从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群；提取单元，其提取上述调查对象文件相对上述母集团文件的具有特征的索引词；生成单元，其根据上述母集团文件以及上述索引词，生成表示上述调查对象文件的特征的信息解析报告书；以及输出单元，其将上述信息解析报告书向显示单元、记录单元、或通信单元进行输出。

【技术特征摘要】
【国外来华专利技术】JP 2005-4-25 127118/20051.一种信息解析报告书自动生成装置，在调查对象文件的信息解析中，生成表示调查对象文件相对比较对象文件的特征的报告书，其特征在于包括输入单元，其至少接收上述调查对象文件的输入；选出单元，其根据上述输入的调查对象文件，从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群；提取单元，其提取上述调查对象文件相对上述母集团文件的具有特征的索引词；生成单元，其根据上述母集团文件以及上述索引词，生成表示上述调查对象文件的特征的信息解析报告书；以及输出单元，其将上述信息解析报告书向显示单元、记录单元、或通信单元进行输出。2. 根据权利要求1记载的信息解析报告书自动生成装置，其特征在于，进一步具有计算相对上述比较对象文件的相似率的计算单元，上述选出单元根据上述计算单元的结果选出母集团文件。3. 根据权利要求2记载的信息解析报告书自动生成装置，其特征在于，上述计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。4. 根据权利要求2记载的信息解析报告书自动生成装置，其特征在于，进一步具有地图生成单元，其分布上述母集团或上述索引词并形成为地图状；输出数据取入单元，其取入上述母集团或上述索引词的数据的一部分；固定评注取入单元，其取入与上述地图以及数据内容相对应的固定的评注；以及记入自由的评注的评注记入单元中的至少一个，上述生成单元合成上述地图、上述数振以及/或者上述评注，生成表示上述调查对象文件的特征的信息解析^^艮告书。5. 根据权利要求1至4中任意一项记栽的信息解析报告书自动生成装置，其特征在于，上述生成单元进行作为上述索引词或者母集团文件中的每个预定项目的累计的关键词累计、表示关键词或者母集团文件中的预定项目的时序的推移的时序累计、以及/或者母集团文件中的多个预定项目的矩阵累计，生成包含累计结果的信息解析报告书。6. 根据权利要求5记载的信息解析报告书自动生成装置，其特征在于，上述生成单元在上述时序累计中生成由关键词或母集团文件中的预定项目的累计结果、以及该累计结果的时序的延伸率的矩阵所表示的组合，并生成包含该组合的信息解析报告书。7. 根据权利要求1至6中任意一项记载的信息解析报告书生成装置，其特征在于，上述生成单元具有计算上述提取的索引词在上述比较对象文件群中的出现频率的函数值的第一出现值频率计算单元；计算上述提取的索引词在上述母集团文件群中的出现频率的函数值的第二出现值频率计算单元；以及根据上述计算出的各索引词在比较对象文件群中的出现频率的函数值和在上述母集团文件群中的出现频率的函数值的组合、生成包含各索引词和其定位数据的频率散布图的频率散布图生成单元。8. 根据权利要求1至7中任意一项记栽的信息解析报告书生成装置，其特征在于，上述生成单元包括提取单元，其提取上述母集团文件、或者上述调查对象文件以及母集团文件的内容数据以及时间数据；树状图生成单元，其根据上述各文件的内容数据，生成表示上述多个文件的相关性的树状图；聚类单元，其根据预定规则切断上述树状图，并提取集群；以及集群内排列单元，其根据上述各文件的时间数据，决定属于上述各集群的文件群在该集群内的排列。9. 根据权利要求8记载的信息解析报告书生成装置，其特征在于，上述聚类单元切断上述树状图并提取父集群，根据属于上述父集群的各文件的内容数据生成表示属于上述父集群的文件群的相关性的部分树状图，根据预定规则切断该生成的部分树状图并提取子孙集群。10. 根据权利要求9记栽的信息解析报告书生成装置，其特征在于，为了生成上述部分树状图，上述聚类单元从各文件向量中除去在属于上述父集群的多个文件间的偏差值比按预定方法确定的值小的向量分量。11. 根据权利要求8记载的信息解析报告书生成装置，其特征在于，上述生成单元具有评价值计算单元，其分别计算上述各索引词在上述各集群中的评价值；集中度计算单元，其针对各索引词，计算在上述各集群中的评价值在所有集群中的和，并针对各集群计算出在各集群中的评价值相对该和的比，分别计算出该比的平方，并计算该比的平方在上述所有集群中的和，从而计算出各索引词在上述集群中的分布集中度；份额计算单元，其针对从上述各集群中提取的所有的索引词，计算各索引词在上述分析对象集群中的评价值的和，并针对各索引词计算各索引词的评价值相对该和的比，从而计算出上述分析对象集群中各索引词的份额；第一倒数计算单元，其计算出各索引词在上述集群中的出现频率的倒数的函数值；第二倒数计算单元，其计算出各索引词在包括上述集群在内的所有文件中的出现频率的倒数的函数值；独创度计算单元，其根据从上述第一倒数计算单元的计算结果减去上述第二倒数计算单元的计算结果后的函数值而计算独创度；关键词提取单元，其根据由上述集中度计算单元计算的集中度、由上述份额计算单元关于上述分析对象的文件群计算的份额、和由上述独创度计算单元计算的独创度的组合，提取关键词。12. 根据权利要求1至12中任意一项记栽的信息解析报告书生成装置，其特征在于具有，网络服务器，其连接到网络上，且从经由该网络所连接的客户端接收调查对象文件的输入；管理服务器，其对上述调查对象文件进行排队，并且关于成为应进行处理的顺序的调查对象文件，向解析服务器请求处理；以及解析服务器，其响应上述请求，基于上述输入的调查对象文件，从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群，提取上述调查对象相对上述母集团文件的具有特征的索引词，并且基于上述母集团文件和上述索引词生成表示上述调查对象文件的特征的信息解析报告书。13. —种信息解析报告书自动生成程序，在调查对象文件的信息解析中，生成表示调查对象文件相对比较对象文件的特征的报告书，其特征在于使计算机作为下列单元起作用输入单元，其至少接收上述调查对象文件的输入；选出单元，其基于上述输入的调查对象文件，从存储在数据库中的比较对象文件群的信息中，选出与该调查对象文件类似的母集团文件的集合、即母集团文件群；提取单元，其提取上述调查对象文件相对上述母集团文件的具有特征的索引词；生成单元，其基于上述母集团文件以及上述索引词，生成表示上述调查对象文件的特征的信息解析报告书，以及输出单元，其将上述信息解析报告书输出给显示单元、记录单元、或者通信单元。14. 根据权利要求13记栽的信息解析报告书自动生成程序，其特征在于，使计算机作为计算相对上述比较对象文件的相似率的计算单元而起作用，上述选出单元根据上述计算单元的结果而选出母集团文件。15. 根据权利要求14记载的信息解析报告书自动生成程序，其特征在于，上述计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。16. 根据权利要求14记载的信息解析报告书自动生成程序，其特征在于，使计算机至少作为下列单元中的一个而起作用，地图生成单元，其分布上述母集团或上述索引词并形成地图状；输出数据取入单元，其取入上述母集团或上述索引词的数据的一部分；固定评注取入单元，其取入与上述地图或数据的内容相对应的固定评注；以及记入自由的评注的评注记入单元，上述生成单元合成上述地图、上述数据和/或上述评注，生成表示上述调查对象文件的特征的信息解析报告书。17. 根据权利要求13至16中任意一项记载的信息解析报告书自动生成程序，其特征在于，上述生成单元进行上述索引词或母集团文件中的每个预定项目的累计、即关键词累计；表示关键词或母集团文件中的预定项目的时序的推移的时序累计；以及/或者母集团文件中的多个预定项目的矩阵累计，生成包含累计结果的信息解析报告书。18. 根据权利要求17记载的信息解析报告书自动生成程序，其特征在于，上述生成单元生成由在上述时序累计中、关键词或母集团文件中的预定项目的累计结果、以及该累计结果的时序的延伸率的矩阵所表示的组合，生成包含该组合的信息解析报告书。19. 根据权利要求13至18中任意一项记栽的信息解析报告书生成程序，其特征在于，上述生成单元具有第一出现值频率计算单元，该单元计算上述提取的索引词在上述比较对象文件群中的出现频率的函数值；第二出现值频率计算单元，该单元计算上述提取的索引词在上述母集团文件群中的出现频率的函数值；以及频率散布图生成单元，其根据上述计算出的各索引词在比较对象文件群中的出现频率的函数值和在上述母集团文件群中的出现频率的函数值的组合，生成包含各索引词及其定位数据的频率散布图。20. 根据权利要求13至19中任意一项记栽的信息解析报告书生成程序，其特征在于，上述生成单元具有提取单元，其提取上述母集团文件、或者上述调查对象文件以及母集团文件的内容数据以及时间数据；树状图生成单元，其基于上述各文件的内容数据，生成表示上述多个文件的相关性的树状图；聚类单元，其按照预定规则切断上述树状图，并提取集群；以及集群内排列单元，其根据上述各文件的时间数据，决定属于上述各集群的文件群在该集群内的排列。21. 根据权利要求20记载的信息解析报告书生成程序，其特征在于，上述聚类单元切断上述树状图并提取父集群，基于属于上述父集群的各文件的内容数据生成表示属于上述父集群的文件群的相关性的部分树状图，按照预定规则切断该生成的部分树状图并提取子孙集群。22. 根据权利要求21记载的信息解析报告书生成程序，其特征在于，上述聚类单元为了生成上述部分树状图，从各文件中除去在属于上述父集群的多个文件间的偏差值比按预定方法确定的值小的向量分量。23. 根据权利要求20记载的信息解析报告书生成程序，其特征在于，上述生成单元具有评价值计算单元，其分别计算上述各索引词在上述各集群中的评价值；集中度计算单元，其针对各索引词，计算在上述各集群中的评价值在所有集群中的和，并针对各集群计算出在各集群中的评价值相对该和的比，分别计算出该比的平方，并且计算该比的平方在上述所有集群中的和，从而计算出各索引词在上述集群中的分布集中度；份额计算单元，其针对从上述各集群中提取的所有索引词，计算各索引词在上述分析对象集群中的评价值的和，并针对各索引词计算出各索引词的评价值相对该和的比，从而计算出上述分析对象集群中各索引词的份额；第一倒数计算单元，其计算出各索引词在上述集群中的出现频率的倒数的函数值；第二倒数计算单元，其计算出各索引词在包括上述集群在内的所有文件中的出现频率的倒数的函数值；独创度计算单元，其根据从上述第一倒数计算单元的计算结果中减去上述第二倒数计算单元的计算结果所得的函数值计算独创度；以及关键词提取单元，其根据上述集中度计算单元计算出的集中度、上述份额计算单元关于上述分析对象的文件群而计算出的份额、和上述独创度计算单元计算出的独创度的组合，提取关键词。24. —种信息解析报告书自动生成方法，在调查对象文件的信息解析中，生成表示调查对象文件相对比较对象文件的特征的报告书，其特征在于包括输入步骤，其至少接收上述调查对象文件的输入；选出步骤，其基于上述输入的调查对象文件，从存储在数据库中的比较对象文件群的信息中，选出与该调查对象文件类似的母集团文件的集合、即母集团文件群；提取步骤，其提取上述调查对象文件相对上述母集团文件的具有特征的索引词；生成步骤，其基于上述母集团文件以及上述索引词，生成表示上述调查对象文件的特征的信息解析报告书，以及输出步骤，其将上述信息解析报告书输出给显示单元、记录单元、或者通信单元。25. 根据权利要求24记载的信息解析报告书自动生成方法，其特征在于，进一步具有计算相对上述比较对象文件的相似率的计算步骤，在上述选出步骤中根据上述计算步骤的结果选出母集团文件。26. 根据权利要求25记载的信息解析报告书自动生成方法，其特征在于，在上述计算步骤中，基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。27. 根据权利要求25记载的信息解析报告书自动生成方法，其特征在于，进一步至少具有下列步骤中的一个，地图生成步骤，其分布上述母集团或上述索引词并形成地图状；输出数据取入步骤，其取入...

【专利技术属性】
技术研发人员：增山博昭，吉野令晃，
申请(专利权)人：株式会社IPB，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人