一种报表数据的图形化展示方法技术

技术编号:14783403 阅读:86 留言:0更新日期:2017-03-10 04:32
本发明专利技术公开了一种报表数据的图形化展示方法,属于计算机系统数据分析领域,本发明专利技术要解决的技术问题为如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用,将用户自定义的词汇加入高发词库中。技术方案为:该方法包括如下步骤:(1)、读取excel或者文档文件;(2)、获取excel或文档文件中的表转换为json数据;(3)、分词和基于TF‑IDF算法的关键词抽取;(4)、调整词语序列;(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表。

【技术实现步骤摘要】

本专利技术涉及计算机系统数据分析领域,具体地说是一种报表数据的图形化展示方法
技术介绍
在当前一些公关部门、信访部门或者是一些学校及公司,经常会需要审阅大量的文档,从文档中获得具体信息,了解提交材料人群对相关问题的关注点及重点意见建议。审阅文档的过程需要耗费大量的人力和时间,因此产生了类似需求,如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用,将用户自定义的词汇加入高发词库中是目前现有技术中存在的技术问题。专利号为CN104317943A的专利文献公开了一种考核系统的图形化报表展示方法及系统,所述方法包括:步骤1,提取考核数据,并将考核数据以表结构的形式进行存储;步骤2,从存储考核数据的表结构中查询出需进行图形化报表展示的数据,并将查询得到的数据封装成XML格式的数据;步骤3,在JPS页面设置图形化报表样式,选择一种图形化报表样式,并调用FusionCharts插件将XML格式的数据解析生成为报表,并在JPS页面展示生成的报表。但是该技术方案存在操作复杂,使用范围小等缺点。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种报表数据的图形化展示方法,来解决如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用,将用户自定义的词汇加入高发词库中的问题。本专利技术解决其技术问题所采用的技术方案是:一种报表数据的图形化展示方法,该方法包括如下步骤:(1)、读取excel或者文档文件:通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中;(2)、获取excel或文档文件中的表转换为json数据:解析内存中的excel或者文档对象获取workbook对象,获取表格后解析指定区域内的有效数据信息,并将有效数据信息转化为json格式数据;(3)、分词和基于TF-IDF算法的关键词抽取:将已有的有效数据信息做分词操作,返回指定个数的TF-IDF权重最大的关键词;TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。(4)、调整词语序列;(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表。作为优选,所述步骤(1)中采用javastript中read方式获取文件,而非通常所使用的流处理方式。JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能。作为优选,所述步骤(1)中采用对象方式存储文件。作为优选,所述步骤(3)中提起关键词使用逆向文件频率(IDF)文本语料库或自定义文本库。更优地,所述自定义文本库是指自己自定义的词典,包含词库中未包含的词,虽然有新词识别能力,但是自行添加新词可以保证更高的正确率。作为优选,所述步骤(5)中图表展示还可以采用html和flash格式。作为优选,该方法使用过程中还包括如下步骤:①、加载工作表并解析;②、加载数据并启动服务。本专利技术的报表数据的图形化展示方法和现有技术相比,具有以下有益效果:1、本专利技术是通过解析用户导入或者系统自动生成的excel或者其他日志或报告文档,获取excel或者文档中的指定位置的文字信息,同时按照字符分解文档中的文字信息,分解之后再通过文字规则按照中文词组的编码方式重新排列,排列之后的词组根据用户指定的格式形成报表;2、本专利技术允许用户通过文档方式加载数据到当前功能中,通过解析文件、分词及归类等方式,最终由html的数据报表形式展现出来,用户可以很直观的看到词汇出现的频率,按照指定方式展现。故本专利技术具有设计合理、结构简单、使用方便、一物多用等特点,因而,具有很好的推广使用价值。附图说明下面结合附图对本专利技术进一步说明。附图1为报表数据的图形化展示方法的流程图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明。如附图1所示,本专利技术的报表数据的图形化展示方法,该方法包括如下步骤:(1)、读取excel或者文档文件:通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中;该步骤采用javastript中read方式获取文件,而非通常所使用的流处理方式并采用对象方式存储文件;(2)、获取excel或文档文件中的表转换为json数据:解析内存中的excel或者文档对象获取workbook对象,获取表格后解析指定区域内的有效数据信息,并将有效数据信息转化为json格式数据;具体事例如下:varsheetNames=workbook.SheetNames;//返回表名//根据表名获取对应某张表varworksheet=workbook.Sheets[sheetNames[0]];通过worksheet[address]来操作表格//获取A1单元格对象leta1=worksheet['A1'];//返回{v:'hello',t:'s',...本文档来自技高网...
一种报表数据的图形化展示方法

【技术保护点】
一种报表数据的图形化展示方法,其特征在于该方法包括如下步骤:(1)、读取excel或者文档文件:通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中;(2)、获取excel或文档文件中的表转换为json数据:解析内存中的excel或者文档对象获取workbook对象,获取表格后解析指定区域内的有效数据信息,并将有效数据信息转化为json格式数据;(3)、分词和基于TF‑IDF算法的关键词抽取:将已有的有效数据信息做分词操作,返回指定个数的 TF‑IDF 权重最大的关键词;(4)、调整词语序列;(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表。

【技术特征摘要】
1.一种报表数据的图形化展示方法,其特征在于该方法包括如下步骤:(1)、读取excel或者文档文件:通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中;(2)、获取excel或文档文件中的表转换为json数据:解析内存中的excel或者文档对象获取workbook对象,获取表格后解析指定区域内的有效数据信息,并将有效数据信息转化为json格式数据;(3)、分词和基于TF-IDF算法的关键词抽取:将已有的有效数据信息做分词操作,返回指定个数的TF-IDF权重最大的关键词;(4)、调整词语序列;(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表。2.根据权利要求1所述的报表数...

【专利技术属性】
技术研发人员:王放
申请(专利权)人:济南浪潮高新科技投资发展有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1