【技术实现步骤摘要】
一种论文数据可视化方法、系统及电子设备
[0001]本申请属于数据可视化处理
,特别涉及一种论文数据可视化方法、系统及电子设备。
技术介绍
[0002]可视表示方法常常可以更快更有效地在人机或人人之间交流某些类型的信息;而且可以使海量数据变得简洁有条理,能够揭示数据深层的联系和规律等。可视化领域的研究与发展规律从根本上改变了用户表示和理解大量复杂数据集的方式,因此可视化具有广泛而重要的影响,它可以引导出新的洞见和更高效的决策。结合目前文献数据库的现状,同时从可视化的特点出发,可以看出可视化在理解海量的科技文献数据的先天优势;它可以帮助用户对科技文献信息进行发掘、揭示和说明;它可以弥补传统手段面对迅速增长的文献数据的心有余而力不足的缺陷。
[0003]随着科技文献数量的快速增长,给分析文献数据增加了很多挑战,比如文献数据结构复杂多样、数据属性关系网络过于复杂等。然而,现有可视化处理方法对文献数据的分析都是基于文本的信息,而忽略了非常重要的论文插图、表格、图表等非文本信息,对于用户使用有一定的门槛,对不同领域的内容 ...
【技术保护点】
【技术特征摘要】
1.一种论文数据可视化方法,其特征在于,包括以下步骤:步骤a:从PDF格式的论文数据中提取图片数据;步骤b:从所述图片数据中提取图片属性信息和论文属性信息,并将所述图片属性信息和论文属性信息进行汇总,生成一个数据表;步骤c:通过所述数据表选择论文数据,并通过基于河流图加论文圆环的可视化布局算法对选择的论文数据进行可视化展示。2.根据权利要求1所述的论文数据可视化方法,其特征在于,在所述步骤a中,所述从PDF格式的论文数据中提取图片数据具体包括:步骤a1:将PDF论文数据转化为JPG格式,然后将JPG格式论文数据转化为XML格式的文件;所述XML格式的文件中包含论文中文本框的位置坐标、长度、宽度信息;步骤a2:对XML格式文件中的所有图片进行Fig和Figure标识,找到每张图片的文本框位置;步骤a3:识别每个图片的文本框的宽度,如果该图片的文本框宽度大于PDF总宽度的一半,则将该图片的宽度设定为整个PDF的宽度,反之,将该图片的宽度设定为整个PDF宽度的一半;并根据图片上部分和文本框的y值坐标确定每个图片的高度,得到初始图片数据的提取结果;步骤a4:通过识别与背景色不同颜色的最小边框对所述初始图片数据进行背景剪裁,得到最终的图片数据提取结果。3.根据权利要求2所述的论文数据可视化方法,其特征在于,在所述步骤b中,所述图片属性信息包括图片的主色调、宽高比、尺寸信息;其中,所述图片的主色调提取采用中位切分法,将图片颜色看作是色彩空间中的长方体,从初始整个图像作为一个长方体开始,将RGB中最长的一边从颜色统计的中位数一切为二,得到包含相同像素数量的两个长方体;并重复上述步骤,直到最终切分得到的长方体数量等于主题颜色数量为止。4.根据权利要求3所述的论文数据可视化方法,其特征在于,在所述步骤b中,所述论文属性信息包括论文作者、论文关键词和论文会议分类;所述论文属性信息通过python网络爬虫进行提取;首先选取一部分精心挑选的种子URL,将所述URL放入待抓取URL队列;从所述待抓取URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,并将该URL对应的网页下载下来,存储进已下载网页库中;然后将该URL放进已抓取URL队列;继续分析待抓取URL队列中的其他URL,并且将该URL放入已抓取URL队列,从而进入下一个循环。5.根据权利要求1至4任一项所述的论文数据可视化方法,其特征在于,在所述步骤c中,所述通过基于河流图加论文圆环的可视化布局算法对选择的论文数据进行可视化展示具体包括:步骤c1:根据论文作者、论文分类、论文关键词选择数据分组;步骤c2:根据数据分组确定当前论文数据的层次结构;步骤c3:计算当前论文数据的河流图布局位置;步骤c4:计算当前论文数据的圆环半径;步骤c5:计算论文圆环插入河流图后的位置;步骤c6:结合河流图布局加论文圆环的方式进行当前论文数据的可视化展示;所述可视化展示包括三个视图,分别对应论文数据的选择、可视化显示和细节图片显示。
6.一种论文数据可视化系统,其特征在于,包括:图片提取模块:用于从PDF格式的论文数据中提取图片数据;数据处理模块:用于从所述图片数据中提取图片属性信息和论文属性信息,并将所述图片属性信息和论文属性信息进行汇总,生成一个数据表;论文选择...
【专利技术属性】
技术研发人员:程章林,董傲,潘光凡,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。