一种对零散文本数据的可视化知识图谱处理方法技术

技术编号:35347859 阅读:25 留言:0更新日期:2022-10-26 12:13
本发明专利技术属于数据处理技术领域,提供了一种对零散文本数据的可视化知识图谱处理方法,包括:数据整理,通过收集不同个体的各个特征及属性,通过脚本整理成可视化软件所需的三元关系组数据格式;可视化显示,通过可视化软件将文本数据图形化排列,依据任一个体、特征或属性找到不同深度相关性的对象。本设计具有将零碎文本数据可视化显示、展示不同个体间联系的紧密程度以及查找拥有同一特性或属性的不同个体等功能,能够提高对枯燥的文字信息的提取速度,发掘不同个体间的联系,以及为供货方与需求方提供便利的数据交换桥梁。需求方提供便利的数据交换桥梁。需求方提供便利的数据交换桥梁。

【技术实现步骤摘要】
一种对零散文本数据的可视化知识图谱处理方法


[0001]本专利技术属于数据处理
,尤其涉及一种对零散文本数据的可视化知识图谱处理方法。

技术介绍

[0002]随着现代社会的飞速发展,信息量的日益扩增,数字化的数据处理方式得到了越来越广泛的运用。通过依据个体特征类型,描述个体及属性的三元关系组数据,从而生成知识图谱的方法是数据处理中的一种常用手段。知识图谱,是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
[0003]常见的知识图谱一般只局限于针对某一个对象,列举属于该对象的属性特征,这样虽然也能实现数据的可视化显示,以及提高信息获取效率,但是并不利于找到不同独立个体间的相关性。

技术实现思路

[0004]本专利技术的目的是克服现有的缺陷,提供一种对零散文本数据的可视化知识图谱处理方法,保证快速找到不同个体的相关性。
[0005]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0006]一种对零散文本数据的可视化知识图谱处理方法,包括:
[0007]数据整理,通过收集不同个体的各个特征及属性,通过脚本整理成可视化软件所需的三元关系组数据格式;
[0008]可视化显示,通过可视化软件将文本数据图形化排列,依据任一个体、特征或属性找到不同深度相关性的对象。
[0009]进一步地,所述数据整理为芯片生产流程中涉及的各个步骤中使用到的设备的相关属性。
[0010]进一步地,所述数据整理内容包括分区、设备名称、性能指标、国外供应商、国内供应商、关键零部件、性能指标方面。
[0011]进一步地,所述三元关系组用于描述两个对象间的关系。
[0012]进一步地,所述三元关系组根据整理出来的表格格式,分为点表格和边表格。
[0013]进一步地,所述点表格是编写脚本自动生成给表格中每个对象编号的表格;边表格是覆盖所有对象关系的用对象编号表示两者间关系的三元关系组数据表格。
[0014]有益效果:
[0015]本设计具有将零碎文本数据可视化显示、展示不同个体间联系的紧密程度以及查找拥有同一特性或属性的不同个体等功能,能够提高对枯燥的文字信息的提取速度,发掘
不同个体间的联系,以及为供货方与需求方提供便利的数据交换桥梁。
附图说明
[0016]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0017]图1是数据处理设计流程图;
[0018]图2是数据整理逻辑图;
[0019]图3是知识图谱生成图;
[0020]图4是干法刻蚀机知识图谱实例图;
[0021]图5是设备各项属性图。
具体实施方式
[0022]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0023]实施例:
[0024]一、脚本具体实现过程
[0025]1、主要变量申请:
[0026]filecontent:二维动态字符串数组,用于存放文件读取的全部信息
[0027]partition_id:一维动态数组,用于存放分区id
[0028]partition_id_volume:整型,用于记录数组大小
[0029]equipment_id:一维动态数组,用于存放设备名可能重复的设备id
[0030]equipment_id_volume:整型,用于记录数组大小
[0031]equipment_printf_id:一维动态数组,用于存放设备名不重复的设备id
[0032]equipment_check:二维动态字符串数组,用于存放不重复的设备名
[0033]equipment_check_volume:整型,用于记录数组大小
[0034]equipment_performance_id:整型,记录设备指标id
[0035]equipment_performance_check:二维动态字符串数组,用于存放不重复的设备指标名
[0036]equipment_performance_check_volume:整型,用于记录数组大小
[0037]equipment_foreign_id:一维动态数组,用于存放国外供应商id
[0038]equipment_foreign_check:二维动态字符串数组,用于存放不重复的国外供应商名
[0039]equipment_foreign_check_volume:整型,用于记录数组大小
[0040]equipment_domestic_id:一维动态数组,用于存放国内供应商id
[0041]equipment_domestic_check:二维动态字符串数组,用于存放不重复的国内供应商名
[0042]equipment_domestic_check_volume:整型,用于记录数组大小
[0043]parts_id:一维动态数组,用于存放零部件id
[0044]parts_check:二维动态字符串数组,用于存放不重复的零部件名
[0045]parts_check_volume:整型,用于记录数组大小
[0046]parts_performance_id:一维动态数组,用于存放零部件指标id
[0047]parts_foreign_id:一维动态数组,用于存放国外零部件id
[0048]parts_foreign_check:二维动态字符串数组,用于存放不重复的零部件国外供应商名
[0049]parts_foreign_check_volume:整型,用于记录数组大小
[0050]parts_domestic_id:一维动态数组,用于存放国内零部件id
[0051]parts_domestic_check:二维动态字符串数组,用于存放不重复的零部件国内供应商名
[0052]parts_domestic_check_volume:整型,用于记录数组大小
[0053]2、输入输出:
[0054]输入为固定格式的任意行数表格数据;
[0055]输出为用于描述节点信息的nodes文件与用于描述节点之间关系的edges文件。
[0056]二、分区部分介绍
[0057]1、表格数据存储:
[0058]打开文件:通过gets()函数获取输入的文件绝对路径,用”r”读模式打开该文件;
[0059]行数统计:使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对零散文本数据的可视化知识图谱处理方法,其特征在于,包括:数据整理,通过收集不同个体的各个特征及属性,通过脚本整理成可视化软件所需的三元关系组数据格式;可视化显示,通过可视化软件将文本数据图形化排列,依据任一个体、特征或属性找到不同深度相关性的对象。2.根据权利要求1所述的一种对零散文本数据的可视化知识图谱处理方法,其特征在于:所述数据整理为芯片生产流程中涉及的各个步骤中使用到的设备的相关属性。3.根据权利要求1所述的一种对零散文本数据的可视化知识图谱处理方法,其特征在于:所述数据整理内容包括分区、设备名称、性能指标...

【专利技术属性】
技术研发人员:许鸿舟
申请(专利权)人:无锡芯领域微电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1