当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于知识图谱的大数据显示方法技术

技术编号:24121600 阅读:15 留言:0更新日期:2020-05-13 03:15
本发明专利技术中保护一种基于知识图谱的大数据显示方法,知识图谱的展示方法通过数据元素的语义描述信息进行高频元素文本文档统计汇总,采用关系化布局算法,相对于相关技术中的知识图谱展示方式,采用本发明专利技术实施例中的知识图谱展示方式可以有效解决相关技术中存在的知识图谱展示缓慢的问题,达到快速有效的展示知识图谱的效果;并且其采用知识图谱美化算法将知识图谱中降噪处理知识图谱中的冲突现象,采用美化算子以图结构为基础,以实体图谱层级为起点按照边和图谱层级的关系对知识图谱中错误的实体和关系进行美化并对美化后的知识图谱进行评价,保证了知识图谱的展示效果符合视觉需要。

【技术实现步骤摘要】
一种基于知识图谱的大数据显示方法
本专利技术涉及知识图谱领域,具体而言,涉及一种基于知识图谱的大数据显示方法。
技术介绍
知识图谱(KnowledgeGraph/Vault)又称为科学知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,它充分利用人工智能(AI,ArtificialIntelligence)技术把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制抽象成实体而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。在进行知识图谱的页面展示时,经常因为展示的数据(图谱层级+关系)数量巨大,而导致无法展示,甚至机器崩溃。因此,在相关技术中,在进行页面展示的时候,一般会通过一定的延迟,进行缓慢加载和缓慢渲染,进行更大数据量的展示。但是上述处理方式并不能从根本上解决知识图谱数据量大,无法展示的问题;并且当知识图谱中包括的数据量进一步加大时,依然会出现崩溃的问题,从而导致展示速度更加缓慢。面对庞大用户数据,必然要面临信息超载的问题,要解决这样的问题有两种方式,一种是增加工作人数,这样势必增加管理与生产成本,另一种方法是利用计算机可视化技术在有限的用户界面中对多维复杂的数据以符合感知与认知规律的方式进行图形呈现,帮助发现洞察数据的真实含义。
技术实现思路
鉴于针对大数据可视化出现的上述问题,本专利技术请求保护一种基于知识图谱的大数据显示方法,可有效的对数据进行知识图谱的可视化展示,并可对图谱进行质量修订和评价。本专利技术请求保护一种基于知识图谱的大数据显示方法,其特征在于:步骤1:获取大数据地址信息,下载大数据分页数据内容,对内容信息进行层级分析,从上所述大数据分页数据中提取出用户关注的信息并进行数据采集,形成数据采集文档并存储;步骤2:对数据采集文档中所包含不同类型数据进行可视化编码,以合适呈现方式设计可视化图形进行元素抽取,然后依据数据采集文档中句子计算任意两个元素语之间的语义联系形成一个语义描述矩阵,矩阵中对应位置的值代表着元素之间语义描述的远近,得到文本中元素之间的语义描述;步骤3:依据语义描述矩阵构建图谱语料,对图谱语料进行停用词和表达符号的删除处理,将语料分词后建立元素矩阵,进行高频元素统计,获得高频元素文本文档;步骤4:通过所述高频元素文本文档,采用关系化布局算法,将所述高频元素文本文档的元素设置在二维空间上,元素之间的距离完全取决于它们之间的语义描述,将摆放好的元素依据它们之间的语义描述进行聚类,使得同一个聚类的信息表达一个主题,将聚类信息通过三级影响度标识并将所述三级影响度标识标注于构建的知识图谱旁;步骤5:依据三级影响度标识标注的知识图谱,使用元素语义,以适合基于语义的文本可视化展示中语义信息的保留,采用知识图谱重叠消除算法,去除知识图谱中的多层重复图层;步骤6:采用知识图谱美化算法将知识图谱中降噪处理知识图谱中的冲突现象,采用美化算子以图结构为基础,以实体图谱层级为起点按照边和图谱层级的关系对知识图谱中错误的实体和关系进行美化;步骤7:对美化后的知识图谱进行评价,所述评价指标包括:层级数据、时域数据和主题文本数据。本专利技术中的知识图谱的展示方法通过数据元素的语义描述信息进行高频元素文本文档统计汇总,采用关系化布局算法,相对于相关技术中的知识图谱展示方式,采用本专利技术实施例中的知识图谱展示方式可以有效解决相关技术中存在的知识图谱展示缓慢的问题,达到快速有效的展示知识图谱的效果;并且其通过对生成的知识图谱进行美化降噪处理知识图谱中的冲突现象,对美化后的知识图谱进行评价,保证了知识图谱的展示效果符合视觉需要。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了根据本专利技术种基于知识图谱的大数据显示方法的工作流程图;图2示出了根据本专利技术种基于知识图谱的大数据显示方法实施例一的工作流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。附图1示出了根据本专利技术种基于知识图谱的大数据显示方法的工作流程图。本专利技术请求保护一种基于知识图谱的大数据显示方法,其特征在于:步骤1:获取大数据地址信息,下载大数据分页数据内容,对内容信息进行层级分析,从上所述大数据分页数据中提取出用户关注的信息并进行数据采集,形成数据采集文档并存储;步骤2:对数据采集文档中所包含不同类型数据进行可视化编码,以合适呈现方式设计可视化图形进行元素抽取,然后依据数据采集文档中句子计算任意两个元素语之间的语义联系形成一个语义描述矩阵,矩阵中对应位置的值代表着元素之间语义描述的远近,得到文本中元素之间的语义描述;步骤3:依据语义描述矩阵构建图谱语料,对图谱语料进行停用词和表达符号的删除处理,将语料分词后建立元素矩阵,进行高频元素统计,获得高频元素文本文档;步骤4:通过所述高频元素文本文档,采用关系化布局算法,将所述高频元素文本文档的元素设置在二维空间上,元素之间的距离完全取决于它们之间的语义描述,将摆放好的元素依据它们之间的语义描述进行聚类,使得同一个聚类的信息表达一个主题,将聚类信息通过三级影响度标识并将所述三级影响度标识标注于构建的知识图谱旁;步骤5:依据三级影响度标识标注的知识图谱,使用元素语义,以适合基于语义的文本可视化展示中语义信息的保留,采用知识图谱重叠消除算法,去除知识图谱中的多层重复图层;步骤6:采用知识图谱美化算法将知识图谱中降噪处理知识图谱中的冲突现象,采用美化算子以图结构为基础,以实体图谱层级为起点按照边和图谱层级的关系对知识图谱中错误的实体和关系进行美化;步骤7:对美化后的知识图谱进行评价,所述评价指标包括:层级数据、时域数据和主题文本数据。优选的,所述步骤1:获取大数据地址信息,下载大数据分页数据内容,对内容信息进行层级分析,从上所述大数据分页数据中提取出用户关注的信息并进行数据采集,形成数据采集文档并存储,具体包括:对下载的大数据分页数据内容进行层级划分,社交网络层为最顶层(根图谱层级),其下层(子图谱层级)是包括各类分区的区域层,在区域层下是包含各类论坛的论坛层,直到社区底层的主题层,采集用户关注的信息数据;对采集到的所述用户关注的信息数据进行数据处理,并以结构化的方式存储起来,所述结构化方式为JSON数据结构存储,所有论坛以对象数组的形式保存,每个对象包括论坛名称、地址、层级深度、父层级名称、子层级名称矩阵、当日主题数、主题总数以及本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的大数据显示方法,其特征在于:/n步骤1:获取大数据地址信息,下载大数据分页数据内容,对内容信息进行层级分析,从上所述大数据分页数据中提取出用户关注的信息并进行数据采集,形成数据采集文档并存储;/n步骤2:对数据采集文档中所包含不同类型数据进行可视化编码,以合适呈现方式设计可视化图形进行元素抽取,然后依据数据采集文档中句子计算任意两个元素语之间的语义联系形成一个语义描述矩阵,矩阵中对应位置的值代表着元素之间语义描述的远近,得到文本中元素之间的语义描述;/n步骤3:依据语义描述矩阵构建图谱语料,对图谱语料进行停用词和表达符号的删除处理,将语料分词后建立元素矩阵,进行高频元素统计,获得高频元素文本文档;/n步骤4:通过所述高频元素文本文档,采用关系化布局算法,将所述高频元素文本文档的元素设置在二维空间上,元素之间的距离完全取决于它们之间的语义描述,将摆放好的元素依据它们之间的语义描述进行聚类,使得同一个聚类的信息表达一个主题,将聚类信息通过三级影响度标识并将所述三级影响度标识标注于构建的知识图谱旁;/n步骤5:依据三级影响度标识标注的知识图谱,使用元素语义,以适合基于语义的文本可视化展示中语义信息的保留,采用知识图谱重叠消除算法,去除知识图谱中的多层重复图层;/n步骤6:采用知识图谱美化算法将知识图谱中降噪处理知识图谱中的冲突现象,采用美化算子以图结构为基础,以实体图谱层级为起点按照边和图谱层级的关系对知识图谱中错误的实体和关系进行美化;/n步骤7:对美化后的知识图谱进行评价,所述评价指标包括:层级数据、时域数据和主题文本数据。/n...

【技术特征摘要】
1.一种基于知识图谱的大数据显示方法,其特征在于:
步骤1:获取大数据地址信息,下载大数据分页数据内容,对内容信息进行层级分析,从上所述大数据分页数据中提取出用户关注的信息并进行数据采集,形成数据采集文档并存储;
步骤2:对数据采集文档中所包含不同类型数据进行可视化编码,以合适呈现方式设计可视化图形进行元素抽取,然后依据数据采集文档中句子计算任意两个元素语之间的语义联系形成一个语义描述矩阵,矩阵中对应位置的值代表着元素之间语义描述的远近,得到文本中元素之间的语义描述;
步骤3:依据语义描述矩阵构建图谱语料,对图谱语料进行停用词和表达符号的删除处理,将语料分词后建立元素矩阵,进行高频元素统计,获得高频元素文本文档;
步骤4:通过所述高频元素文本文档,采用关系化布局算法,将所述高频元素文本文档的元素设置在二维空间上,元素之间的距离完全取决于它们之间的语义描述,将摆放好的元素依据它们之间的语义描述进行聚类,使得同一个聚类的信息表达一个主题,将聚类信息通过三级影响度标识并将所述三级影响度标识标注于构建的知识图谱旁;
步骤5:依据三级影响度标识标注的知识图谱,使用元素语义,以适合基于语义的文本可视化展示中语义信息的保留,采用知识图谱重叠消除算法,去除知识图谱中的多层重复图层;
步骤6:采用知识图谱美化算法将知识图谱中降噪处理知识图谱中的冲突现象,采用美化算子以图结构为基础,以实体图谱层级为起点按照边和图谱层级的关系对知识图谱中错误的实体和关系进行美化;
步骤7:对美化后的知识图谱进行评价,所述评价指标包括:层级数据、时域数据和主题文本数据。


2.如权利要求1所述的一种基于知识图谱的大数据显示方法,其特征在于:
所述步骤1:获取大数据地址信息,下载大数据分页数据内容,对内容信息进行层级分析,从上所述大数据分页数据中提取出用户关注的信息并进行数据采集,形成数据采集文档并存储,具体包括:
对下载的大数据分页数据内容进行层级划分,社交网络层为最顶层(根图谱层级),其下层(子图谱层级)是包括各类分区的区域层,在区域层下是包含各类论坛的论坛层,直到社区底层的主题层,采集用户关注的信息数据;
对采集到的所述用户关注的信息数据进行数据处理,并以结构化的方式存储起来,所述结构化方式为JSON数据结构存储,所有论坛以对象数组的形式保存,每个对象包括论坛名称、地址、层级深度、父层级名称、子层级名称矩阵、当日主题数、主题总数以及发帖总数,周期性在虚拟机服务器后台进行定时任务,对整个社交网络数据进行遍历,将论坛对象数组添加时间信息后,存入数据库;
所述将论坛对象数组添加时间信息时选择论坛数组上的主题Ti相应的部分Ai,其时间信息采用区间标识,开始标识tstart和结束标识tend之间的时间构成了所述区间标识[tstart·tend],将所述区间等分成m-1段,每个时间段的长度为得到均分时刻tstart+pΔt,其中p=1,2,…m-2;
依次以均分时刻tstart+pΔt为核心,依据Δt在部分Ai上挖取子部分Ai,j在每一个子部分上放置所述对象中的元素值,生成主题Ti的知识图谱草稿并存入数据库。


3.如权利要求1所述的一种基于知识图谱的大数据显示方法,其特征在于:
所述步骤2:对数据采集文档中所包含不同类型数据进行可视化编码,以合适呈现方式设计可视化图形进行元素抽取,然后依据数据采集文档中句子计算任意两个元素语之间的语义联系形成一个语义描述矩阵,矩阵中对应位置的值代表着元素之间语义描述的远近,得到文本中元素之间的语义描述,具体包括:
将所述不同类型数据进行向量转写,采用行向量获取各...

【专利技术属性】
技术研发人员:陈琳
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1