一种基于样本信息的数据存储可视化方法和装置制造方法及图纸

技术编号：37724190 阅读：27 留言：0更新日期：2023-06-02 00:26

本发明专利技术涉及数据存储技术领域，揭露了一种基于样本信息的数据存储可视化方法，包括：逐个选取数据清洗后的样本数据集中的标准样本数据作为目标标准样本数据，将目标标准样本数据拆分成目标样本文本以及目标样本图集；将目标样本文本分段成样本文本段集，提取出样本文本段集的标准文本语义；提取出目标样本图集中各个目标样本图片的初级图片语义和次级图片语义，并将初级图片语义和次级图片语义汇集成标准图片语义；将标准文本语义和标准图片语义汇集成标准样本语义，根据标准样本语义对目标标准样本数据进行存储，并生成可视化存储界面。本发明专利技术还提出一种基于样本信息的数据存储可视化装置。本发明专利技术可以提高可视化数据存储时的灵活性。的灵活性。的灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于样本信息的数据存储可视化方法和装置

[0001]本专利技术涉及数据存储
，尤其涉及一种基于样本信息的数据存储可视化方法和装置。

技术介绍

[0002]数据存储是指以某种格式将数据记录在计算机内部或外部存储介质上，但是，为了便于数据与用户的交互，需要对存储的数据进行分类展示，进行存储数据的可视化展示。
[0003]现有的数据存储可视化技术多为基于数据格式的可视化展示，即根据每份数据的数据格式生成存储数据的类别占比扇形图或柱状图，例如，将数据分类成音频、视频、图片以及文本等进行存储，实际应用中，对于网页数据或图文数据的存储，简单的数据格式存储的直观度较低，数据格式的可视化存储无法区别网页数据的内容信息区别，可能导致进行可视化数据存储时的灵活性较低。

技术实现思路

[0004]本专利技术提供一种基于样本信息的数据存储可视化方法和装置，其主要目的在于解决进行可视化数据存储时的灵活性较低的问题。
[0005]为实现上述目的，本专利技术提供的一种基于样本信息的数据存储可视化方法，包括：获取预...

【技术保护点】

【技术特征摘要】
1.一种基于样本信息的数据存储可视化方法，其特征在于，所述方法包括：获取预设的样本数据集，对所述样本数据集进行初级数据清洗操作，得到标准样本数据集，逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据，将所述目标标准样本数据拆分成目标样本文本以及目标样本图集；将所述目标样本文本分段成样本文本段集，对所述样本文本段集中的各样本文本段进行向量化操作，得到文本段向量集，对所述文本段向量集进行段向量聚类操作，得到文本段类集，提取出所述文本段类集中每个文本段类的文本语义，得到文本语义集，并根据所述文本语义集生成标准文本语义；逐个选取所述目标样本图集中的样本图片作为目标样本图片，提取出所述目标样本图片对应的标准样本图片特征，从所述标准样本图片特征中提取出初级图片语义；依次对所述目标样本图片进行文本定位以及图片分割操作，得到样本文本图片，依次对所述样本文本图片进行文字识别和文本语义识别操作，得到次级图片语义，将所述初级图片语义和所述次级图片语义汇集成单图图片语义，并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义；将所述标准文本语义和所述标准图片语义汇集成标准样本语义，根据所述标准样本语义对所述目标标准样本数据进行存储，直至所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时，得到存储样本数据库，并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。2.如权利要求1所述的基于样本信息的数据存储可视化方法，其特征在于，所述对所述样本数据集进行初级数据清洗操作，得到标准样本数据集，包括：逐个选取所述样本数据集中的样本数据作为目标样本数据，判断所述目标样本数据的数据容量大小是否大于预设的容量阈值；若否，则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤；若是，则将所述样本数据添加到预设的初级样本数据集中，直至所述目标样本数据为所述样本数据集中的最后一个样本数据时，得到次级样本数据集；从所述次级样本数据集中筛除重复的样本数据，得到标准样本数据集。3.如权利要求1所述的基于样本信息的数据存储可视化方法，其特征在于，所述对所述文本段向量集进行段向量聚类操作，得到文本段类集，包括：将所述文本段向量集拆分成多个初级文本段向量组，在各初级文本段向量组中随机选取出初级文本段中心向量；利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离：；其中，是指所述文本段距离，是指所述文本段向量中的文本词向量的总数，且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数，是指第个文本词向量，是指所述文本段向量中的第个文本词向量，是指所述初级
文本段中心向量中的第个文本词向量，是预设的基准系数，是预设的平衡系数；根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类，得到多个次级文本段向量组；逐个计算出各次级文本段向量组的次级文本段中心向量，并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离，并将所有的文本段中心距离的平均值作为标准文本段中心距离；根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类，并将所有的文本段类汇集成文本段类集。4.如权利要求1所述的基于样本信息的数据存储可视化方法，其特征在于，所述提取出所述文本段类集中每个文本段类的文本语义，得到文本语义集，包括：逐个选取所述文本段类集中的文本段类作为目标文本段类，将所述目标文本段类的聚类中心作为目标类向量；对所述目标类向量进行格式转码，得到目标类语义；利用预设的语义关键词库对所述目标类语义进行关键词替换，得到文本语义，并将所有的文本语义汇集成文本语义集。5.如权利要求1所述的基于样本信息的数据存储可视化方法，其特征在于，所述提取出所述目标样本图片对应的标准样本图片特征，包括：对所述目标样本图片进行灰度化操作，得到灰度样本图片；利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集；逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片，从所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片，对所述目标色彩图片进行色彩分析，得到样本色彩特征；分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征；利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征；将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征，并将所有的样本描述主体特征汇集成标准样本图片特征。6.如权利要求5所述的基于样本信息的数据存储可视化方法，其特征在于，所述利用预设的灰度变化率算法从所述灰度样本图片中...

【专利技术属性】
技术研发人员：李康，接佳乐，
申请(专利权)人：杭州镭湖科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人