数据存储方法及相关装置制造方法及图纸

技术编号:38617721 阅读:12 留言:0更新日期:2023-08-26 23:45
本申请公开了数据存储方法及相关装置,可应用于数据存储领域以及金融领域。本发明专利技术可以通过获得待存储的文档数据;将所述文档数据转化为第一长度的json数据;从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。由此可以看出,本发明专利技术可以提取关键数据存储至xml文件,无需存储所有数据,存储效率较高,并且,本发明专利技术基于哈希值标识不同数据的存储位置,查询效率较高。查询效率较高。查询效率较高。

【技术实现步骤摘要】
数据存储方法及相关装置


[0001]本专利技术涉及数据存储领域,特别涉及一种数据存储方法及相关装置。

技术介绍

[0002]文档数据具备多种存储方式,例如常规数据库、xml、文本和nosql数据库等。目前针对文档数据一般采用集中存储方案,这种方案存储效率比较低并且在文档内容定位时体验不佳,不能快速查询目标内容。

技术实现思路

[0003]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种数据存储方法及相关装置。
[0004]第一方面,一种数据存储方法,包括:
[0005]获得待存储的文档数据;
[0006]将所述文档数据转化为第一长度的json数据;
[0007]从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。
[0008]结合第一方面,在某些可选的实施方式中,所述将所述文档数据转化为第一长度的json数据,包括:
[0009]若所述文档数据是结构化文档,则根据所述结构化文档的结构顺序,将所述结构化文档的各字段依次提取并进行拼接后存储至第一长度的json文件中。
[0010]结合第一方面,在某些可选的实施方式中,所述将所述文档数据转化为第一长度的json数据,包括:
[0011]若所述文档数据是非结构化文档,则根据所述非结构化文档中的各字符的顺序,将所述非结构化文档的各字符依次提取并进行拼接后存储至第一长度的json文件中。
[0012]结合第一方面,在某些可选的实施方式中,所述从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置,包括:
[0013]对所述json数据中的内容进行分词,得到多个词语;
[0014]将各所述词语两两进行组合,得到多组词语;
[0015]针对各所述词语,两两配对进行语义计算,得到对应的语义相似度;
[0016]针对任一组所述词语,若对应的所述语义相似度大于预设相似度阈值,则统计所述词语的使用频率;
[0017]针对所述使用频率最高的词语,生成相应的哈希值;
[0018]将各所述词语按照在所述json数据中的顺序,依次存储至所述xml文件的各存储单元中,并为各所述存储单元分别标识所述哈希值。
[0019]结合上一个实施方式,在某些可选的实施方式中,在所述针对任一组所述词语,若
对应的所述语义相似度大于预设相似度阈值,则统计所述词语的使用频率之后,所述方法还包括:
[0020]针对除了所述使用频率最高的词语之外的其他词语,将所述其他词语添加至对应的相似问字段中;
[0021]针对任一所述存储单元,将对应的所述相似问字段与所述存储单元关联。
[0022]结合第一方面,在某些可选的实施方式中,在从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置之后,所述方法还包括:
[0023]若所述json数据对应存储在至少2份所述xml文件中,则在所述xml文件的底部标识下一份xml文件的位置。
[0024]第二方面,一种数据存储装置,包括:文档获得单元、文档转化单元和数据存储单元;
[0025]所述文档获得单元,用于获得待存储的文档数据;
[0026]所述文档转化单元,用于将所述文档数据转化为第一长度的json数据;
[0027]所述数据存储单元,用于从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。
[0028]结合第二方面,在某些可选的实施方式中,所述文档转化单元,包括:第一转化子单元;
[0029]所述第一转化子单元,用于若所述文档数据是结构化文档,则根据所述结构化文档的结构顺序,将所述结构化文档的各字段依次提取并进行拼接后存储至第一长度的json文件中。
[0030]第三方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的数据存储方法。
[0031]第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的数据存储方法。
[0032]借由上述技术方案,本专利技术提供的一种数据存储方法及相关装置,可以通过获得待存储的文档数据;将所述文档数据转化为第一长度的json数据;从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。由此可以看出,本专利技术可以提取关键数据存储至xml文件,无需存储所有数据,存储效率较高,并且,本专利技术基于哈希值标识不同数据的存储位置,查询效率较高。
[0033]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0034]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术
的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0035]图1示出了本专利技术提供的第一种数据存储方法的流程图;
[0036]图2示出了本专利技术提供的第二种数据存储方法的流程图;
[0037]图3示出了本专利技术提供的第三种数据存储方法的流程图;
[0038]图4示出了本专利技术提供的第四种数据存储方法的流程图;
[0039]图5示出了本专利技术提供的第五种数据存储方法的流程图;
[0040]图6示出了本专利技术提供的第六种数据存储方法的流程图;
[0041]图7示出了本专利技术提供的一种数据存储装置的结构示意图;
[0042]图8示出了本专利技术提供的一种电子设备的结构示意图。
具体实施方式
[0043]文档类型的数据(文档数据)具备多种存储方式,例如常规数据库、xml、文本和nosql数据库等。但是,上述集中存储方案存储效率比较低,不能对文档数据进行相似容量存储从而节省存储空间提高存储效率,并且在文档内容定位时体验不佳,不能较快查询目标内容和关联内容。
[0044]为此,本专利技术建立了一种数据存储方法,该方法能够对文档数据进行特定容量大小集中存储,在存储结构上使用带编号标识的xml存储格式进行存储,加快了内容的查找效率和顺序定位,在特定场景下具有极佳的使用体验。
[0045]需要说明的是,本专利技术提供的数据存储方法及相关装置可用于数据存储领域以及金融领域。上述仅为示例,并不对本专利技术提供的数据存储方法及相关装置的应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:获得待存储的文档数据;将所述文档数据转化为第一长度的json数据;从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。2.根据权利要求1所述的方法,其特征在于,所述将所述文档数据转化为第一长度的json数据,包括:若所述文档数据是结构化文档,则根据所述结构化文档的结构顺序,将所述结构化文档的各字段依次提取并进行拼接后存储至第一长度的json文件中。3.根据权利要求1所述的方法,其特征在于,所述将所述文档数据转化为第一长度的json数据,包括:若所述文档数据是非结构化文档,则根据所述非结构化文档中的各字符的顺序,将所述非结构化文档的各字符依次提取并进行拼接后存储至第一长度的json文件中。4.根据权利要求1所述的方法,其特征在于,所述从所述json数据中提取关键数据存储至xml文件中,并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置,包括:对所述json数据中的内容进行分词,得到多个词语;将各所述词语两两进行组合,得到多组词语;针对各所述词语,两两配对进行语义计算,得到对应的语义相似度;针对任一组所述词语,若对应的所述语义相似度大于预设相似度阈值,则统计所述词语的使用频率;针对所述使用频率最高的词语,生成相应的哈希值;将各所述词语按照在所述json数据中的顺序,依次存储至所述xml文件的各存储单元中,并为各所述存储单元分别标识所述哈希值。5.根据权利要求4所述的方法,其特征在于,在所述针对任一组所述词语,若对应的所述语义相似度大于预设相似度阈值,则统计所述词语的使用频率之后,所述方法还包...

【专利技术属性】
技术研发人员:陶威
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1