数据存储方法及相关装置制造方法及图纸

技术编号：38617721 阅读：12 留言：0更新日期：2023-08-26 23:45

本申请公开了数据存储方法及相关装置，可应用于数据存储领域以及金融领域。本发明专利技术可以通过获得待存储的文档数据；将所述文档数据转化为第一长度的json数据；从所述json数据中提取关键数据存储至xml文件中，并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。由此可以看出，本发明专利技术可以提取关键数据存储至xml文件，无需存储所有数据，存储效率较高，并且，本发明专利技术基于哈希值标识不同数据的存储位置，查询效率较高。查询效率较高。查询效率较高。

全部详细技术资料下载

【技术实现步骤摘要】
数据存储方法及相关装置

[0001]本专利技术涉及数据存储领域，特别涉及一种数据存储方法及相关装置。

技术介绍

[0002]文档数据具备多种存储方式，例如常规数据库、xml、文本和nosql数据库等。目前针对文档数据一般采用集中存储方案，这种方案存储效率比较低并且在文档内容定位时体验不佳，不能快速查询目标内容。

技术实现思路

[0003]鉴于上述问题，本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种数据存储方法及相关装置。
[0004]第一方面，一种数据存储方法，包括：
[0005]获得待存储的文档数据；
[0006]将所述文档数据转化为第一长度的json数据；
[0007]从所述json数据中提取关键数据存储至xml文件中，并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。
[0008]结合第一方面，在某些可选的实施方式中，所述将所述文档数据转化为第一长度的json数据，包括：
[0009]若所述文档数据是结构化文档，则根据所述结构化文档的结构顺序，将所述结构化文档的各字段依次提取并进行拼接后存储至第一长度的json文件中。
[0010]结合第一方面，在某些可选的实施方式中，所述将所述文档数据转化为第一长度的json数据，包括：
[0011]若所述文档数据是非结构化文档，则根据所述非结构化文档中的各字符的顺序，将所述非结构化文档的各字符依次提取并进行拼接后存储至第一长度的json文件中。
[0012]结...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法，其特征在于，包括：获得待存储的文档数据；将所述文档数据转化为第一长度的json数据；从所述json数据中提取关键数据存储至xml文件中，并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置。2.根据权利要求1所述的方法，其特征在于，所述将所述文档数据转化为第一长度的json数据，包括：若所述文档数据是结构化文档，则根据所述结构化文档的结构顺序，将所述结构化文档的各字段依次提取并进行拼接后存储至第一长度的json文件中。3.根据权利要求1所述的方法，其特征在于，所述将所述文档数据转化为第一长度的json数据，包括：若所述文档数据是非结构化文档，则根据所述非结构化文档中的各字符的顺序，将所述非结构化文档的各字符依次提取并进行拼接后存储至第一长度的json文件中。4.根据权利要求1所述的方法，其特征在于，所述从所述json数据中提取关键数据存储至xml文件中，并计算各所述关键数据的哈希值以标识至所述xml文件的对应位置，包括：对所述json数据中的内容进行分词，得到多个词语；将各所述词语两两进行组合，得到多组词语；针对各所述词语，两两配对进行语义计算，得到对应的语义相似度；针对任一组所述词语，若对应的所述语义相似度大于预设相似度阈值，则统计所述词语的使用频率；针对所述使用频率最高的词语，生成相应的哈希值；将各所述词语按照在所述json数据中的顺序，依次存储至所述xml文件的各存储单元中，并为各所述存储单元分别标识所述哈希值。5.根据权利要求4所述的方法，其特征在于，在所述针对任一组所述词语，若对应的所述语义相似度大于预设相似度阈值，则统计所述词语的使用频率之后，所述方法还包...

【专利技术属性】
技术研发人员：陶威，
申请(专利权)人：中国银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人