System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据存储方法、装置、设备及介质制造方法及图纸_技高网

一种数据存储方法、装置、设备及介质制造方法及图纸

技术编号:40874844 阅读:2 留言:0更新日期:2024-04-08 16:43
本申请涉及计算机技术领域,具体涉及一种数据存储方法、装置、设备及介质,用于构建非结构化数据之间的关联关系,从而提高非结构化数据的查询效率。该方法包括:第一设备可以根据自然语言处理方法对每个非结构化数据的文本进行分词处理,获每个非结构化数据对应的多个词语。第一设备可以根据预设的词向量模型对多个词语进行向量转化处理,获取该非结构化数据的向量。在获取多个非结构化的向量后,第一设备根据多个非结构化数据对应的向量之间的相似度,确定多个非结构化数据对应的簇,并根据非结构化数据对应的簇,将多个非结构化数据存储到相应的存储空间。其中,不同的簇对应不同的主题模式,不同的簇对应的存储空间。

【技术实现步骤摘要】

本申请涉及计算机,具体涉及一种数据存储方法、装置、设备及介质


技术介绍

1、在计算机
中,数据可以分为结构化数据和非结构化数据。其中,结构化数据是高度组织和整齐格式化的数据,能够用数据或统一的字符表示的信息,如数字、符号等。非结构化数据是结构化数据之外,数据结构不规则或不完整,没有预定义模型的数据。例如,非结构化数据包括文本文件、图片、音频数据和视频数据等。

2、在现有技术中,存储非结构数据的方案通常会将非结构化数据的存储路径或标识做为一种字段存储在数据库中。通过路径信息或标识仅能查询到相应的非结构化数据,无法获得与该非结构化数据相关的数据。因此,采用该存储方式存储非结构化数据,导致非结构化数据的查询效率降低。


技术实现思路

1、本申请实施例提供一种数据存储方法、装置、设备及介质,用于构建非结构化数据之间的关联关系,从而提高非结构化数据的查询效率。

2、第一方面,本申请提供一种数据存储方法,该方法包括:获取多个待存储的非结构化数据。根据自然语言处理方法分别对多个非结构化数据中的文本进行分词处理,获得多个非结构化数据对应的多个词语。根据预设的词向量模型分别对多个非结构化数据对应的词语进行向量转化处理,获得多个非结构化数据对应的向量。根据多个非结构化数据对应的向量之间的相似度,确定多个非结构化数据对应的簇,不同的簇对应不同的存储空间。根据非结构化数据对应的簇,将多个非结构化数据存储到簇对应的存储空间。

3、采用该方法,根据多个非结构化数据的向量的相似度,将多个结构化数据划分为不同的簇,并根据非结构化数据对应的簇,将非结构化数据存储至相应的存储空间。也就是说,可以将向量相似的非结构化数据存储在相同的存储空间,从而构建多个非结构化数据之间的关联关系。此外,由于不同的簇对应不同的主题模式,则可以构建多个非结构化数据与主题模式之间的关系,从而实现根据主题模式进行查询,可以获得多个非结构化数据,提高非结构化数据的查询效率。

4、在一种可实现方式中,根据自然语言处理方法对多个非结构化数据中的文本进行预处理,获得预处理后的多个非结构化数据。根据预处理后的多个非结构化数据进行分词处理,获得多个非结构化数据对应的多个词语。

5、通过该方式,对文本进行去除噪声处理,可以提高后续对文本进行分词的准确性。根据停用词对文本进行过滤处理,可以节省存储空间和提高搜索效率。

6、在一种可实现方式中,对非结构化数据的多个词语进行词性标注,确定多个词语的语义类别。根据多个词语的语义类别确定非结构化数据对应簇的主题模式。

7、通过该方式,根据多个词语的语义类别确定非结构化数据对应簇的主题模式,构建非结构化数据之间的关联关系,从而可以提高非结构化数据的查询效率。

8、在一种可实现方式中,用于指示主题模式的数据为结构化数据。

9、通过该方式,可以构建非结构化数据与结构化数据之间的关联关系,从而提高非结构化数据的查询效率。

10、第二方面,本申请提供一种数据存储装置,该装置包括通信模块和处理模块。其中,通信模块,用于获取多个待存储的非结构化数据。处理模块,用于根据自然语言处理装置分别对多个非结构化数据中的文本进行分词处理,获得多个非结构化数据对应的多个词语。处理模块,还用于根据预设的词向量模型分别对多个非结构化数据对应的词语进行向量转化处理,获得多个非结构化数据对应的向量。处理模块,还用于根据多个非结构化数据对应的向量之间的相似度,确定多个非结构化数据对应的簇,不同的簇对应不同的存储空间。处理模块,还用于根据非结构化数据对应的簇,将多个非结构化数据存储到簇对应的存储空间。

11、在一种可实现方式中,处理模块具体用于:根据自然语言处理装置对多个非结构化数据中的文本进行预处理,获得预处理后的多个非结构化数据。根据预处理后的多个非结构化数据进行分词处理,获得多个非结构化数据对应的多个词语。

12、在一种可实现方式中,处理模块还用于:对非结构化数据的多个词语进行词性标注,确定多个词语的语义类别。根据多个词语的语义类别确定非结构化数据对应簇的主题模式。

13、在一种可实现方式中,用于指示主题模式的数据为结构化数据。

14、第三方面,本申请提供一种电子设备,包括:

15、存储器,用于存储程序指令;

16、处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。

17、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行第一方面中任一项所述的方法。

18、第五方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。

19、第二方面至第五方面及其任意一种设计所带来的技术效果可参见第一方面中对应的设计所带来的技术效果,此处不再赘述。

本文档来自技高网...

【技术保护点】

1.一种数据存储方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述根据自然语言处理方法分别对所述多个非结构化数据中的文本进行分词处理,获得所述多个非结构化数据对应的多个词语,包括:

3.如权利要求1所述的方法,其特征在于,所述方法还包括:

4.如权利要求1或3所述的方法,其特征在于,用于指示所述主题模式的数据为结构化数据。

5.一种数据存储装置,其特征在于,所述装置包括:

6.如权利要求5所述的装置,其特征在于,所述处理模块具体用于:

7.如权利要求5所述的装置,其特征在于,所述处理模块还用于:

8.如权利要求5或7所述的装置,其特征在于,用于指示所述主题模式的数据为结构化数据。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-4中任一项所述的方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-4中任一项所述的方法。

...

【技术特征摘要】

1.一种数据存储方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述根据自然语言处理方法分别对所述多个非结构化数据中的文本进行分词处理,获得所述多个非结构化数据对应的多个词语,包括:

3.如权利要求1所述的方法,其特征在于,所述方法还包括:

4.如权利要求1或3所述的方法,其特征在于,用于指示所述主题模式的数据为结构化数据。

5.一种数据存储装置,其特征在于,所述装置包括:

6.如权利要求5所述的装置,其特征在于,所述处理模块具体用于:

7....

【专利技术属性】
技术研发人员:魏启鹏郝香蒋红宇
申请(专利权)人:北京海泰方圆科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1