【技术实现步骤摘要】
数据聚类的存储方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种数据聚类的存储的方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着大数据及人工智能的兴起,对于庞大数据的需求也越来越高,现有的数据存储多依赖于硬件水平的提升,如扩大硬件的存储容量等方式,扩大硬件存储容量虽然可达到数据存储的目的,但消耗了大量的存储资源,同时在数据读取阶段也会影响读取速度。
技术实现思路
本专利技术提供一种数据聚类的存储方法、装置、电子设备及计算机可读存储介质,其主要目的在于优化存储资源。为实现上述目的,本专利技术提供的一种数据聚类的存储方法,包括:接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量;计算所述数据向量与预先存储在数据库的多组数据簇的相似度得到相似度集;从所述相似度集中提取出数值最大的相似度值,判断所述数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值小于所述预设阈值,将所述数据集存储至所述数据库内单独的存储空间;若 ...
【技术保护点】
1.一种数据聚类的存储方法,其特征在于,所述方法包括:/n接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量;/n计算所述数据向量与预先存储在数据库的多组数据簇的相似度,得到相似度集;/n从所述相似度集中提取出数值最大的相似度值,判断所述数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值小于所述预设阈值,将所述数据集存储至所述数据库内单独的存储空间;/n若所述数值最大的相似度值大于所述预设阈值,在所述数据库内,将所述数据集合并至与所述数值最大的相似度值对应的数据簇中,得到原始合并数据簇,随机确定K个所述原始合并数据簇的簇心;/n根据所述簇心计算所述 ...
【技术特征摘要】
1.一种数据聚类的存储方法,其特征在于,所述方法包括:
接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量;
计算所述数据向量与预先存储在数据库的多组数据簇的相似度,得到相似度集;
从所述相似度集中提取出数值最大的相似度值,判断所述数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值小于所述预设阈值,将所述数据集存储至所述数据库内单独的存储空间;
若所述数值最大的相似度值大于所述预设阈值,在所述数据库内,将所述数据集合并至与所述数值最大的相似度值对应的数据簇中,得到原始合并数据簇,随机确定K个所述原始合并数据簇的簇心;
根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数;
在所述原始合并数据簇内去除聚类系数大于预设聚类系数的数据得到标准合并数据簇。
2.如权利要求1所述的数据聚类的存储方法,其特征在于,所述根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数,包括:
计算所述原始合并数据簇内每个数据xi与所述数据xi在同一簇心的其他所有数据之间的凝聚度a(xi);
在所述原始合并数据簇与所述每组数据簇内,遍历其他K-1个簇心的所有数据;
计算所述其他K-1簇心的所有数据与所述数据xi的分离度,并排序得到分离度最小值b(xi);
根据所述凝聚度和分离度最小值b(xi)计算得出所述聚类系数s(xi)。
3.如权利要求2所述的数据聚类的存储方法,其特征在于,所述聚类系数包括采用如下的方式计算:
其中,a(x)为所述的凝聚度,b(x)为所述分离度最小值,s(x)为所述聚类系数。
4.如权利要求1所述的数据聚类的存储方法,其特征在于,所述随机确定K个所述原始合并数据簇的簇心,包括:
根据所述数据向量的维度构建坐标系;
将所述原始合并数据簇投射到所述坐标系内得到合并坐标数据集;
求解所述合并坐标数据集内数据所在的数据区间,根据所述数据区间确定K值,所述K值作为所述原始合并数据簇的簇心的个数。
5.如权利要求1至4任意一项所述的数据聚类的存储方法,其特征在于,所述将所述数据集进行文本向量化操作得到数据向量,包括:
对所述数据集进行切词、去...
【专利技术属性】
技术研发人员:朱怡霖,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。