数据分类方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:20272704 阅读:31 留言:0更新日期:2019-02-02 03:43
一种数据分类方法、装置以及计算机可读存储介质,所述方法包括:获取自然语言数据;对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;将每一条代码数据分别划分为n份标签数据;n≥2;根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。采用上述方案,在计算代码数据之间的相似度时,减少了运算时间,降低了运算成本。

【技术实现步骤摘要】
数据分类方法、装置以及计算机可读存储介质
本专利技术涉及数据处理领域,尤其涉及一种数据分类方法、装置以及计算机可读存储介质。
技术介绍
如今,互联网技术飞速发展,各行业数字化信息飞速增长,数据占用的存储空间变得越来越大,对海量数据进行处理、挖掘以及运用成为当下科技型企业竞争中至关重要的能力。科技型企业在收集到的海量数据后,通常需要对数据进行处理,将自然语言变为计算机能够识别的数据,并排除大量相似的数据,避免因重复运算而浪费时间与成本。现有技术中计算相似度的方案是,将获取的自然语言数据处理为二进制数据,并将所有的二进制数据作为一个集合,通过计算机计算这个集合里每条二进制数据与其他二进制数据之间的相似度。然而采用上述方案时,如果一共有x条二进制数据,那么需要进行计算的次数为x(x+1)/2,当集合中的数据量十分庞大时,上述方法需要的运算时间过长,成本较高。
技术实现思路
本专利技术解决的技术问题是数据分类不合理导致对集合内数据进行计算时所需的运算时间过长,成本较高。为解决上述技术问题,本专利技术实施例提供一种数据分类方法,包括:获取自然语言数据;对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;将每一条代码数据分别划分为n份标签数据;n≥2;根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。可选的,获取每一条自然语言数据对应的自然语言字段值;对每一条自然语言字段值进行分词处理,并提取相应的关键词;获取每一条自然语言字段值对应的关键词的哈希值;对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。可选的,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。可选的,所述代码数据为SimHash签名。可选的,对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。可选的,将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。本专利技术还提供一种数据分类装置,其特征在于,包括:获取单元,用于获取自然语言数据;处理单元,用于对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;划分单元,用于将每一条代码数据分别划分为n份标签数据;n≥2;分类单元,用于根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。可选的,所述处理单元,用于获取每一条自然语言数据对应的自然语言字段值;对每一条自然语言字段值进行分词处理,并提取相应的关键词;获取每一条自然语言字段值对应的关键词的哈希值;对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。可选的,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。可选的,所述代码数据为SimHash签名。可选的,所述处理单元,用于对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。可选的,所述分类单元,用于将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。本专利技术还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行上述任一种的数据分类方法的步骤。本专利技术还提供一种数据分类装置,包括存储器和处理器,所述存储器上存储有计算机指令,其特征在于,所述计算机指令运行时所述处理器执行上述任一种的数据分类方法的步骤。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:将获取的自然语言数据进行预处理,获取各条自然语言对应的代码数据,将代码数据划分为n份标签数据,将相同标签数据处于相同位次的代码数据作为一个全量集合,最终将代码数据分类为多个全量集合。在进行相似度计算时,只需要分别计算每个全量集合内代码数据之间的相似度,因此可以大大减少运算时间,降低运算成本。附图说明图1是本专利技术实施例提供的一种数据分类方法的流程示意图;图2是本专利技术实施例提供的一种数据分类装置的结构示意图。具体实施方式科技型企业在收集到的海量数据后,通常需要对数据进行处理,将自然语言变为计算机能够识别的数据,并排除大量相似的数据,避免因重复运算而浪费时间与成本。现有技术中计算相似度的方案是,将获取的自然语言数据处理为二进制数据,并将所有的二进制数据作为一个集合,通过计算机计算这个集合里每条二进制数据与其他二进制数据之间的相似度。然而采用上述方案时,如果一共有x条二进制数据,那么需要进行计算的次数为x(x+1)/2,当集合中的数据量十分庞大时,上述方法需要的运算时间过长,成本较高。本专利技术实施例中,将获取的自然语言数据进行预处理,获取各条自然语言对应的代码数据,将代码数据划分为n份标签数据,将相同标签数据处于相同位次的代码数据作为一个全量集合,最终将代码数据分类为多个全量集合。在进行相似度计算时,只需要分别计算每个全量集合内代码数据之间的相似度,大大减少了运算时间,降低了运算成本。为使本专利技术的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。参阅图1,本专利技术实施例提供的一种数据分类方法,具体步骤如下,其中;步骤S101,获取自然语言数据。在具体实施中,可以从互联网平台获取自然语言数据,也可以从数据库获取自然语言数据。在实际应用中,用户可以根据实际需求确定自然语言数据的来源,本专利技术并不对自然语言数据的获取来源做限定。步骤S102,对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据。在具体实施中,由于计算机无法直接对自然语言数据进行处理,因此可以先对自然语言数据进行预处理,将自然语言数据转换为计算机可读的代码数据。在具体实施中,计算机可读的代码数据通常表现为二进制数据,用户也可以根据实际需求确定代码数据的格式。步骤S103,将每一条代码数据分别划分为n份标签数据。在具体实施中,n的取值通常大于等于2。在具体实施中,n的取值由用户根据实际需求确定。在具体实施中,代码数据的划分方式由用户根据实际需求确定。例如,代码数据10011100,n=4,对应的标签数据可以分别是10,01,11和00,也可以是100,111,0和0。在具体实施中,通常每一条代码数据的划分方式均是相同的。例如,第一条代码数据为10011100,对应的标签数据分别是10,01,11和00;第二条代码数据为11100011,对应的标签数据分别是11,10,00,11。步骤S104,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。在具体实施中,根据所述n份标签数据对应的位次顺序。例如,代码数据A按照自身的数据排列顺序被划分为11,00,11和00四个标签数据,代码数据B按照自身的数据排列顺序被划分为11,11,00和11四个标签数据,由于代码数据A和代码数据B中的第一位次的标签数据是相同的,因此可以将代码数据A与代码数据B划分于同一全量集合。在具体实施中,在计算代码数据之间的相似度时,是根据代码数据间相同位次的数据计算,因此,不同全量集本文档来自技高网...

【技术保护点】
1.一种数据分类方法,其特征在于,包括:获取自然语言数据;对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;将每一条代码数据分别划分为n份标签数据;n≥2;根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取自然语言数据;对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;将每一条代码数据分别划分为n份标签数据;n≥2;根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。2.根据权利要求1所述的数据分类方法,其特征在于,所述对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据,包括:获取每一条自然语言数据对应的自然语言字段值;对每一条自然语言字段值进行分词处理,并提取相应的关键词;获取每一条自然语言字段值对应的关键词的哈希值;对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。3.根据权利要求2所述的数据分类方法,其特征在于,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。4.根据权利要求2所述的数据分类方法,其特征在于,所述代码数据为SimHash签名。5.根据权利要求2所述的数据分类方法,其特征在于,所述对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据,包括:对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。6.根据权利要求1所述的数据分类方法,其特征在于,所述将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合,包括:将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。7.一种数据分类装置,其特征在于,包括:获取单元,用于获取自然语言数据...

【专利技术属性】
技术研发人员:汤奇峰冷如冰
申请(专利权)人:上海晶赞融宣科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1