数据分类方法、装置以及计算机可读存储介质制造方法及图纸

技术编号：20272704 阅读：31 留言：0更新日期：2019-02-02 03:43

一种数据分类方法、装置以及计算机可读存储介质，所述方法包括：获取自然语言数据；对所述自然语言数据进行预处理，获取每一条自然语言数据对应的代码数据；将每一条代码数据分别划分为n份标签数据；n≥2；根据所述n份标签数据对应的位次顺序，将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。采用上述方案，在计算代码数据之间的相似度时，减少了运算时间，降低了运算成本。

全部详细技术资料下载

【技术实现步骤摘要】
数据分类方法、装置以及计算机可读存储介质
本专利技术涉及数据处理领域，尤其涉及一种数据分类方法、装置以及计算机可读存储介质。
技术介绍
如今，互联网技术飞速发展，各行业数字化信息飞速增长，数据占用的存储空间变得越来越大，对海量数据进行处理、挖掘以及运用成为当下科技型企业竞争中至关重要的能力。科技型企业在收集到的海量数据后，通常需要对数据进行处理，将自然语言变为计算机能够识别的数据，并排除大量相似的数据，避免因重复运算而浪费时间与成本。现有技术中计算相似度的方案是，将获取的自然语言数据处理为二进制数据，并将所有的二进制数据作为一个集合，通过计算机计算这个集合里每条二进制数据与其他二进制数据之间的相似度。然而采用上述方案时，如果一共有x条二进制数据，那么需要进行计算的次数为x(x+1)/2，当集合中的数据量十分庞大时，上述方法需要的运算时间过长，成本较高。
技术实现思路
本专利技术解决的技术问题是数据分类不合理导致对集合内数据进行计算时所需的运算时间过长，成本较高。为解决上述技术问题，本专利技术实施例提供一种数据分类方法，包括：获取自然语言数据；对所述自然语言数据进行预处理，获取每一条自然语言数据对应的代码数据；将每一条代码数据分别划分为n份标签数据；n≥2；根据所述n份标签数据对应的位次顺序，将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。可选的，获取每一条自然语言数据对应的自然语言字段值；对每一条自然语言字段值进行分词处理，并提取相应的关键词；获取每一条自然语言字段值对应的关键词的哈希值；对每一条自然语言字段值对应的关键词的...

【技术保护点】
1.一种数据分类方法，其特征在于，包括：获取自然语言数据；对所述自然语言数据进行预处理，获取每一条自然语言数据对应的代码数据；将每一条代码数据分别划分为n份标签数据；n≥2；根据所述n份标签数据对应的位次顺序，将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。

【技术特征摘要】
1.一种数据分类方法，其特征在于，包括：获取自然语言数据；对所述自然语言数据进行预处理，获取每一条自然语言数据对应的代码数据；将每一条代码数据分别划分为n份标签数据；n≥2；根据所述n份标签数据对应的位次顺序，将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。2.根据权利要求1所述的数据分类方法，其特征在于，所述对所述自然语言数据进行预处理，获取每一条自然语言数据对应的代码数据，包括：获取每一条自然语言数据对应的自然语言字段值；对每一条自然语言字段值进行分词处理，并提取相应的关键词；获取每一条自然语言字段值对应的关键词的哈希值；对每一条自然语言字段值对应的关键词的哈希值进行相似度计算，获取每一条自然语言对应的代码数据。3.根据权利要求2所述的数据分类方法，其特征在于，所述相似度计算包括以下至少一种：加权计算、合并计算和降维计算。4.根据权利要求2所述的数据分类方法，其特征在于，所述代码数据为SimHash签名。5.根据权利要求2所述的数据分类方法，其特征在于，所述对每一条自然语言字段值对应的关键词的哈希值进行相似度计算，获取每一条自然语言对应的代码数据，包括：对每一条自然语言字段值对应的关键词的哈希值进行相似度计算，获取每一条自然语言对应的预设位数的代码数据。6.根据权利要求1所述的数据分类方法，其特征在于，所述将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合，包括：将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合；m＜n。7.一种数据分类装置，其特征在于，包括：获取单元，用于获取自然语言数据...

【专利技术属性】
技术研发人员：汤奇峰，冷如冰，
申请(专利权)人：上海晶赞融宣科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人