一种数据处理方法及系统技术方案

技术编号:36183856 阅读:23 留言:0更新日期:2022-12-31 20:43
本发明专利技术公开了一种数据处理方法,包括:提取待归类的数据集中包含的数据标签组;根据所述数据标签组确定所述数据集的应用领域;根据所述应用领域查询预设的领域

【技术实现步骤摘要】
一种数据处理方法及系统


[0001]本专利技术涉及数据处理
,特别涉及一种数据处理方法及系统。

技术介绍

[0002]随着科学技术的不断发展,大数据技术深入各行各业,几乎涵盖了人类全部的日常生活生成活动。面对日益增多的数据,数据处理技术显得愈发的重要。作为数据处理技术中基础技术之一的数据分类技术显著地影响着数据处理技术的运用,这一点是显而易见的。当前数据分类技术面临的问题是无法确定待分类的数据中由哪些类型的数据,数据分类技术面临的另一个主要问题是无法对数据及数据的类别进行有效的匹配,导致了数据分类不合理,影响着对数据价值的挖掘和运用。综合以上所述,如何对当前市面上海量的数据做科学的分类,同时对这些分类给予合理的命名已经成为迫在眉睫的事情。

技术实现思路

[0003]本专利技术旨在至少一定程度上解决上述技术中的技术问题之一。为此,本专利技术的目的在于提出一种数据处理方法及系统,旨在于提供一种量化计算数据与数据类别关联度并根据关联度对数据进行分类的数据分类计数。
[0004]为达到上述目的,本专利技术第一方面实施例提出本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:提取待归类的数据集中包含的数据标签组;根据所述数据标签组确定所述数据集的应用领域;根据所述应用领域查询预设的领域

数据类别表,确定所述数据集对应的若干个数据类别;确定所述数据集中包括的若干个目标数据;分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类。2.如权利要求1所述的数据处理方法,其特征在于,所述分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类,包括:分别计算所述目标数据与所述若干个数据类别的关联度,并确定最大关联度对应的数据类别作为目标数据类别;将所述目标数据归类于所述目标数据类别。3.如权利要求1所述的数据处理方法,其特征在于,计算所述目标数据与任意一个数据类别的关联度,包括:确定所述目标数据的数据标签,并进行分解,得到若干个数据子标签;确定所述任意一个数据类别的类别标签,并进行分解,得到若干个类别子标签;在所述若干个数据子标签中选取一个数据子标签作为第一数据子标签;根据编辑距离公式分别计算所述第一数据子标签与所述若干个类别子标签的文本距离,并将计算结果的平均值作为第一数据

类别平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个类别子标签的第二数据

类别平均文本距离、第三数据

类别平均文本距离
……
第i数据

类别平均文本距离;将所述第一数据

类别平均文本距离至第i数据

类别平均文本距的平均值作为第一平均距离;将所述若干个类别子标签输入文本聚类模型,调用所述文本聚类模型的数据库中与所述若干个类别子标签相似度高于阈值的若干个关键字符串,建立关键字符串集合;根据编辑距离公式分别计算所述第一数据子标签与所述若干个关键字符串的文本距离,并将计算结果的平均值作为第一数据

关键字符串平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个关键字符串的第二数据

关键字符串平均文本距离、第三数据

关键字符串平均文本距离
……
第j数据

关键字符串平均文本距离;将所述第一数据

关键字符串平均文本距离至第j数据

关键字符串平均文本距离的平均值作为第二平均距离;计算所述若干个数据子标签在所述类别标签中的词频,并将计算结果的平均值作为第一词频;计算所述若干个数据子标签在所述关键字符串集合中的词频,并将计算结果的平均值作为第二词频;将所述第一词频、所述第二词频、所述第一平均距离及所述第二平均距离代入关联度计算公式,计算所述目标数据与所述类别子标签对应的数据类别的关联度;所述关联度计算公式为:
其中,R为所述关联度;F1为所述第一词频,0<F1≤1;F2为所述第二词频,0<F2≤1;min(S1,S2)表示取S1与S2中的最小值,S1为所述第一平均距离,S2为所述第二平均距离;在|S1+S2|=0或lg(F1·
F2)=0时,关联度R视为无穷大。4.如权利要求3所述的数据处理方法,其特征在于,在根据所述关联度对所述目标数据进行归类后,还包括:根据目标数据的数据标签对所述目标数据归入的目标数据类别的类别标签进行更新。5.如权利要求4所述的数据处理方法,其特征在于,在根据目标数据的数据标签对所述目标数据归入的数据类别的类别标签进行更新后,根据更新后的类别标签对所述目标数据类别的命名进行更新。6.一种数据处理系统,其特征在于,包括:数据标签提取模块,用于:提取待归类的数据集中包含的数据标签组;应用领域确定模块,用于:根据所述数据标签组确定所述数据集的应用领域;数据类别确定模块,用于:根据所述应用领域查询...

【专利技术属性】
技术研发人员:王世今莫卉星刘珂杭高铭武欢欢
申请(专利权)人:睿智合创北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1