数据处理方法及装置、处理器、电子设备、存储介质制造方法及图纸

技术编号：24686288 阅读：48 留言：0更新日期：2020-06-27 08:45

本申请公开了一种数据处理方法及装置、处理器、电子设备、存储介质。该方法包括：获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述所述簇对的纯度用于表征簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

Data processing method and device, processor, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法及装置、处理器、电子设备、存储介质
本申请涉及计算机
，尤其涉及一种数据处理方法及装置、处理器、电子设备、存储介质。
技术介绍
随着深度学习的快速发展，机器学习可应用的领域越来越多。而在将深度学习的模型应用到不同的领域之前，需要对该模型进行训练，而训练需要大量已标注的数据作为训练数据。若通过人工标注的方式获得训练数据带来的人力成本高，且标注效率低。因此，如何通过机器完成对数据的标注就变得非常有意义。通过对无标注数据进行聚类，可确定无标注数据的标注信息，从而实现对无标注数据的标注，得到训练数据。但传统聚类方法得到的聚类结果的准确率低，进而导致标注信息的准确率低。
技术实现思路
本申请提供一种数据处理方法及装置、处理器、电子设备、存储介质。第一方面，提供了一种数据处理方法，所述方法包括：获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；基于所述第一合并分数，得到所述待聚类簇对的聚类结果。在该方面中，使用以纯度为监督信息训练获得的聚类网络对待聚类簇对进行处理，可获得待处理数据集中的簇对的纯度的信息，得到第一合并分数。基于第一合并分数得到聚类结果，可利用待聚类簇对的纯度的信息，从而提高聚类结果的准确率。r>结合本申请任一实施方式，所述待聚类簇对包括第一簇和第二簇，所述第一簇中的数据的类别相同，所述第二簇中的数据的类别相同；在所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果之前，所述方法还包括：将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对，在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认数据对为支持合并数据对；依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值；所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果，包括：基于所述第一合并分数和所述参考值，得到所述聚类结果。在该实施方式中，通过将第一簇中的一个数据和第二簇的一个数据作为一个待确认数据对，并依据待确认数据对中的两个数据之间的相似度，确定待确认数据对是否为支持合并数据对。若待确认数据对中支持合并数据对的占比达到第二期望值，表征第一簇中的数据与第二簇中的数据之间的相似度高，进而执行合并第一簇和第二簇的操作，可提高合并第一簇和第二簇的准确率。因此，基于第一合并分数和参考值，得到聚类结果，可提高聚类结果的准确率。结合本申请任一实施方式，所述基于所述第一合并分数和所述参考值，得到所述聚类结果，包括：在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果。结合本申请任一实施方式，所述在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果，包括：在所述第一合并分数大于或等于所述第二阈值，且所述参考值大于或等于第三阈值的情况下，合并所述第一簇和所述第二簇。结合本申请任一实施方式，所述使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，包括：对所述待聚类簇对进行特征提取处理，得到第一特征数据；对所述第一特征数据进行第一池化处理得到第二特征数据，对所述第一特征数据进行第二池化处理得到第三特征数据；将所述第二特征数据和所述第三特征数据融合，得到第四特征数据；依据所述第四特征数据，得到所述第一合并分数。在该实施方式中，通过对第一特征数据进行均值池化处理，在缩小第一特征数据的尺寸的同时，提取第一特征数据中每个池化区域的融合后的信息，得到第二特征数据。对第一特征数据进行最大池化处理，在缩小第一特征数据的尺寸的同时，提取第一特征数据中每个池化处理区域中像素值最大的像素包含的信息，得到第三特征数据。将第二特征数据和第三特征数据融合，以融合第二特征数据的信息和第三特征数据的信息，得到第四特征数据。进而达到在实现对第一特征数据的池化处理的同时，减少信息的丢失，从而提高依据第四特征数据得到的第一合并分数的准确率。结合本申请任一实施方式，以簇对的纯度为监督信息训练得到所述聚类网络，包括：获取待训练网络、第一待训练簇对和第二待训练簇对；经所述待训练网络对所述第一待训练簇对进行处理得到第二合并分数，经所述待训练网络对所述第二待训练簇对进行处理得到第三合并分数；确定所述第二合并分数与所述第三合并分数之间的差异，得到第二差异；基于所述第二差异，得到待训练网络的损失；基于所述损失调整所述待训练网络的参数，得到所述聚类网络。在该实施方式中，在对待训练网络的训练过程中，将待训练簇对的纯度作为待训练网络的监督信息，可使训练得到的聚类网络具备依据簇对的纯度得到合并分数的能力。结合本申请任一实施方式，在所述基于所述第二差异，得到待训练网络的损失之前，所述方法还包括：依据所述第一待训练簇对的标注信息，得到所述第一待训练簇对的第一纯度；依据所述第二待训练簇对的标注信息，得到所述第二待训练簇对的第二纯度。结合本申请任一实施方式，在所述第一纯度小于所述第二纯度的情况下，所述第二差异与所述损失呈正相关；在所述第一纯度大于所述第二纯度的情况下，所述第二差异与所述损失呈负相关。第二方面，提供了一种数据处理装置，所述装置包括：获取单元，用于获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；第一处理单元，用于使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；第二处理单元，用于基于所述第一合并分数，得到所述待聚类簇对的聚类结果。结合本申请任一实施方式，所述待聚类簇对包括第一簇和第二簇，所述第一簇中的数据的类别相同，所述第二簇中的数据的类别相同；所述装置还包括：确定单元，用于在所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果之前，将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对，在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认数据对为支持合并数据对；第三处理单元，用于依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值；所述第二处理单元，用于：基于所述第一合并分数和所述参考值，得到所述聚类结果。结合本申请任一实施方式，所述第二处理单元，用于：在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果。结合本申请任一实施方式，所述第二处理单元，用于：<本文档来自技高网...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：/n获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；/n使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；/n基于所述第一合并分数，得到所述待聚类簇对的聚类结果。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：
获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；
使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；
基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

2.根据权利要求1所述的方法，其特征在于，所述待聚类簇对包括第一簇和第二簇，所述第一簇中的数据的类别相同，所述第二簇中的数据的类别相同；
在所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果之前，所述方法还包括：
将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对，在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认数据对为支持合并数据对；
依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值；
所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果，包括：
基于所述第一合并分数和所述参考值，得到所述聚类结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一合并分数和所述参考值，得到所述聚类结果，包括：
在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果。

4.根据权利要求3所述的方法，其特征在于，所述在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果，包括：
在所述第一合并分数大于或等于所述第二阈值，且所述参考值大于或等于第三阈值的情况下，合并所述第一簇和所述第二簇。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，包括：
对所述待聚类簇对进行特征提取处理，得到第一特征数据；
对所述第一特征数据进行第一池化处理得到第二特征数据，对所述第一特征数据进行第二池化处理得到第三特征数据；
将所述第二特征数据和所述第三特征数据融合，得到第四特征数据；
依据所述第四特征数据，得到所述第一合并分数。

6.根据权利要求1至5中任意一项所述...

【专利技术属性】
技术研发人员：王飞，黄厚钧，李诚，钱晨，楼赞，
申请(专利权)人：北京市商汤科技开发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人