【技术实现步骤摘要】
数据去噪方法、装置、设备及计算机可读存储介质
本申请实施例涉及互联网
,涉及但不限于一种数据去噪方法、装置、设备及计算机可读存储介质。
技术介绍
深度学习是由大数据驱动发展的一个领域,目前所有的深度学习神经网络算法都会面临训练数据噪声问题。如果训练数据中噪声数据过多,那么就无法训练得到一个效果较好的深度学习算法,因此训练数据处理一般会占据整个算法设计流程中60-80%的时间,而且一般会花费较多人力物力进行数据去噪。噪声数据主要分为特征差异大的简单噪声数据,特征与正常数据接近的困难噪声数据。常用的去噪方法主要包括人工去噪或采用算法解决方式去噪。但是,虽然人工去噪方法可以解决上述两类噪声数据,但耗时极长;而常用的算法解决方式都是基于预训练模型提取特征进行距离比对或者类别预测比对,由于算法解决方式中算法模型精度一般,因此一般只能清除掉简单噪声数据,无法清除困难噪声数据,同时还会误清除一些正常数据,从而降低噪声数据清除的准确率。
技术实现思路
本申请实施例提供一种数据去噪方法、装置、设备及计算机可读存储介质,涉及人工智能
通过计算每一数据与待去噪数据集合中的其他数据之间的第一平均距离,清除异常值过大的噪声数据,使用剩余的数据进行下一轮待训练网络模型的训练,如此循环往复,直至待训练网络模型收敛时,得到去噪完成的数据集合,如此,能够把去噪方法代码耦合嵌入到各种待训练网络模型中,通过循环训练待训练网络模型,实现对待去噪数据集合进行逐步去噪,从而能够提高去除噪声数据准确率。本 ...
【技术保护点】
1.一种数据去噪方法,其特征在于,包括:/n采用待去噪数据集合中的数据对预设算法模型进行训练,得到训练后的算法模型;/n当所述训练后的算法模型不满足模型收敛条件时,将所述训练后的算法模型确定为待训练网络模型,并确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离;/n根据所述第一平均距离,确定所述待去噪数据集合中的噪声数据;/n去除所述待去噪数据集合中的所述噪声数据,得到更新数据集合;/n将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中,对所述待训练网络模型进行训练,得到训练后的网络模型;/n当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述更新数据集合确定为去噪完成的数据集合。/n
【技术特征摘要】
1.一种数据去噪方法,其特征在于,包括:
采用待去噪数据集合中的数据对预设算法模型进行训练,得到训练后的算法模型;
当所述训练后的算法模型不满足模型收敛条件时,将所述训练后的算法模型确定为待训练网络模型,并确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离;
根据所述第一平均距离,确定所述待去噪数据集合中的噪声数据;
去除所述待去噪数据集合中的所述噪声数据,得到更新数据集合;
将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中,对所述待训练网络模型进行训练,得到训练后的网络模型;
当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述更新数据集合确定为去噪完成的数据集合。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离,包括:
对所述待去噪数据集合中的每一数据进行特征提取,得到每一数据的特征向量;
根据每一数据的所述特征向量,计算所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离。
3.根据权利要求2所述的方法,其特征在于,所述根据每一数据的所述特征向量,计算所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离,包括:
获取每一数据的所述特征向量和所述待去噪数据集合中的数据的总量;
通过每一数据的所述特征向量和其他数据的特征向量,计算每一数据与每一所述其他数据之间的距离;
根据每一数据与每一所述其他数据之间的距离、和所述待去噪数据集合中的数据的总量,确定每一数据的所述第一平均距离。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型不满足所述模型收敛条件时,将所述更新数据集合确定为当前的待去噪数据集合;
确定所述当前的待去噪数据集合中的每一数据与所述当前的待去噪数据集合中的其他数据之间的第二平均距离;
根据所述第二平均距离,确定所述当前的待去噪数据集合中的噪声数据;
去除所述当前的待去噪数据结合中的所述噪声数据,得到当前的更新数据集合;
对得到所述当前的更新数据集合的步骤进行循环,直至所述当前的更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述当前的更新数据集合确定为所述去噪完成的数据集合。
5.根据权利要求4所述的方法,其特征在于,所述对得到所述当前的更新数据集合的步骤进行循环,包括:
在每次确定出所述待去噪数据集合中的噪声数据之后,去除所述待去噪数据集合中的噪声数据,得到所述当前的更新数据集合。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在接收到所述数据去噪请求之后,对所述待去噪数据...
【专利技术属性】
技术研发人员:蔡成飞,田上萱,王红法,郭春超,赵文哲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。