数据去噪方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:26790844 阅读:35 留言:0更新日期:2020-12-22 17:05
本申请实施例提供一种数据去噪方法、装置、设备及计算机可读存储介质,涉及人工智能技术领域。方法包括:采用待去噪数据集合中的数据对预设算法模型进行训练;当训练后的算法模型不满足模型收敛条件时,将训练后的算法模型确定为待训练网络模型,并确定数据去噪请求中的待去噪数据集合中的每一数据与其他数据之间的第一平均距离;根据所述第一平均距离,确定噪声数据并去除所述噪声数据,得到更新数据集合;将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中进行模型训练;当训练后的网络模型满足模型收敛条件时,将所述更新数据集合确定为去噪完成的数据集合。通过本申请实施例,能够提高去除噪声数据的准确率。

【技术实现步骤摘要】
数据去噪方法、装置、设备及计算机可读存储介质
本申请实施例涉及互联网
,涉及但不限于一种数据去噪方法、装置、设备及计算机可读存储介质。
技术介绍
深度学习是由大数据驱动发展的一个领域,目前所有的深度学习神经网络算法都会面临训练数据噪声问题。如果训练数据中噪声数据过多,那么就无法训练得到一个效果较好的深度学习算法,因此训练数据处理一般会占据整个算法设计流程中60-80%的时间,而且一般会花费较多人力物力进行数据去噪。噪声数据主要分为特征差异大的简单噪声数据,特征与正常数据接近的困难噪声数据。常用的去噪方法主要包括人工去噪或采用算法解决方式去噪。但是,虽然人工去噪方法可以解决上述两类噪声数据,但耗时极长;而常用的算法解决方式都是基于预训练模型提取特征进行距离比对或者类别预测比对,由于算法解决方式中算法模型精度一般,因此一般只能清除掉简单噪声数据,无法清除困难噪声数据,同时还会误清除一些正常数据,从而降低噪声数据清除的准确率。
技术实现思路
本申请实施例提供一种数据去噪方法、装置、设备及计算机可读存储介质,涉及人工智能
通过计算每一数据与待去噪数据集合中的其他数据之间的第一平均距离,清除异常值过大的噪声数据,使用剩余的数据进行下一轮待训练网络模型的训练,如此循环往复,直至待训练网络模型收敛时,得到去噪完成的数据集合,如此,能够把去噪方法代码耦合嵌入到各种待训练网络模型中,通过循环训练待训练网络模型,实现对待去噪数据集合进行逐步去噪,从而能够提高去除噪声数据准确率。本申请实施例的技术方案是这样实现的:本申请实施例提供一种数据去噪方法,包括:采用待去噪数据集合中的数据对预设算法模型进行训练,得到训练后的算法模型;当所述训练后的算法模型不满足模型收敛条件时,将所述训练后的算法模型确定为待训练网络模型,并确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离;根据所述第一平均距离,确定所述待去噪数据集合中的噪声数据;去除所述待去噪数据集合中的所述噪声数据,得到更新数据集合;将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中,对所述待训练网络模型进行训练,得到训练后的网络模型;当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述更新数据集合确定为去噪完成的数据集合。本申请实施例提供一种数据去噪装置,包括:首次训练模块,用于采用待去噪数据集合中的数据对预设算法模型进行训练,得到训练后的算法模型;第一确定模块,用于当所述训练后的算法模型不满足模型收敛条件时,将所述训练后的算法模型确定为待训练网络模型,并确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离;第二确定模块,用于根据所述第一平均距离,确定所述待去噪数据集合中的噪声数据;去除模块,用于去除所述待去噪数据集合中的所述噪声数据,得到更新数据集合;训练模块,用于将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中,对所述待训练网络模型进行训练,得到训练后的网络模型;第三确定模块,用于当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述更新数据集合确定为去噪完成的数据集合。在一些实施例中,所述第一确定模块还用于:对所述待去噪数据集合中的每一数据进行特征提取,得到每一数据的特征向量;根据每一数据的所述特征向量,计算所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离。在一些实施例中,所述第一确定模块还用于:获取每一数据的所述特征向量和所述待去噪数据集合中的数据的总量;通过每一数据的所述特征向量和其他数据的特征向量,计算每一数据与每一所述其他数据之间的距离;根据每一数据与每一所述其他数据之间的距离、和所述待去噪数据集合中的数据的总量,确定每一数据的所述第一平均距离。在一些实施例中,所述装置还包括:第四确定模块,用于当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型不满足所述模型收敛条件时,将所述更新数据集合确定为当前的待去噪数据集合;第五确定模块,用于确定所述当前的待去噪数据集合中的每一数据与所述当前的待去噪数据集合中的其他数据之间的第二平均距离;第六确定模块,用于根据所述第二平均距离,确定所述当前的待去噪数据集合中的噪声数据;第二去除模块,用于去除所述当前的待去噪数据结合中的所述噪声数据,得到当前的更新数据集合;循环训练模块,用于对得到所述当前的更新数据集合的步骤进行循环,直至所述当前的更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述当前的更新数据集合确定为所述去噪完成的数据集合。在一些实施例中,所述循环训练模块还用于:在每次确定出所述待去噪数据集合中的噪声数据之后,去除所述待去噪数据集合中的噪声数据,得到所述当前的更新数据集合。在一些实施例中,所述装置还包括:分类模块,用于在接收到所述数据去噪请求之后,对所述待去噪数据集合中的数据进行分类,得到至少一个待去噪数据类;噪声去除模块,用于对于每一所述待去噪数据类进行噪声去除,以得到与每一所述待去噪数据类对应的去噪完成的数据集合。在一些实施例中,所述第二确定模块还用于:当任一数据的所述第一平均距离大于预设阈值时,将对应数据确定为所述噪声数据。在一些实施例中,所述装置还包括:第一输入模块,用于在将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中,对所述待训练网络模型进行训练,得到训练后的网络模型之后,获取所述训练后的网络模型的输出结果;第二输入模块,用于将所述输出结果输入至预设损失模型中,得到损失结果;判断模块,用于根据所述损失结果确定所述训练后的网络模型是否满足所述模型收敛条件。在一些实施例中,所述装置还包括:第七确定模块,用于确定在上一轮数据去噪过程中所去除的每一噪声数据与所述更新数据集合中的数据之间的第三平均距离;第八确定模块,用于当任一噪声数据的所述第三平均距离小于预设阈值时,将对应噪声数据确定为召回数据;添加模块,用于将召回数据添加至所述更新数据集合中,形成具有召回数据的更新数据集合;再次训练模块,用于采用所述具有召回数据的更新数据集合对所述训练后的网络模型进行再次训练,直至所述训练后的网络模型满足所述模型收敛条件。在一些实施例中,所述装置还包括:控制模块,用于当任一数据被确定为所述噪声数据且被去除的次数大于次数阈值时,不对所述数据进行召回处理。本申请实施例提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;其中,计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器用于执行所述计算机指令,实现上述的网络结构搜索方法。本申请实施例提供一种数据去噪设备,包括:存储器,用于存储可本文档来自技高网...

【技术保护点】
1.一种数据去噪方法,其特征在于,包括:/n采用待去噪数据集合中的数据对预设算法模型进行训练,得到训练后的算法模型;/n当所述训练后的算法模型不满足模型收敛条件时,将所述训练后的算法模型确定为待训练网络模型,并确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离;/n根据所述第一平均距离,确定所述待去噪数据集合中的噪声数据;/n去除所述待去噪数据集合中的所述噪声数据,得到更新数据集合;/n将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中,对所述待训练网络模型进行训练,得到训练后的网络模型;/n当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述更新数据集合确定为去噪完成的数据集合。/n

【技术特征摘要】
1.一种数据去噪方法,其特征在于,包括:
采用待去噪数据集合中的数据对预设算法模型进行训练,得到训练后的算法模型;
当所述训练后的算法模型不满足模型收敛条件时,将所述训练后的算法模型确定为待训练网络模型,并确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离;
根据所述第一平均距离,确定所述待去噪数据集合中的噪声数据;
去除所述待去噪数据集合中的所述噪声数据,得到更新数据集合;
将所述更新数据集合中的数据作为样本数据输入至待训练网络模型中,对所述待训练网络模型进行训练,得到训练后的网络模型;
当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述更新数据集合确定为去噪完成的数据集合。


2.根据权利要求1所述的方法,其特征在于,所述确定所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离,包括:
对所述待去噪数据集合中的每一数据进行特征提取,得到每一数据的特征向量;
根据每一数据的所述特征向量,计算所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离。


3.根据权利要求2所述的方法,其特征在于,所述根据每一数据的所述特征向量,计算所述待去噪数据集合中的每一数据与所述待去噪数据集合中的其他数据之间的第一平均距离,包括:
获取每一数据的所述特征向量和所述待去噪数据集合中的数据的总量;
通过每一数据的所述特征向量和其他数据的特征向量,计算每一数据与每一所述其他数据之间的距离;
根据每一数据与每一所述其他数据之间的距离、和所述待去噪数据集合中的数据的总量,确定每一数据的所述第一平均距离。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当采用所述更新数据集合中的数据训练得到的所述训练后的网络模型不满足所述模型收敛条件时,将所述更新数据集合确定为当前的待去噪数据集合;
确定所述当前的待去噪数据集合中的每一数据与所述当前的待去噪数据集合中的其他数据之间的第二平均距离;
根据所述第二平均距离,确定所述当前的待去噪数据集合中的噪声数据;
去除所述当前的待去噪数据结合中的所述噪声数据,得到当前的更新数据集合;
对得到所述当前的更新数据集合的步骤进行循环,直至所述当前的更新数据集合中的数据训练得到的所述训练后的网络模型满足所述模型收敛条件时,将所述当前的更新数据集合确定为所述去噪完成的数据集合。


5.根据权利要求4所述的方法,其特征在于,所述对得到所述当前的更新数据集合的步骤进行循环,包括:
在每次确定出所述待去噪数据集合中的噪声数据之后,去除所述待去噪数据集合中的噪声数据,得到所述当前的更新数据集合。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在接收到所述数据去噪请求之后,对所述待去噪数据...

【专利技术属性】
技术研发人员:蔡成飞田上萱王红法郭春超赵文哲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1