数据处理方法、介质、装置和计算设备制造方法及图纸

技术编号:24800180 阅读:18 留言:0更新日期:2020-07-07 21:09
本发明专利技术的实施方式提供了一种数据处理方法、介质、数据处理装置和计算设备。该方法包括:获取待处理的原始数据,并对所述原始数据进行特征提取以得到所述原始数据的至少两个模态特征;通过预先训练的自编码器分别对各个所述模态特征进行编码处理以得到每个所述模态特征的模态编码数据;获取分别与每个所述模态特征相对应的特征融合权重;根据所述特征融合权重对各个所述模态编码数据进行融合处理以得到与所述原始数据相对应的多模态融合编码数据。该方法可以提高网络多模态数据的内容理解和分类等应用任务的处理效率和精准度。

【技术实现步骤摘要】
数据处理方法、介质、装置和计算设备
本专利技术的实施方式涉及计算机
,更具体地,本专利技术的实施方式涉及数据处理方法、介质、数据处理装置和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。邮件、聊天群会话等网络内容一般都需要进行内容检测以便降低违禁内容传播的风险。传统的网络内容检测技术往往只针对网络内容中的文字部分进行检测,例如常见的针对邮件文本特征的检测技术忽略了邮件中伴随和携带的图片信息;聊天群会话的内容检测只针对文字内容检测敏感违禁信息而忽略了伴随着的图片、语音、视频等其他信息。在网络内容检测中,违禁内容的发布者通过图片、语音、视频等形式,经常性地会传播一些代开假发票、提供色情服务的广告等违禁内容,这对垃圾邮件检测、聊天群内容检测带来了很大的挑战。
技术实现思路
本专利技术的目的在于提供一种数据处理方法、介质、数据处理装置和计算设备,从而至少在一定程度上克服由于相关技术的缺陷和限制而导致的网络内容检测困难的技术问题。根本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取待处理的原始数据,并对所述原始数据进行特征提取以得到所述原始数据的至少两个模态特征;/n通过预先训练的自编码器分别对各个所述模态特征进行编码处理以得到每个所述模态特征的模态编码数据;/n获取分别与每个所述模态特征相对应的特征融合权重;/n根据所述特征融合权重对各个所述模态编码数据进行融合处理以得到与所述原始数据相对应的多模态融合编码数据。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取待处理的原始数据,并对所述原始数据进行特征提取以得到所述原始数据的至少两个模态特征;
通过预先训练的自编码器分别对各个所述模态特征进行编码处理以得到每个所述模态特征的模态编码数据;
获取分别与每个所述模态特征相对应的特征融合权重;
根据所述特征融合权重对各个所述模态编码数据进行融合处理以得到与所述原始数据相对应的多模态融合编码数据。


2.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
通过预先训练的分类器对所述多模态融合编码数据进行分类处理以得到所述原始数据的数据类型信息。


3.根据权利要求1所述的数据处理方法,其特征在于,所述模态特征包括图像模态特征、文本模态特征和音频模态特征中的至少两种。


4.根据权利要求1所述的数据处理方法,其特征在于,所述自编码器包括用于进行数据编码映射的编码网络和用于进行数据解码映射的解码网络;
所述编码网络包括对应于不同模态特征的至少两个模态编码网络,每个所述模态编码网络包括至少两个并行的数据编码层,所述至少两个模态编码网络具有一个共用的数据编码层作为所述自编码器的输出层;
所述解码网络包括分别与每个所述数据编码层相对应的数据解码层。


5.根据权利要求4所述的数据处理方法,其特征在于,所述方法还包括:
获取样本数据,并对所述样本数据进行特征提取以得到所述样本数据的至少两个样本模态特征;
将所述至少两个样本模态特征分别输入至对应的模态编码网络中;
通过所述模态编码网络中的各个数据编码层对所述样本模态特征进行数据编码映射以得到每个所述数据编码层输出的样本编码数据;
根据所述样本模态特征和所述样本编码数据迭代更新所述自编码器的网络参数。


6.根据权利要求5所述的数据处理方法,其特征在于,所述根据所述样本模态特征和所述样本编码...

【专利技术属性】
技术研发人员:方正周森朱浩奇林洋港
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1