System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,特别涉及一种即时通信数据方法、装置、电子设备及存储介质。
技术介绍
1、随机互联网技术的发展,集成音视频会议功能的即时通信(im,instantmessenger)应用程序得到了越来越广泛的运用,在im场景中经常会涉及到图片传输,进而需要对im场景中的异常图片(如一些低俗图片)进行自动识别处理。
2、在实现本专利技术的过程中,专利技术人发现相关技术对于im场景中图片的自动识别的识别准确率较低,无法满足针对im场景中异常图片的相关业务处理需求。
技术实现思路
1、为了解决现有技术的问题,本专利技术实施例提供了一种即时通信数据处理方法、装置、电子设备及存储介质。所述技术方案如下:
2、一方面,提供了一种即时通信数据处理方法,获取待处理即时通信数据;所述待处理即时通信数据包括待处理图片、所述待处理图片关联的上下文信息以及对象属性信息;
3、对所述待处理即时通信数据进行脱敏处理,提取脱敏处理后的待处理即时通信数据的数据特征,得到脱敏数据特征;
4、将所述脱敏数据特征输入至标注信息生成网络,生成所述待处理图片对应的标注结果;所述标注结果包括多个候选标签词中各候选标签词的第一标注得分;
5、针对每个所述候选标签词,基于所述待处理图片与目标最近邻历史标注图片之间的距离确定所述候选标签词的第二标注得分;所述目标最近邻历史标注图片的标注信息包括所述候选标签词;
6、基于各所述候选标签词的第一标注得分和第二标
7、另一方面,提供了一种即时通信数据处理装置,所述装置包括:
8、第一获取模块,用于获取待处理即时通信数据;所述待处理即时通信数据包括待处理图片、所述待处理图片关联的上下文信息以及对象属性信息;
9、脱敏处理模块,用于对所述待处理即时通信数据进行脱敏处理,提取脱敏处理后的待处理即时通信数据的数据特征,得到脱敏数据特征;
10、标注生成模块,用于将所述脱敏数据特征输入至标注信息生成网络,生成所述待处理图片对应的标注结果;所述标注结果包括多个候选标签词中各候选标签词的第一标注得分;
11、标注得分确定模块,用于针对每个所述候选标签词,基于所述待处理图片与目标最近邻历史标注图片之间的距离确定所述候选标签词的第二标注得分;所述目标最近邻历史标注图片的标注信息包括所述候选标签词;
12、标注信息确定模块,用于基于各所述候选标签词的第一标注得分和第二标注得分,从多个所述候选标签词中选取至少一个目标标签词作为标注所述待处理图片的标注信息;其中,所述至少一个目标标签词来自不同的标签语义路径。
13、在一个示例性的实施方式中,所述脱敏处理模块,包括:
14、等价组划分模块,用于基于k-匿名算法对所述待处理即时通信数据进行匿名处理,得到多个等价组;
15、敏感属性集确定模块,用于针对每个所述等价组,提取所述等价组中的敏感属性,得到每个所述等价组对应的敏感属性集;
16、属性概率调整模块,用于针对每个所述敏感属性集,确定所述敏感属性集中各敏感属性的原始概率,在各所述原始概率的基础上添加符合拉普拉斯分布的随机噪声,得到所述敏感属性集中各敏感属性对应的目标概率值;
17、等价组更新模块,用于基于每个所述敏感属性集中各敏感属性对应的目标概率值对相应等价组中的敏感属性进行更新,得到所述脱敏处理后的待处理即时通信数据。
18、在一个示例性的实施方式中,所述装置还包括用于构建所述标签语义路径的构建模块,所述构建模块包括:
19、第二获取模块,用于获取样本即时通信数据以及对应的参考标注信息;所述样本即时通信数据包括样本图片、所述样本图片关联的样本上下文信息以及样本对象属性信息,所述参考标注信息包括至少一个参考标签词;
20、第一确定模块,用于基于各所述样本即时通信数据对应的参考标注信息,确定参考标签词集;
21、第二确定模块,用于基于预设语义词典,确定所述参考标签词集中参考标签词之间的上下位关系;
22、语义路径构建模块,用于基于所述参考标签词集中参考标签词之间的上下位关系,构建至少一条标签语义路径;
23、路径层级权重确定模块,用于确定每条所述标签语义路径中各路径层级的路径层级权重。
24、在一个示例性的实施方式中,所述标注信息确定模块,包括:
25、第三确定模块,用于基于各所述候选标签词的第一标注得分和第二标注得分,得到各所述候选标签词的目标标注得分;
26、排序位置确定模块,用于基于所述目标标注得分对所述多个候选标签词进行降序排列,确定各所述候选标签词的排序位置信息;
27、第四确定模块,用于基于所述至少一个标签语义路径,确定属于同一标签语义路径的多个第一候选标签词以及每个所述第一候选标签词在所述同一标签语义路径中的路径层级;
28、第五确定模块,用于基于每个所述第一候选标签词在所述同一标签语义路径中的路径层级对应的路径层级权重和所述第一候选标签词对应的所述排序位置信息,确定每个所述第一候选标签词的目标权重;
29、第六确定模块,用于基于所述目标权重从所述多个第一候选标签词中选取目标第一候选标签词,将所述目标第一候选标签词和第二候选标签词作为所述至少一个目标标签词;所述第二候选标签词为所述多个候选标签词中除所述第一候选标签词之外的候选标签词。
30、在一个示例性的实施方式中,所述装置还包括训练模块,所述训练模块包括:
31、参考标注向量确定模块,用于基于所述样本即时通信数据对应的参考标注信息,确定所述样本图片对应的参考标注向量;
32、样本脱敏模块,用于对所述样本即时通信数据进行脱敏处理,提取脱敏处理后的样本即时通信数据的数据特征,得到样本脱敏数据特征;
33、预测模块,用于将所述样本脱敏数据特征和随机训练噪声数据输入至条件生成对抗模型的生成网络进行标注信息预测,得到预测标注结果;
34、第一损失确定模块,用于将所述预测标注结果、所述样本脱敏数据特征和所述参考标注向量输入至所述生成对抗模型的判别网络,基于所述判别网络的判别结果确定第一损失;所述判别结果指示所述预测标注结果属于所述参考标注信息的概率以及所述预测标注结果与所述样本图片的匹配程度;
35、第二损失确定模块,用于基于从所述判别网络获取的第一提取特征和第二提取特征,确定第二损失;所述第一提取特征为在判别过程中对应所述预测标注结果提取的特征,所述第二提取特征为在判别过程中对应所述参考标注向量提取的特征;
36、参数调整模块,用于基于所述第一损失和所述第二损失,调整所述条件生成对抗模型的模型参数直至满足预设训练结束条件;其中,训练结束本文档来自技高网...
【技术保护点】
1.一种即时通信数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理即时通信数据进行脱敏处理,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括构建所述标签语义路径,所述构建所述标签语义路径包括:
4.根据权利要求3所述的方法,其特征在于,所述基于各所述候选标签词的第一标注得分和第二标注得分,从多个所述候选标签词中选取至少一个目标标签词作为标注所述待处理图片的标注信息,包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述样本即时通信数据对应的参考标注信息,确定所述样本图片对应的参考标注向量包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述当前维度对应的参考标签词与所述样本即时通信数据对应的参考标注信息的匹配情况,确定所述当前维度的取值,包括:
8.一种即时通信数据处理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括处理器
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如权利要求1~7任一项所述的即时通信数据处理方法。
11.一种计算机程序,其特征在于,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述的即时通信数据处理方法。
...【技术特征摘要】
1.一种即时通信数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理即时通信数据进行脱敏处理,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括构建所述标签语义路径,所述构建所述标签语义路径包括:
4.根据权利要求3所述的方法,其特征在于,所述基于各所述候选标签词的第一标注得分和第二标注得分,从多个所述候选标签词中选取至少一个目标标签词作为标注所述待处理图片的标注信息,包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述样本即时通信数据对应的参考标注信息,确定所述样本图片对应的参考标注向量包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述当前维度对应...
【专利技术属性】
技术研发人员:樊鹏,
申请(专利权)人:腾讯云计算北京有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。