【技术实现步骤摘要】
本公开一个或多个实施例涉及数据处理,尤其涉及一种消息去重方法、装置、电子设备及存储介质。
技术介绍
1、在即时通讯平台的日常运营中,冗余数据问题从多个维度对系统性能与用户体验造成显著影响。
2、首先是用户体验层面,当用户通过搜索功能查找特定信息时,系统需在海量重复内容中定位有效数据,导致检索耗时大幅增加。例如,用户查找某条重要通知时,可能需要在数十条相似的“收到”回复中反复筛选,严重降低沟通效率。其次是计算资源消耗,冗余数据不仅延长了推荐系统、自然语言处理等模型的训练周期,还迫使开发团队为保证模型精度而标注数倍于正常量的样本数据。这种重复劳动既增加了服务器算力成本,也推高了人工标注的人力成本。最后是统计分析层面,高频重复的无效信息会扭曲关键词的真实分布规律。例如,某品牌营销活动可能导致“优惠”一词在短时间内被大量重复提及,使基于词频分析的用户兴趣图谱出现偏差,进而影响平台对用户需求的精准判断。这些问题共同构成了当前即时通讯平台数据治理领域的核心挑战。
3、即时通讯平台中出现的高频重复的短文本消息(如群聊刷屏、表情
...【技术保护点】
1.一种消息去重方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述文本嵌入模块还包括词频逆文档频率特征生成子模块和拼接层;
3.根据权利要求1或2所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:
4.根据权利要求3所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:
5.根据权利要求1所述的方法,其特征在于,所述哈希值生成模型为包括第一全连接层和第二全连接层的多层感知机;
6.根据权利要求5所述的方法,其特征在于,所述哈希值生成模型的损失函数为:
< ...【技术特征摘要】
1.一种消息去重方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述文本嵌入模块还包括词频逆文档频率特征生成子模块和拼接层;
3.根据权利要求1或2所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:
4.根据权利要求3所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:
5.根据权利要求1所述的方法,其特征在于,所述哈希值生成模型为包括第一全连接层和第二全连接层的多层感知机;
6.根据权利要求5所述的方...
【专利技术属性】
技术研发人员:时金桥,张哲宁,赵佳鹏,关建军,孙聚丰,王学宾,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。