消息去重方法、装置、电子设备及存储介质制造方法及图纸

技术编号:46367083 阅读:6 留言:0更新日期:2025-09-15 12:43
本公开一个或多个实施例提供一种消息去重方法、装置、电子设备及存储介质。所述方法包括:将待去重消息输入文本嵌入模型,得到嵌入向量;所述文本嵌入模型包括BGE‑M3子模型,所述嵌入向量融合所述待去重消息的语义特征;将所述嵌入向量输入哈希值生成模型,得到所述待去重消息的哈希值;根据所述哈希值进行筛选,得到经过消息粗去重的中间消息;对所述中间消息进行基于语义相似度的消息精去重,得到最终消息。通过本公开,可以有效提高消息去重准确度和效率。

【技术实现步骤摘要】

本公开一个或多个实施例涉及数据处理,尤其涉及一种消息去重方法、装置、电子设备及存储介质


技术介绍

1、在即时通讯平台的日常运营中,冗余数据问题从多个维度对系统性能与用户体验造成显著影响。

2、首先是用户体验层面,当用户通过搜索功能查找特定信息时,系统需在海量重复内容中定位有效数据,导致检索耗时大幅增加。例如,用户查找某条重要通知时,可能需要在数十条相似的“收到”回复中反复筛选,严重降低沟通效率。其次是计算资源消耗,冗余数据不仅延长了推荐系统、自然语言处理等模型的训练周期,还迫使开发团队为保证模型精度而标注数倍于正常量的样本数据。这种重复劳动既增加了服务器算力成本,也推高了人工标注的人力成本。最后是统计分析层面,高频重复的无效信息会扭曲关键词的真实分布规律。例如,某品牌营销活动可能导致“优惠”一词在短时间内被大量重复提及,使基于词频分析的用户兴趣图谱出现偏差,进而影响平台对用户需求的精准判断。这些问题共同构成了当前即时通讯平台数据治理领域的核心挑战。

3、即时通讯平台中出现的高频重复的短文本消息(如群聊刷屏、表情包轰炸)已成为数据冗本文档来自技高网...

【技术保护点】

1.一种消息去重方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文本嵌入模块还包括词频逆文档频率特征生成子模块和拼接层;

3.根据权利要求1或2所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:

4.根据权利要求3所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:

5.根据权利要求1所述的方法,其特征在于,所述哈希值生成模型为包括第一全连接层和第二全连接层的多层感知机;

6.根据权利要求5所述的方法,其特征在于,所述哈希值生成模型的损失函数为:

<p>7.根据权利要求...

【技术特征摘要】

1.一种消息去重方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文本嵌入模块还包括词频逆文档频率特征生成子模块和拼接层;

3.根据权利要求1或2所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:

4.根据权利要求3所述的方法,其特征在于,将待去重消息输入文本嵌入模型之前,还包括:

5.根据权利要求1所述的方法,其特征在于,所述哈希值生成模型为包括第一全连接层和第二全连接层的多层感知机;

6.根据权利要求5所述的方...

【专利技术属性】
技术研发人员:时金桥张哲宁赵佳鹏关建军孙聚丰王学宾
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1