一种信息处理方法、装置、设备及存储介质制造方法及图纸

技术编号:30437929 阅读:35 留言:0更新日期:2021-10-24 17:41
本公开涉及一种信息处理方法、装置、设备及存储介质。其中,信息处理方法包括:获取待处理文本;确定待处理文本与已存储文本之间的文本相似度;基于待处理文本的发布时间和已存储文本的发布时间,对文本相似度进行修正,得到修正后的文本相似度;在修正后的文本相似度大于或等于预设相似度阈值的情况下,将已存储文本作为待处理文本的相似文本。根据本公开实施例,可以提高重复信息的查找精度和效率且节约设备资源,以进一步提高重复信息的处理效果和效率,降低文本内容的重复性,进而使得用户快速且准确的从网络平台中查找感兴趣信息的需求,提高用户查看信息的体验且节约设备资源。提高用户查看信息的体验且节约设备资源。提高用户查看信息的体验且节约设备资源。

【技术实现步骤摘要】
一种信息处理方法、装置、设备及存储介质


[0001]本公开涉及信息处理
,尤其涉及一种信息处理方法、装置、设备及存储介质。

技术介绍

[0002]随着大数据时代的到来,网络平台逐渐逐趋向成熟,用户可以便捷的在网络平台上分享和查看感兴趣的信息。
[0003]为了避免在同一页面展示重复信息,网络平台需要对重复信息进行处理。然而,在相关技术中,网络平台不能快速准确地查找到重复信息,使得所展示内容的重复性依然较高,导致用户不能快速准确的从网络平台中查找感兴趣信息,影响用户的信息查看体验,且查找重复信息的过程占用较多的内存,浪费设备资源。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种信息处理方法、装置、设备及存储介质。
[0005]本公开提供了一种信息处理方法,该方法包括:
[0006]获取待处理文本;
[0007]确定待处理文本与已存储文本之间的文本相似度;
[0008]基于待处理文本的发布时间和已存储文本的发布时间,对文本相似度进行修正,得本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获取待处理文本;确定所述待处理文本与已存储文本之间的文本相似度;基于所述待处理文本的发布时间和所述已存储文本的发布时间,对所述文本相似度进行修正,得到修正后的文本相似度;在所述修正后的文本相似度大于或等于预设相似度阈值的情况下,将所述已存储文本作为所述待处理文本的相似文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本与已存储文本之间的文本相似度,包括:生成所述待处理文本的最小哈希签名;计算所述待处理文本的最小哈希签名和所述已存储文本的最小哈希签名之间的汉明距离;根据所述汉明距离确定所述文本相似度。3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本的发布时间和所述已存储文本的发布时间,对所述文本相似度进行修正,得到修正后的文本相似度,包括:计算所述待处理文本的发布时间和所述已存储文本的发布时间之间的发布时间差;确定所述发布时间差对应的时间衰减系数;将所述文本相似度与所述时间衰减系数相乘,得到所述修正后的文本相似度。4.根据权利要求3所述的方法,其特征在于,所述确定所述发布时间差对应的时间衰减系数,包括:在所述发布时间差小于预设时间阈值的情况下,将预设衰减系数作为所述时间衰减系数;在所述发布时间差大于或等于所述预设时间阈值的情况下,根据所述发布时间差和预设衰减速度参数计算所述时间衰减系数。5.根据权利要求1所述的方法,其特征在于,所述已存储文本为目标文本类别的中心文本;其中,在所述将所述已存储文本作为所述待处理文本的相似文本之后,所述方法还包括:将所述待处理文本添加至所述目标文本类别中。6.根据权利要求1所述的方法,其特征在于,在所述基于所述待处理文本的发布时间和所述已存储文本的发布时间,对所述文本相似度进行修正,得到修正后的文本相似度之后,所述方法还包括:在所述修正后的文本相似度小于所述预设相似度阈值的情况下,将所述待存储文本作为新文本类别的中心文本。7.根据权利要求1所述的方法,其特征在于,在所述将所述已存储文本作为所述待处理文本的相似文本之后,所述方法还包括:在所述待处理文本存在多个所述相似文本的情况下,将最大的修正后的文本相似度对应的相似文本作为所述待处理文本的目标相似文本。8.根据权利要求1所述的方法,其特征在于,在所述确定所述待处理文本与已存储文本
之间的文本相似度之前,所述方法还包括:确定所述待处理文本...

【专利技术属性】
技术研发人员:王宇琪张佳旭郝艳妮王璋盛曹家方省罗引王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1