【技术实现步骤摘要】
一种信息处理方法、装置、设备及存储介质
[0001]本公开涉及信息处理
,尤其涉及一种信息处理方法、装置、设备及存储介质。
技术介绍
[0002]随着大数据时代的到来,网络平台逐渐逐趋向成熟,用户可以便捷的在网络平台上分享和查看感兴趣的信息。
[0003]为了避免在同一页面展示重复信息,网络平台需要对重复信息进行处理。然而,在相关技术中,网络平台不能快速准确地查找到重复信息,使得所展示内容的重复性依然较高,导致用户不能快速准确的从网络平台中查找感兴趣信息,影响用户的信息查看体验,且查找重复信息的过程占用较多的内存,浪费设备资源。
技术实现思路
[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种信息处理方法、装置、设备及存储介质。
[0005]本公开提供了一种信息处理方法,该方法包括:
[0006]获取待处理文本;
[0007]确定待处理文本与已存储文本之间的文本相似度;
[0008]基于待处理文本的发布时间和已存储文本的发布时间,对文 ...
【技术保护点】
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获取待处理文本;确定所述待处理文本与已存储文本之间的文本相似度;基于所述待处理文本的发布时间和所述已存储文本的发布时间,对所述文本相似度进行修正,得到修正后的文本相似度;在所述修正后的文本相似度大于或等于预设相似度阈值的情况下,将所述已存储文本作为所述待处理文本的相似文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本与已存储文本之间的文本相似度,包括:生成所述待处理文本的最小哈希签名;计算所述待处理文本的最小哈希签名和所述已存储文本的最小哈希签名之间的汉明距离;根据所述汉明距离确定所述文本相似度。3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本的发布时间和所述已存储文本的发布时间,对所述文本相似度进行修正,得到修正后的文本相似度,包括:计算所述待处理文本的发布时间和所述已存储文本的发布时间之间的发布时间差;确定所述发布时间差对应的时间衰减系数;将所述文本相似度与所述时间衰减系数相乘,得到所述修正后的文本相似度。4.根据权利要求3所述的方法,其特征在于,所述确定所述发布时间差对应的时间衰减系数,包括:在所述发布时间差小于预设时间阈值的情况下,将预设衰减系数作为所述时间衰减系数;在所述发布时间差大于或等于所述预设时间阈值的情况下,根据所述发布时间差和预设衰减速度参数计算所述时间衰减系数。5.根据权利要求1所述的方法,其特征在于,所述已存储文本为目标文本类别的中心文本;其中,在所述将所述已存储文本作为所述待处理文本的相似文本之后,所述方法还包括:将所述待处理文本添加至所述目标文本类别中。6.根据权利要求1所述的方法,其特征在于,在所述基于所述待处理文本的发布时间和所述已存储文本的发布时间,对所述文本相似度进行修正,得到修正后的文本相似度之后,所述方法还包括:在所述修正后的文本相似度小于所述预设相似度阈值的情况下,将所述待存储文本作为新文本类别的中心文本。7.根据权利要求1所述的方法,其特征在于,在所述将所述已存储文本作为所述待处理文本的相似文本之后,所述方法还包括:在所述待处理文本存在多个所述相似文本的情况下,将最大的修正后的文本相似度对应的相似文本作为所述待处理文本的目标相似文本。8.根据权利要求1所述的方法,其特征在于,在所述确定所述待处理文本与已存储文本
之间的文本相似度之前,所述方法还包括:确定所述待处理文本...
【专利技术属性】
技术研发人员:王宇琪,张佳旭,郝艳妮,王璋盛,曹家,方省,罗引,王磊,
申请(专利权)人:北京中科闻歌科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。