【技术实现步骤摘要】
一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法
[0001]本专利技术涉及数据处理
,具体为一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法。
技术介绍
[0002]以百度贴吧为代表的网络论坛,与新浪微博等短文本社交平台,或抖音、快手等短视频社交平台有不同之处:每个贴吧以一个实体作为其名义上最为关注的内容而命名。
[0003]时事热点和流行文化经常随时间推移而发生改变,网络论坛中人们的关注点也会随之发生变化。一些关注点会逐渐被用户忘记,新的关注点会被补充进来,而也有一些关注点始终是用户感兴趣的对象。
[0004]发掘时间变化对网络论坛、用户及舆论情况的影响,能够进一步强化对网络态势的感知力与敏感程度,同样具有一定的研究价值。
[0005]正如其它网络舆情聚集的网上社交平台一样,网络论坛的关注点经常会随时间而改变。事实上对网络论坛关注响应快慢、持续时间是分析网络论坛舆论变化非常重要的特性之一。如何将这些反映了网络论坛用户的兴趣、爱好相关的信息的特性体现到论坛关注点的相似性计算中来,是需要 ...
【技术保护点】
【技术特征摘要】
1.一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,包括:分析网络论坛中帖子的发表时间数据,将网络论坛及用户关注点,随时间变化的思想,加入所述关注点权值计算过程;结合运用时间窗口及时间遗忘算法,在为所述关注点权值赋予时间权重,并通过计算得到的时间窗口键值,连续去除过期关注点。2.根据权利要求1所述的针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,本算法包括:结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算和基于语义和时间权重的Simrank关注点相似度算法。3.根据权利要求2所述的针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,所述结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算,包括以下步骤:S10、通过使用基于时间变化率的时间窗口,为不断变化的文本数据设置一个新的权值;S11、改良现有的基于时间窗口的关注点权重计算因过期数据带来的误差;S12、基于时间变化率的时间窗口计算出平均时间变化率的权值;S13、为时间窗口筛选过时数据提供键值的结合。4.根据权利要求2所述的针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,所述基于语...
【专利技术属性】
技术研发人员:沈池花,巨星海,闵宗茹,陈曲,刘丽娟,刘錞,周刚,张明金,杜俊丽,陈龙龙,
申请(专利权)人:上海瀛数信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。