【技术实现步骤摘要】
一种基于大数据的新闻个性化推送方法及系统
[0001]本专利技术涉及信息推送
,具体而言,涉及一种基于大数据的新闻个性化推送方法及系统。
技术介绍
[0002]新闻是了解国内和国际实事的一个主要途径。从较为原始的报纸、杂志的浏览,到现代化的互联网、移动互联网的新闻浏览和新闻推送。新闻依旧是承担着描述当前发生实事的任务。随着PC和移动终端的普及以及各种软件、新闻门户、APP的问世,浏览新闻的方法可以说是多种多样的。如常见的新闻推送,能够将一段时间内,符合使用者要求的新闻链接,或新闻内容主动提供给使用者,以便于浏览;新闻回顾,使用者通过软件能够记录下与某些特定内容(如与某明星、某事件)相关联的全部内容,还可以按照时间的不同,从事件开始到时间结束依次进行回顾。
[0003]但是近年来,互联网和移动互联网迎来了爆发式的增长,用户每天都会面对海量的新闻信息,无法精准地向用户推送其喜好、的新闻类型。
技术实现思路
[0004]本专利技术的目的在于提供一种基于大数据的新闻个性化推送方法及系统,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:
[0005]第一方面,本申请提供了一种基于大数据的新闻个性化推送方法,包括:
[0006]基于大数据分别获取用户新闻查阅信息和待推送新闻集合,所述待推送新闻集合包括所有的待推送新闻以及每个所述待推送新闻对应的时间戳;
[0007]基于所述待推送新闻集合中每个所述待推送新闻分别进行第一预处理,得到第一主题词簇集合,所述第一主题 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的新闻个性化推送方法,其特征在于,包括:基于大数据分别获取用户新闻查阅信息和待推送新闻集合,所述待推送新闻集合包括所有的待推送新闻以及每个所述待推送新闻对应的时间戳;基于所述待推送新闻集合中每个所述待推送新闻分别进行第一预处理,得到第一主题词簇集合,所述第一主题词簇集合是基于所述时间戳的先后顺序将每个所述第一主题词簇进行排列后得到的集合,每个所述第一主题词簇为每个所述待推送新闻对应的概要关键词组按照同种属性进行分类后得到的集合;基于所述用户新闻查阅信息进行第二预处理,得到第二主题词簇,所述第二主题词簇是基于权重值从所述用户新闻查阅信息中筛选出的不同属性词汇的集合,所述权重值是基于每个词汇出现频率计算得到的值;基于每个所述第一主题词簇与所述第二主题词簇计算二者之前的匹配值;基于所述匹配值和预设阈值,将所述待推送新闻按照所述时间戳推送给特定用户,所述预设阈值为相似度最小临界值。2.根据权利要求1所述的基于大数据的新闻个性化推送方法,其特征在于,所述第一预处理的方法包括:基于预设词频和每个所述待推送新闻分别进行提取,得到概要关键词组,所述概要关键词组为所述待推送新闻中高于所述预设词频的词组;基于所述概要关键词组的属性进行分类,得到第一主题词簇;基于所述时间戳,将所述第一主题词簇按照时间的先后顺序进行排列,得到所述第一主题词簇集合。3.根据权利要求1所述的基于大数据的新闻个性化推送方法,其特征在于,所述第二预处理的方法包括:基于每个所述用户新闻查阅信息进行提取处理,得到词汇表,所述词汇表是所述用户新闻查阅信息中删除不影响语义的无意义字段后残余的词集合;基于所述词汇表中每个词汇所属的属性进行分类,得到词汇簇;遍历所述词汇簇,计算每个所述词汇对应的索引值和权重值;基于最大所述索引值和所述权重值,得到第二主题词簇。4.根据权利要求3所述的基于大数据的新闻个性化推送方法,其特征在于,基于每个所述用户新闻查阅信息进行提取处理,得到词汇表包括:基于停用词对每个所述用户新闻查阅信息进行分解,得到字段信息;基于每个所述字段信息判断是否含有预设删除信息,若所述字段信息含有所述预设删除信息,则从所述字段信息中删除对应的所述预设删除信息得到更新后的所述字段信息;遍历所有更新后的所述字段信息,得到所述词汇表。5.根据权利要求1所述的基于大数据的新闻个性化推送方法,其特征在于,所述基于大数据获取用户新闻查阅信息包括:获取用户历史查阅记录中的每条历史新闻对应的查阅时间以及历史重复查阅次数;判断所述查阅时间是否大于预设时间阈值,若所述查阅时间小于所述预设时间阈值,则判断所述历史重复查阅次数是否大于预设次数,若所述历史重复查阅次数大于预设次数,则将所述历史新闻作为所述用户新闻查阅信息;所述预设时间阈值为阅读时长的最小
临界值;所述预设次数为阅读次数的最小临界值。6.一种基于大数据的新闻个性化推送系统,其特征在于,包括:获取模块:用于基于大数据分别获取用户新闻查阅信息和待推...
【专利技术属性】
技术研发人员:葛安康,姜子祺,张成婓,张丽,
申请(专利权)人:青岛嘉迅信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。