一种基于大数据的新闻个性化推送方法及系统技术方案

技术编号:38896420 阅读:9 留言:0更新日期:2023-09-22 14:17
本发明专利技术提供了一种基于大数据的新闻个性化推送方法及系统,涉及信息推送技术领域。在本申请中,为了针对查阅者个体进行个性化新闻推送,基于大数据对用户新闻查阅信息进行挖掘,明确查阅者感兴趣的新闻类型,然后将待推送新闻进行核心信息提取,以查阅者感兴趣的新闻类型为推送的参照基础,建立用户信息需求与待推送新闻之间的匹配关系,以相似度最高的词汇簇中对应的新闻信息作为推送内容,通过这样的方式确定用户对于不同新闻类型的需求,将与之存在匹配关系词汇簇内对应的新闻信息作为推送内容,实现精准的信息推送以及新闻信息的个性化推送,提高用户对送内容的满意度。提高用户对送内容的满意度。提高用户对送内容的满意度。

【技术实现步骤摘要】
一种基于大数据的新闻个性化推送方法及系统


[0001]本专利技术涉及信息推送
,具体而言,涉及一种基于大数据的新闻个性化推送方法及系统。

技术介绍

[0002]新闻是了解国内和国际实事的一个主要途径。从较为原始的报纸、杂志的浏览,到现代化的互联网、移动互联网的新闻浏览和新闻推送。新闻依旧是承担着描述当前发生实事的任务。随着PC和移动终端的普及以及各种软件、新闻门户、APP的问世,浏览新闻的方法可以说是多种多样的。如常见的新闻推送,能够将一段时间内,符合使用者要求的新闻链接,或新闻内容主动提供给使用者,以便于浏览;新闻回顾,使用者通过软件能够记录下与某些特定内容(如与某明星、某事件)相关联的全部内容,还可以按照时间的不同,从事件开始到时间结束依次进行回顾。
[0003]但是近年来,互联网和移动互联网迎来了爆发式的增长,用户每天都会面对海量的新闻信息,无法精准地向用户推送其喜好、的新闻类型。

技术实现思路

[0004]本专利技术的目的在于提供一种基于大数据的新闻个性化推送方法及系统,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:
[0005]第一方面,本申请提供了一种基于大数据的新闻个性化推送方法,包括:
[0006]基于大数据分别获取用户新闻查阅信息和待推送新闻集合,所述待推送新闻集合包括所有的待推送新闻以及每个所述待推送新闻对应的时间戳;
[0007]基于所述待推送新闻集合中每个所述待推送新闻分别进行第一预处理,得到第一主题词簇集合,所述第一主题词簇集合是基于所述时间戳的先后顺序将每个所述第一主题词簇进行排列后得到的集合,每个所述第一主题词簇为每个所述待推送新闻对应的概要关键词组按照同种属性进行分类后得到的集合;
[0008]基于所述用户新闻查阅信息进行第二预处理,得到第二主题词簇,所述第二主题词簇是基于权重值从所述用户新闻查阅信息中筛选出的不同属性词汇的集合,所述权重值是基于每个词汇出现频率计算得到的值;
[0009]基于每个所述第一主题词簇与所述第二主题词簇计算二者之前的匹配值;
[0010]基于所述匹配值和预设阈值,将所述待推送新闻按照所述时间戳推送给特定用户,所述预设阈值为相似度最小临界值。
[0011]第二方面,本申请还提供了基于大数据的新闻个性化推送系统,包括获取模块、第一分类模块、第二分类模块、计算模块和匹配模块,其中:
[0012]获取模块:用于基于大数据分别获取用户新闻查阅信息和待推送新闻集合,所述待推送新闻集合包括所有的待推送新闻以及每个所述待推送新闻对应的时间戳;
[0013]第一分类模块:用于基于所述待推送新闻集合中每个所述待推送新闻分别进行第
一预处理,得到第一主题词簇集合,所述第一主题词簇集合是基于所述时间戳的先后顺序将每个所述第一主题词簇进行排列后得到的集合,每个所述第一主题词簇为每个所述待推送新闻对应的概要关键词组按照同种属性进行分类后得到的集合;
[0014]第二分类模块:用于基于所述用户新闻查阅信息进行第二预处理,得到第二主题词簇,所述第二主题词簇是基于权重值从所述用户新闻查阅信息中筛选出的不同属性词汇的集合,所述权重值是基于每个词汇出现频率计算得到的值;
[0015]计算模块:用于基于每个所述第一主题词簇与所述第二主题词簇计算二者之前的匹配值;
[0016]匹配模块:用于基于所述匹配值和预设阈值,将所述待推送新闻按照所述时间戳推送给特定用户,所述预设阈值为相似度最小临界值。
[0017]本专利技术的有益效果为:
[0018]在本申请中,为了针对查阅者个体进行个性化新闻推送,基于大数据对用户新闻查阅信息进行挖掘,明确查阅者感兴趣的新闻类型,然后将待推送新闻进行核心信息提取,以查阅者感兴趣的新闻类型为推送的参照基础,建立用户信息需求与待推送新闻之间的匹配关系,以相似度最高的词汇簇中对应的新闻信息作为推送内容,通过这样的方式确定用户对于不同新闻类型的需求,将与之存在匹配关系词汇簇内对应的新闻信息作为推送内容,实现精准的信息推送以及新闻信息的个性化推送,提高用户对送内容的满意度。
[0019]本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0021]图1为本实施例中所述的基于大数据的新闻个性化推送方法的框图;
[0022]图2为本实施例中所述的基于大数据的新闻个性化推送系统的框图;
[0023]图3为本实施例中所述的基于大数据的新闻个性化推送设备的框图。
[0024]图中:710

获取模块;711

获取子单元;712

判断单元;720

第一分类模块;721

第一提取单元;722

第一归类单元;723

排序单元;730

第二分类模块;731

第二提取单元;7311

分解单元;7312

预处理单元;7313

第四归类单元;732

第二归类单元;733

统计单元;734

第三归类单元;740

计算模块;750

匹配模块;800

基于大数据的新闻个性化推送设备;801

处理器;802

存储器;803

多媒体组件;804

I/O接口;805

通信组件。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施
例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的新闻个性化推送方法,其特征在于,包括:基于大数据分别获取用户新闻查阅信息和待推送新闻集合,所述待推送新闻集合包括所有的待推送新闻以及每个所述待推送新闻对应的时间戳;基于所述待推送新闻集合中每个所述待推送新闻分别进行第一预处理,得到第一主题词簇集合,所述第一主题词簇集合是基于所述时间戳的先后顺序将每个所述第一主题词簇进行排列后得到的集合,每个所述第一主题词簇为每个所述待推送新闻对应的概要关键词组按照同种属性进行分类后得到的集合;基于所述用户新闻查阅信息进行第二预处理,得到第二主题词簇,所述第二主题词簇是基于权重值从所述用户新闻查阅信息中筛选出的不同属性词汇的集合,所述权重值是基于每个词汇出现频率计算得到的值;基于每个所述第一主题词簇与所述第二主题词簇计算二者之前的匹配值;基于所述匹配值和预设阈值,将所述待推送新闻按照所述时间戳推送给特定用户,所述预设阈值为相似度最小临界值。2.根据权利要求1所述的基于大数据的新闻个性化推送方法,其特征在于,所述第一预处理的方法包括:基于预设词频和每个所述待推送新闻分别进行提取,得到概要关键词组,所述概要关键词组为所述待推送新闻中高于所述预设词频的词组;基于所述概要关键词组的属性进行分类,得到第一主题词簇;基于所述时间戳,将所述第一主题词簇按照时间的先后顺序进行排列,得到所述第一主题词簇集合。3.根据权利要求1所述的基于大数据的新闻个性化推送方法,其特征在于,所述第二预处理的方法包括:基于每个所述用户新闻查阅信息进行提取处理,得到词汇表,所述词汇表是所述用户新闻查阅信息中删除不影响语义的无意义字段后残余的词集合;基于所述词汇表中每个词汇所属的属性进行分类,得到词汇簇;遍历所述词汇簇,计算每个所述词汇对应的索引值和权重值;基于最大所述索引值和所述权重值,得到第二主题词簇。4.根据权利要求3所述的基于大数据的新闻个性化推送方法,其特征在于,基于每个所述用户新闻查阅信息进行提取处理,得到词汇表包括:基于停用词对每个所述用户新闻查阅信息进行分解,得到字段信息;基于每个所述字段信息判断是否含有预设删除信息,若所述字段信息含有所述预设删除信息,则从所述字段信息中删除对应的所述预设删除信息得到更新后的所述字段信息;遍历所有更新后的所述字段信息,得到所述词汇表。5.根据权利要求1所述的基于大数据的新闻个性化推送方法,其特征在于,所述基于大数据获取用户新闻查阅信息包括:获取用户历史查阅记录中的每条历史新闻对应的查阅时间以及历史重复查阅次数;判断所述查阅时间是否大于预设时间阈值,若所述查阅时间小于所述预设时间阈值,则判断所述历史重复查阅次数是否大于预设次数,若所述历史重复查阅次数大于预设次数,则将所述历史新闻作为所述用户新闻查阅信息;所述预设时间阈值为阅读时长的最小
临界值;所述预设次数为阅读次数的最小临界值。6.一种基于大数据的新闻个性化推送系统,其特征在于,包括:获取模块:用于基于大数据分别获取用户新闻查阅信息和待推...

【专利技术属性】
技术研发人员:葛安康姜子祺张成婓张丽
申请(专利权)人:青岛嘉迅信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1