基于大数据的科技信息个性化定制推送系统技术方案

技术编号:15910847 阅读:48 留言:0更新日期:2017-08-01 22:31
本发明专利技术涉及一种基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,形成信息基础库,根据文本及特征进行分析和处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息;本发明专利技术能够根据用户自身特点及平时习惯给用户推送更符合其要求的科技信息,最大程度地满足用户的个性化需求,提高用户体验。

Personalized information push system for scientific and technological information based on big data

The invention relates to a big data science and technology information based on personalized push system, includes the following modules: basic information module, text and feature analysis module, and the characteristics of the text processing module, LDA algorithm module, association rules algorithm module and push API information push module; the information base the module is the user as a research object, through the user's browsing history, the formation of information base, according to the text and feature analysis and processing, to analyze the topic distribution of science and technology information using the LDA algorithm, to analyze the user's topic distribution using the algorithm of association rules, the use of push API push information, finally through the theme analysis of information technology to get user's interest hobby to push the corresponding information of science and technology; the invention can according to the user's own characteristics and accustomed to the user Push more scientific and technological information that meets its requirements, to the greatest extent to meet the user's personalized needs, improve user experience.

【技术实现步骤摘要】
基于大数据的科技信息个性化定制推送系统
本专利技术属于互联网技术中个性化定制推送
,具体涉及一种基于大数据的科技信息个性化定制推送系统。
技术介绍
“定制”一词就起源于萨维尔街,意思是为个别客户量身剪裁;随着网络技术的高度发展,地球村成为现实;工业化大生产带来的负面影响日益明显,商品极大丰富,供大于求现象普遍严重,行业竞争压力巨大,寻求差异化竞争被迫成为企业生存发展的主旨;但正是基于这一点,从而让定制经济开始步入主殿堂;并作为历史上最具人性化的经济,成为备受人们推崇的新经济模式;随着网络的日益发展,基于网络的多媒体传输已经越来越普及,而且人们对多媒体通信内容的要求日益提高,人们不再满足于单一、被动的传统媒体娱乐方式,而需要更加个性化、互动化的多媒体通信方式;特别是随着移动网络通信技术的进一步发展和移动多媒体业务的普及,移动多媒体已经越来越显示其未来广泛和越趋成熟的用户认知以及接受度。互联网经历了门户网站和搜索引擎的时代,迎来了社交网络的时代;我们面临新的挑战,信息碎片化,时间碎片化,用户体验的个性化需求,终端由PC转向手持智能终端等。信息推荐引擎试图通过以人为中心的社交网络数据分析,深度挖掘定位用户的喜好,关注用户的兴趣特点,最终将合适的信息推送到指定用户。本系统将用户作为一个研究对象,通过用户的历史的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,致力于探索用户所感兴趣的信息的主题,最终通过主题分析来得到用户的兴趣爱好来推送相应的信息。传统的信息推荐算法主要是依托于协同过滤算法,主要是利用item-based和used-based两种过滤方式来处理信息,这种方式主要思想是利用文本之间的相似性来突出用户之间的相似性,但是在信息推荐上并不能得到非常理想的推荐效果,主要原因主要有以下,第一,基于协同过滤的信息推荐算法主要是突出了文本的相似性,而这种相似性并不能完全代表用户的相似性;第二,基于协同过滤的信息推荐算法,并没有将用户作为一个研究对象,因此数据挖掘深度比较浅,并不能挖掘出用户的兴趣爱好。而本系统将用户作为一个研究对象,通过用户的历史的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,利用LDA算法来分析新闻的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的兴趣爱好来推送相应的信息。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。优选地,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的是完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。优选地,所述的文本及特征处理,所述的分词可以形成一定规模的信息基础,但是由于分词中有大量的分词是没有价值的,因此我们需要相应的技术手段或者是算法来得到我们需要的科技信息文本中的关键词。优选地,所述的LDA算法,即隐含狄利克雷分布,英文为LatentDirichletAllocation,简称LDA,该算法的核心的思想是,可以用生成模型来看文档和主题这两件事;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。所述的关联规则的发现,第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程;而常用的关联规则算法有FP-Growth算法和Apriori算法;这两种算法都能很好完成关联规则的发现;在关联规则算法中主要有两种概念要值得注意,一个是置信度,一个是支持度;只有一个关联规则的置信度和支持度同时满足最小阀值的时候才能认可科技信息之间的关联规则。优选地,所述用户为Android和IOS用户。所述的推送API进行信息推送,推送服务层组件中的IOS推送服务统一将推送信息送入APNS,由APNS负责后续推送工作,Android则通过后台守护进程,和推送服务建立联系后获取推送科技信息内容。本专利技术具有以下有益效果:本专利技术基于大数据的科技信息个性化定制推送系统,通过用户的历史的浏览记录,获取用户相应的科技信息主题,并根据对应的科技信息主题计算出用户对应的需求科技信息,最后利用推送API给对应的用户发送相应的科技信息,满足用户的个性化需求,提高用户体验。附图说明图1是本专利技术系统结构示意图。具体实施方式下面将结合本专利技术的附图,对本专利技术的技术方案进行清楚、完整地描述。基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。优选地,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的来完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。优选地,所述的文本及特征处理,所述的分词可以形成一定规模的信息基础,但是由于分词中有大量分词是没有价值的,因此我们需要相应的技术手段或者是算法来得到我们需要的科技信息文本中的关键词。而找到我们文本中的特征词,主要我们用到的算法是最常用的文本挖掘方法TF-IDF;TF-IDF(termfrequency–inversedocumentfrequency)是一种信息挖掘以及信息搜索领域的常用加权技术,TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现本文档来自技高网
...
基于大数据的科技信息个性化定制推送系统

【技术保护点】
基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。

【技术特征摘要】
1.基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。2.根据权利要求1所述的基于大数据的科技信息个性化定制推送系统,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的来完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。3.根据权利要求2所述的基于大数据的科技信息个性化定制推送系统,所述的文本及特征处理,所述的分词可以形成...

【专利技术属性】
技术研发人员:陈文海霍英霞冀鹏飞丁平黄美珍陈劲峰姚蕴佘文文马晓贾旭闫斌斌柏道菲张军成华娟
申请(专利权)人:山东辰华科技信息有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1