当前位置: 首页 > 专利查询>河海大学专利>正文

一种水利门户信息混合推荐方法技术

技术编号:22364151 阅读:47 留言:0更新日期:2019-10-23 04:42
本发明专利技术公开了一种水利门户信息混合推荐方法,步骤为:事先定义水利门户信息分类体系,然后利用网络爬虫从各大水利门户网站爬取水利门户信息,并按照水利门户信息分类进行手工标注,建立水利门户信息分类器,对推荐数据集中的大量水利门户信息进行自动分类;利用推荐数据集以及用户行为数据分别构建基于时空敏感的热点信息推荐模型、基于信息内容的推荐模型以及基于用户和信息类别的协同过滤推荐模型三种推荐模型,将三种模型按照一定比例线性混合为老用户推荐信息,用基于时空敏感的热点信息推荐模型为新用户推荐信息。本发明专利技术提高水利信息推荐的准确性和专业性,实现推荐技术在水利门户网站上的创新应用。

A hybrid recommendation method of water portal information

【技术实现步骤摘要】
一种水利门户信息混合推荐方法
本专利技术属于信息处理
,特别涉及一种水利门户信息混合推荐方法。
技术介绍
水利门户网站按照信息发布的时间先后顺序,将信息展现在网站上,然而,这种信息展现方式存在以下缺点:(1)发布形式单一,缺乏灵活性。网站按照信息发布的时间顺序向所有用户提供相同信息,未考虑用户偏好,缺乏灵活性。(2)用户查找信息难度大,体验感差。用户在浏览水利门户网站时,通常会根据需求在网站上查找门户信息。然而,随着水利门户信息的不断增多,用户查找目标信息的难度不断增加,用户浏览网站体验感差。(3)用户易错过重要的水利门户信息。水利门户网站会经常对洪涝旱灾、台风等灾害情况作出预报,信息量的增多使得用户易错失重大灾害的预警信息。个性化推荐系统是一种能够帮助用户快速获取有价值信息的工具。推荐技术通过分析用户历史行为找出用户的兴趣所在,向用户推荐满足其兴趣的信息,推荐技术在现实中经常能看见,例如,新闻网站根据人们的web浏览日志建立用户兴趣模型,为用户推荐其可能喜欢的新闻;电子商务网站通过获取用户在其他社交平台的好友列表以及好友在该平台上的喜好信息,并将好友喜欢的物品推荐给用户以满足其个性化需求;视频网站采用基于标签的个性化推荐方法,缩短用户寻找目标视频的时间。目前,国内外对于推荐技术的研究已达到了一定水平,但通过调研发现,推荐技术并未被应用到水利门户网站。当前个性化推荐领域通常采用基于用户的协同过滤推荐方法或者基于内容的推荐方法为用户进行推荐,将这些技术应用于水利门户网站还存在以下问题:(1)冷启动问题:基于用户的协同过滤推荐方法存在着一定的“项目冷启动”问题,即新水利门户信息如果不被大量用户阅读将得不到有效推荐;两种方法都存在“用户冷启动”问题,即当新用户浏览网站时,因为没有用户历史性行为数据,对新用户的兴趣无法准确表达。(2)数据稀疏性:基于用户的协同过滤推荐在相似度计算时存在一定的数据稀疏性问题,即随着推荐规模的不断增大,两个用户同时关注同一水利门户信息的可能性越来越小。(3)适应性问题:水利门户网站根据时间和空间的变化业务会有所侧重,提高用户对本地区当前可能发生的与水利相关的重点问题的认知、突发状况防范意识很是重要。
技术实现思路
专利技术目的:为了克服现有水利门户网站信息发布方式形式单一,缺乏吸引力,用户查找信息难度大,体验感差,满意度低,用户易错过重要的水利门户信息等缺点以及推荐技术应用到水利门户网站中存在的冷启动问题、数据稀疏性以及适应性问题,本专利技术提供一种水利门户信息混合推荐方法,将水利门户信息按照水利业务以及自身特性特征进行分类,在此基础上考虑用户兴趣衰减、水利门户信息时效以及不同时空下水利业务热点的变化,构建混合推荐模型,提高水利信息推荐的准确性和专业性,实现推荐技术在水利门户网站上的创新应用。技术方案:为实现上述目的,本专利技术提供一种水利门户信息混合推荐方法,包括如下步骤:(1)建立水利门户信息分类体系,将水利门户信息分为:水文信息、水资源信息、水环境水生态信息、水利工程信息、农村水利信息、水灾害即防汛抗旱信息、水土保持信息、移民信息、政务信息以及其他信息一共十类。(2)建立水利门户信息分类模型;(3)利用构建的分类模型实现水利门户信息推荐数据集每条水利门户信息类别判断;(4)建立基于时空敏感的热点信息推荐模型,依据不同时间和空间位置,为用户推荐当前热点水利门户信息;(5)建立基于用户和信息类别的协同过滤推荐模型,实现Top-N推荐;(6)建立基于信息内容的水利门户信息推荐模型,实现Top-N推荐;(7)建立基于步骤(4)的时空敏感的热点信息推荐模型、基于步骤(5)的用户和信息类别的协同过滤推荐模型和步骤(6)的信息内容推荐模型线性加权的混合推荐模型,实现Top-N推荐;(8)对于新用户,采用步骤(4)的基于时空敏感的热点信息推荐模型推荐当前时间和空间位置的热点门户信息,对老用户,采用步骤(7)的混合推荐模型,推荐门户信息。进一步的,所述步骤(2)中建立水利门户信息分类模型的具体步骤如下:(2.1)通过网络爬虫收集水利门户信息分类数据集并对其按照事先定义好的水利门户信息分类体系分类;(2.2)对分类好的水利门户信息分类数据进行预处理,包括分词和去除停用词;(2.3)用向量空间模型对预处理好的词语进行表示,使用CHI实现特征提取:特征词tk对类别ci的CHI如下:其中,N表示训练集文档总数,N=A+B+C+D,A表示包含特征词tk且属于类别ci的文档次数,B表示包含特征词tk但不属于类别ci的文档次数,C表示不包含特征词tk但属于类别ci的文档次数,D表示不包含特征词tk且不属于类别ci的文档次数;分别计算tk对每一类的CHI值,再计算词条tk对于整个语料的CHI值:其中,c表示类别总数;选取出CHI值最高的K个数对应的特征项用于文本表示;(2.4)利用KNN算法构建分类器,实现水利门户信息分类器构造:每一类的权重计算如下,即:其中,x为新的门户信息的特征向量,xj表示训练集文本j的特征向量,sim(x,xj)表示两者之间的相似度,s表示训练集文档的总数,y(xj,ci)表示类别属性函数,如果xj属于该业务类别,则设置为1,如果不属于,则设置为0。进一步的,所述步骤(3)中利用构建的分类模型实现水利门户信息推荐数据集每条水利门户信息类别判断的具体步骤如下:(3.1)推荐数据收集和预处理:推算算法的实现需要用户行为数据以及水利门户信息推荐数据,该部分数据通过调查获得,对获取的数据进行整理、筛选和格式统一,将用户行为数据表示成包括用户编号、信息编号、信息标题、信息内容、类别编号、发布日期、阅读日期的参数的形式,水利门户信息推荐数据表示成包括信息编号、信息标题、信息内容、类别编号、发布日期的参数的形式;(3.2)水利门户信息推荐数据集类别标记:利用构建好的水利门户信息分类器对推荐数据集中的每篇水利门户信息类别进行判断。进一步的,所述步骤(4)中建立基于时空敏感的热点信息推荐模型的具体步骤如下:(4.1)网站根据其所处的空间位置事先定义好当前时间的热门水利门户信息类别;(4.2)根据水利门户信息流行度和时效性计算用户对水利门户信息的兴趣度I;(4.3)根据兴趣度I进行排名,生成Top-N推荐列表。进一步的,所述步骤(5)中建立基于用户和信息类别的水利门户信息协同过滤推荐模型的具体步骤如下:(5.1)根据用户行为数据中用户阅读的水利门户信息的类别构建用户-水利门户信息类别兴趣度矩阵Muwc,并加入用户兴趣衰减函数f(t)实现用户兴趣更新;(5.2)根据矩阵Muwc利用余弦相似度公式计算用户之间的相似度,找与当前用户类别兴趣相似的用户;(5.3)与水利门户信息时效性公式k(t)相乘计算用户对相似用户阅读的水利门户信息的兴趣度I;(5.4)根据兴趣度I进行排名,去除用户已经看过的水利门户信息,生成Top-N推荐列表。进一步的,所述步骤(6)中建立基于信息内容的水利门户信息推荐模型的具体步骤如下:(6.1)对水利门户信息推荐数据以及用户行为数据进行预处理,包括分词和去除停用词;(6.2)通过LDA主题模型和向量空间模型提取用户行为数据中用户的主题兴趣向量Tu和关键词兴趣向量Ku,构建用户兴趣模型本文档来自技高网
...

【技术保护点】
1.一种水利门户信息混合推荐方法,其特征在于,包括如下步骤:(1)建立水利门户信息分类,将水利门户信息分为:水文信息、水资源信息、水环境水生态信息、水利工程信息、农村水利信息、水灾害即防汛抗旱信息、水土保持信息、移民信息、政务信息以及其他信息一共十类。(2)建立水利门户信息分类模型;(3)利用构建的分类模型实现水利门户信息推荐数据集每条水利门户信息类别判断;(4)建立基于时空敏感的热点信息推荐模型,依据不同时间和空间位置,为用户推荐当前热点水利门户信息;(5)建立基于用户和信息类别的协同过滤推荐模型,实现Top‑N推荐;(6)建立基于信息内容的推荐模型,实现Top‑N推荐;(7)建立基于步骤(4)的时空敏感的热点信息推荐模型、基于步骤(5)的用户和信息类别的协同过滤推荐模型和步骤(6)的信息内容推荐模型线性加权的混合推荐模型,实现Top‑N推荐;(8)对于新用户,采用步骤(4)的基于时空敏感的热点信息推荐模型推荐当前时间和空间位置的热点门户信息,对老用户,采用步骤(7)的混合推荐模型,推荐门户信息。

【技术特征摘要】
1.一种水利门户信息混合推荐方法,其特征在于,包括如下步骤:(1)建立水利门户信息分类,将水利门户信息分为:水文信息、水资源信息、水环境水生态信息、水利工程信息、农村水利信息、水灾害即防汛抗旱信息、水土保持信息、移民信息、政务信息以及其他信息一共十类。(2)建立水利门户信息分类模型;(3)利用构建的分类模型实现水利门户信息推荐数据集每条水利门户信息类别判断;(4)建立基于时空敏感的热点信息推荐模型,依据不同时间和空间位置,为用户推荐当前热点水利门户信息;(5)建立基于用户和信息类别的协同过滤推荐模型,实现Top-N推荐;(6)建立基于信息内容的推荐模型,实现Top-N推荐;(7)建立基于步骤(4)的时空敏感的热点信息推荐模型、基于步骤(5)的用户和信息类别的协同过滤推荐模型和步骤(6)的信息内容推荐模型线性加权的混合推荐模型,实现Top-N推荐;(8)对于新用户,采用步骤(4)的基于时空敏感的热点信息推荐模型推荐当前时间和空间位置的热点门户信息,对老用户,采用步骤(7)的混合推荐模型,推荐门户信息。2.所述步骤(2)中建立水利门户信息分类模型的具体步骤如下:(2.1)通过网络爬虫收集水利门户信息分类数据集并对其按照事先定义好的水利门户信息分类体系分类;(2.2)对分类好的水利门户信息分类数据进行预处理,包括分词和去除停用词;(2.3)用向量空间模型对预处理好的词语进行表示,使用CHI实现特征提取:特征词tk对类别ci的CHI如下:其中,N表示训练集文档总数,N=A+B+C+D,A表示包含特征词tk且属于类别ci的文档次数,B表示包含特征词tk但不属于类别ci的文档次数,C表示不包含特征词tk但属于类别ci的文档次数,D表示不包含特征词tk且不属于类别ci的文档次数;分别计算tk对每一类的CHI值,再计算词条tk对于整个语料的CHI值:其中,c表示类别总数;选取出CHI值最高的K个数对应的特征项用于文本表示;(2.4)利用KNN算法构建分类器,实现水利门户信息分类器构造:每一类的权重计算如下,即:其中,x为新的门户信息的特征向量,xj表示训练集文本j的特征向量,sim(x,xj)表示两者之间的相似度,s表示训练集文档的总数,y(xj,ci)表示类别属性函数,如果xj属于该业务类别,则设置为1,如果不属于,则设置为0。3.所述步骤(3)中利用构建的分类模型实现水利门户信息推荐数据集每条水利门户信息类别判断的具体步骤如下:(3.1)推荐数据收集和预处理:推算算法的...

【专利技术属性】
技术研发人员:王继民张玲王飞王磊杨江
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1