微博首页数据自动推荐方法技术

技术编号:11515849 阅读:61 留言:0更新日期:2015-05-28 10:47
本发明专利技术涉及一种微博首页数据自动推荐方法,所述方法包括(1)从海量微博中筛选出微博榜;(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪。本发明专利技术自动向首页推荐最新最热的博文图片和概要,来满足用户需求。采用自动统计筛选的方法填充首页数据,提高了数据的新鲜度、广度和更新周期,节省了人力和成本。经人工检测,图片筛选裁剪的质量达到99.9%,微博概要的推荐的准确率达到98%以上。

【技术实现步骤摘要】
微博首页数据自动推荐方法
本专利技术涉及一种推荐方法,具体讲涉及一种微博首页数据自动推荐方法。
技术介绍
微博(Microblog)是近年来新兴的一种网络服务,它是一个基于用户关系的信息分享、传播以及获取平台。用户可以通过网络、手机以及各种智能联网的客户端发送文字,并实现即时分享。微博具有使用简单便捷、支持开放多平台接入方式、消息更新传播速度快等特点,短短5年内吸引了全球上亿用户,截止2011年上半年,中国的微博用户已经达到1.95亿。微博比传统的社交网络具有更强的信息传播能力和成员组织能力,这一独特优势使其迅速成为当前主要社会媒体之一,作为一种非常重要的消息来源和传播途径,在越来越多的社会事件中起到关键作用。各式各样的整合微博内容的垂直服务如雨后春笋般冒起来。首页的好坏取决于首页数据的质量。一个好的首页,可以提升整个服务的品质,展示整个微博直垂服务的内容取向,引导、激发用户兴趣,提高网页点击率,因此一个好的首页必不可少。目前的首页数据推荐方法,主要依靠人工推荐,通过人工阅读来发现最新最热点的数据,手工挑选或制作符合首页设计的图片和文字。人工推荐的方法,不足之处就是成本高,时效性差,更新速度慢,内容范畴窄。通过人工发现最新最热数据,投入人工的数量、阅读的广度和速度,决定了发现的速度和质量,因此要最新、更好、缩短更新周期的首页数据,就要投入大量的人力,这便增加了成本。
技术实现思路
针对现有技术的不足,本专利技术提出一种自动推荐微博首页数据的方法。根据微博特点以及用户需求,分析统计数据,自动轮番推荐给首页不同尺寸不同频道的图片和微博概要。节省人力和维护成本。本专利技术的目的是采用下述技术方案实现的:一种微博首页数据自动推荐方法,其改进之处在于,所述方法包括(1)从海量微博中筛选出微博榜;(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪。优选的,所述步骤(1)包括根据配置模板,按照数据量的颗粒度和外径,从数据库中读取每个频道带图片的微博数据,得到每个频道的数据集;依据微博发布时间和转发数,对数据集进行倒排序,取最新最热的前N名,得到各个频道的微博榜TopN。进一步地,每篇微博包括一个节点存储,其节点内容包括博文、图片、博文发布时间和博文转发数。优选的,所述步骤(2)包括从微博榜中依次循环,取出节点中的博文,提取博文的主题句。优选的,所述步骤(2)包括(2.1)对博文进行预处理;(2.2)切句,根据不同频道的博文特征,对句子排序,选取排序第一的句子,记为s;(2.3)计算句子长度,记为len,len>wordi,则对s截句;wordi为主题i的长度;(2.4)判断的主题句是否有意义;(2.5)选取下一个节点,重复步骤(2.1)-(2.4);(2.6)结束。进一步地,所述步骤(2.3)包括根据标点符号的断句进行截取,标点符号的优先等级为:(a)“。”(b)“!”、“?”(c)“;”(d)“:”(e)“,”保证成对出现的符号的完整性,出现半边符号,则截去。进一步地,所述步骤(2.4)包括所述判断的主题句是否有意义,采取的方法为字数判断、中英文判断和语气词判断,无意义,则丢弃。优选的,所述步骤(3)包括根据步骤(2)得到的数据集,取出节点中的图片,放入自动筛选器,符合要求,则按照模板中的尺寸进行自动裁剪,否则取下一张图片继续筛选。优选的,所述步骤(3)包括(3.1)计算图片的尺寸,记为size;(3.2)判断符合模板图片i的数量是否已经达到最大数量maxNumi,没有达到,进行步骤(3.3),达到,遍历下一个模板图片,循环步骤(3.2);若所有模板图片的最大数量都已满足,则跳到步骤(3.6);(3.3)计算size与模板图片i的尺寸的匹配度,记为d;(3.4)判断匹配度d是否符合要求;当T1<d<T2,则进行自动裁剪,对符合模板图片i的数量加1,跳到步骤(3.6);否则不符合要求,重复步骤(3.2)和(3.3),直到与模板中的所有种类的图片都比较完毕;不符合要求,则继续步骤(3.5),其中,T1、T2为阈值;(3.5)取下一张图片,进行步骤(3.1)到(3.4)。(3.6)结束。与现有技术比,本专利技术的有益效果为:本专利技术自动向首页推荐最新最热的博文图片和概要,来满足用户需求。采用自动统计筛选的方法填充首页数据,提高了数据的新鲜度、广度和更新周期,节省了人力和成本。经人工检测,图片筛选裁剪的质量达到99.9%,微博概要的推荐的准确率达到98%以上。具体体现在以下几点1、设计几种不同的尺寸,以适应各式各样长宽不一致的图片规格;2、灵活配置数据量颗粒和外径的,提高了每个频道都有图片和概要推荐的概率。3、综合多种策略提取博文概要,配合图片,自动推荐给首页。4、设计图片自动筛选器,压缩裁剪出重点突出、图像清晰的高质量图片;附图说明图1为本专利技术提供的一种微博首页数据自动推荐方法流程图。图2为本专利技术提供的本专利技术单条数据操作流程图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步的详细说明。(
技术实现思路
尽量多补充详细些,技术手段,技术方案,流程,达到公开充分)本专利技术的结构图如图1所示,主要分三大模块。第一个模块,从海量微博中筛选出前几名,得到最新最热的微博榜(TopN);第二个模块,提取微博主题句,根据图片大小提取相应长度的博文主题句(因为主题句是镶嵌在图片里显示,所以图片的大小决定了主题句的长短);第三个模块,图片自动筛选器,选出与目标图片尺寸最接近的图片进行自动裁剪。单条数据操作流程图如图2所示。实施步骤如下:配置模板:zdpCfg---下载器初始化文件的路径Haarcascades---图片自动裁剪类初始化文件路径IntervalSec---系统轮番推荐间隔时间DisRptH---不重复数据的时间窗urlbak---url的索引文件tweetbak---博文的索引文件DBLoop---数据量的外径DBCount---数据量的颗粒度OutPath---生成首页静态页的存放路径PicType---图片种类个数Widthi---某种图片i的宽度(i表示某类图片编号,从1开始,依次累加,最大值为图片种类个数,下同)Heighti---图片i的高度wordi---主题i的长度maxNumi---图片i的最大个数模块一:计算最新最热的微博榜。根据配置模板,按照数据量的颗粒度和外径,从数据库中读取每个频道带图片的微博数据,得到每个频道的数据集。每篇微博由一个节点存储,节点内容包括博文、图片、博文发布时间、博文转发数等。依据微博发布时间和转发数,对数据集进行倒排序,取最新最热的前N名,得到各个频道的微博榜TopN。模块二:从微博榜中依次循环,取出节点中的博文,提取博文的主题句。根据重要性选主题句。具体步骤如下:1、对博文进行预处理,处理的具体内容如下:(1)对一些html标签转码,如“&lt”等;(2)去噪声,如“@李小明”、表情、多空格等;(3)双字节标点符号转成单字节标点符号,句号例外;2、切句,根据不同频道的博文特征,对句子排序,选取排序第一的句子,记为s;3、计算句子长度,记为len,若len>wordi本文档来自技高网
...
微博首页数据自动推荐方法

【技术保护点】
一种微博首页数据自动推荐方法,其特征在于,所述方法包括(1)从海量微博中筛选出微博榜;(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪。

【技术特征摘要】
1.一种微博首页数据自动推荐方法,其特征在于,所述方法包括(1)从海量微博中筛选出微博榜;(2)提取微博主题句,根据图片大小提取相应长度的博文主题句;(3)对选出的与目标图片尺寸最接近的图片进行自动裁剪;所述步骤(2)包括:(2.1)对博文进行预处理;(2.2)切句,根据不同频道的博文特征,对句子排序,选取排序第一的句子,记为s;(2.3)计算句子长度,记为len,len>wordi,则对s截句,得到主题句;wordi为主题i的长度;(2.4)判断主题句是否有意义;(2.5)选取下一个节点,重复步骤(2.1)-(2.4);(2.6)结束。2.如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(1)包括根据配置模板,按照数据量的颗粒度和外径,从数据库中读取每个频道带图片的微博数据,得到每个频道的数据集;依据微博发布时间和转发数,对数据集进行倒排序,取最新最热的前N名,得到各个频道的微博榜TopN。3.如权利要求2所述的一种微博首页数据自动推荐方法,其特征在于,每篇微博包括一个节点存储,其节点内容包括博文、图片、博文发布时间和博文转发数。4.如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(2)包括从微博榜中依次循环,取出节点中的博文,提取博文的主题句。5.如权利要求1所述的一种微博首页数据自动推荐方法,其特征在于,所述步骤(2.3)包括根据标点符号的断句进行截取,标点符号的优先等级为...

【专利技术属性】
技术研发人员:尹柳
申请(专利权)人:北京中搜网络技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1