内容采集方法和装置制造方法及图纸

技术编号:14875744 阅读:65 留言:0更新日期:2017-03-23 23:19
本发明专利技术涉及一种内容采集方法和装置。其中,该方法包括:从各内容源采集各热点词;根据所采集的各热点词构建热点池;从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。本发明专利技术实施例,通过采集热点词构建热点池,再根据热点池中的热点自动采集热点资源,能够全面覆盖用户的关注热点,与人工采集相比,可以实时追踪最新最热的资源,采集效率高。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种内容采集方法和装置
技术介绍
对于视频等多媒体资源,现有的内容采集方法有多种。例如:编辑人工采集视频内容;人工整理视频源列表,机器采集最热门视频;采集视频分享网站的视频。其中,编辑人工采集的效率低,无法及时追踪最新最热的视频。人工整理的视频源有限,且跟踪不及时,对用户关注热点覆盖不全面。来自社交网站等视频分享网站的热门视频无法反应用户主动搜索的话题。并且,无法覆盖长尾话题的视频。
技术实现思路
技术问题有鉴于此,本专利技术要解决的技术问题是,提供一种采集效率高、覆盖热点多的内容采集方法和装置。解决方案为了解决上述技术问题,根据本专利技术的一实施例,提供了一种内容采集方法,包括:从各内容源采集各热点词;根据所采集的各热点词构建热点池;从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。对于上述方法,在一种可能的实现方式中,从各内容源采集各热点词,包括:从搜索引擎、社交媒体和资源网站中的至少一种内容源,获取各热门搜索词及其对应的搜索排名和获取时间;根据各热门搜索词对应的搜索排名和获取时间,从各热门搜索词中选取用于构建所述热点池的各热点词。对于上述方法,在一种可能的实现方式中,根据所采集的各热点词构建热点池,包括:在各所述内容源获取各热点词对应的各搜索结果;采用网页正文抽取方法,从各所述搜索结果中抽取正文,并从所抽取的正文中提取各关键词;计算各所述关键词对应的指纹;将各所述关键词及其对应的指纹保存在热点池中。对于上述方法,在一种可能的实现方式中,将各所述关键词及其对应的指纹保存在热点池中,包括:若所述热点池中不存在所述关键词对应的指纹,则从所述关键词中提取地域属性;将每个关键词及其对应的指纹和地域属性保存到所述热点池中。对于上述方法,在一种可能的实现方式中,从所抽取的正文中提取各关键词,包括:按照式1计算对所抽取的正文进行去重后的各个词的权重,wi=tfi*idfi式1,式1中的wi表示第i个词的权重,tfi是第i个词在所抽取的正文的所有词中的词频,idfi是第i个词的IDF值;计算所抽取的正文的所有词的平均权重及权重的标准差;从所抽取的正文的所有词中提取权重超过平均值的词作为关键词。对于上述方法,在一种可能的实现方式中,从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源,包括:从所述热点池中读取所述待处理热点所包括的各关键词以及各关键词对应的指纹和地域属性;采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源;保存所述待处理热点所包括的各关键词以及各关键词对应的指纹、地域属性和热点资源。对于上述方法,在一种可能的实现方式中,采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源,包括:各所述内容源发送抓取命令,所述抓取命令中包括所述待处理热点的关键词;从各所述内容源获取与所述关键词相关的资源链接和标题;过滤掉已经处理过的资源链接;从所述标题中提取标题关键词;计算所述待处理热点的关键词与所提取的标题关键词的相似度和/或所述标题的指纹;根据所述相似度和/或所述标题的指纹从资源链接中获取热点资源。对于上述方法,在一种可能的实现方式中,还包括:对各所述热点资源进行后期处理,所述后期处理包括压缩和/或标题美化。对于上述方法,在一种可能的实现方式中,还包括:在交互界面检测用户操作,所述用户操作包括对所述热点资源进行删除、增加和修改中的至少一项处理;根据所述用户操作,对各所述热点资源进行相应处理。为了解决上述技术问题,根据本专利技术的另一实施例,提供了一种内容采集装置,包括:热点词采集模块,用于从各内容源采集各热点词;构建模块,用于根据所采集的各热点词构建热点池;资源采集模块,用于从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。对于上述装置,在一种可能的实现方式中,所述热点词采集模块包括:第一获取子模块,用于从搜索引擎、社交媒体和资源网站中的至少一种内容源,获取各热门搜索词及其对应的搜索排名和获取时间;第一选取子模块,用于根据各热门搜索词对应的搜索排名和获取时间,从各热门搜索词中选取用于构建所述热点池的各热点词。对于上述装置,在一种可能的实现方式中,所述构建模块包括:搜索结果子模块,用于在各所述内容源获取各热点词对应的各搜索结果;关键词提取子模块,用于采用网页正文抽取方法,从各所述搜索结果中抽取正文,并从所抽取的正文中提取各关键词;指纹计算子模块,用于计算各所述关键词对应的指纹;第一保存子模块,用于将各所述关键词及其对应的指纹保存在热点池中。对于上述装置,在一种可能的实现方式中,所述第一保存子模块还用于若所述热点池中不存在所述关键词对应的指纹,则从所述关键词中提取地域属性;将每个关键词及其对应的指纹和地域属性保存到所述热点池中。对于上述装置,在一种可能的实现方式中,所述关键词提取子模块还用于:按照式1计算对所抽取的正文进行去重后的各个词的权重,wi=tfi*idfi式1,式1中的wi表示第i个词的权重,tfi是第i个词在所抽取的正文的所有词中的词频,idfi是第i个词的IDF值;计算所抽取的正文的所有词的平均权重及权重的标准差;从所抽取的正文的所有词中提取权重超过平均值的词作为关键词。对于上述装置,在一种可能的实现方式中,所述资源采集模块包括:读取子模块,用于从所述热点池中读取所述待处理热点所包括的各关键词以及各关键词对应的指纹和地域属性;抓取子模块,用于采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源;第三保存子模块,用于保存所述待处理热点所包括的各关键词以及各关键词对应的指纹、地域属性和热点资源。对于上述装置,在一种可能的实现方式中,所述抓取子模块还用于各所述内容源发送抓取命令,所述抓取命令中包括所述待处理热点的关键词;从各所述内容源获取与所述关键词相关的资源链接和标题;过滤掉已经处理过的资源链接;从所述标题中提取标题关键词;计算所述待处理热点的关键词与所提取的标题关键词的相似度和/或所述标题的指纹;根据所述相似度和/或所述标题的指纹从资源链接中获取热点资源。对于上述装置,在一种可能的实现方式中,还包括:后期处理模块,用于对各所述热点资源进行后期处理,所述后期处理包括压缩和/或标题美化。对于上述装置,在一种可能的实现方式中,还包括:用户处理模块,用于在交互界面检测用户操作,所述用户操作包括对所述热点资源进行删除、增加和修改中的至少一项处理;根据所述用户操作,对各所述热点资源进行相应处理。有益效果本专利技术实施例,通过采集热点词构建热点池,再根据热点池中的热点自动采集热点资源,能够全面覆盖用户的关注热点,与人工采集相比,可以实时追踪最新最热的资源,采集效率高。进一步地,可以对用户的社交分享的资源形成差异补充。进一步地,通过采集各关键词地域属性,有利于发现各个地域的热点资源,形成长尾效应。根据下面参考附图对示例性实施例的详细说明,本专利技术的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本专利技术的示例性实施例、特征和方面,并且用于解释本专利技术的原理。图1示出根据本专利技术一实施例的内容采集本文档来自技高网...
内容采集方法和装置

【技术保护点】
一种内容采集方法,其特征在于,包括:从各内容源采集各热点词;根据所采集的各热点词构建热点池;从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。

【技术特征摘要】
1.一种内容采集方法,其特征在于,包括:从各内容源采集各热点词;根据所采集的各热点词构建热点池;从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。2.根据权利要求1所述的方法,其特征在于,从各内容源采集各热点词,包括:从搜索引擎、社交媒体和资源网站中的至少一种内容源,获取各热门搜索词及其对应的搜索排名和获取时间;根据各热门搜索词对应的搜索排名和获取时间,从各热门搜索词中选取用于构建所述热点池的各热点词。3.根据权利要求1或2所述的方法,其特征在于,根据所采集的各热点词构建热点池,包括:在各所述内容源获取各热点词对应的各搜索结果;采用网页正文抽取方法,从各所述搜索结果中抽取正文,并从所抽取的正文中提取各关键词;计算各所述关键词对应的指纹;将各所述关键词及其对应的指纹保存在热点池中。4.根据权利要求3所述的方法,其特征在于,将各所述关键词及其对应的指纹保存在热点池中,包括:若所述热点池中不存在所述关键词对应的指纹,则从所述关键词中提取地域属性;将每个关键词及其对应的指纹和地域属性保存到所述热点池中。5.根据权利要求3所述的方法,其特征在于,从所抽取的正文中提取各关键词,包括:按照式1计算对所抽取的正文进行去重后的各个词的权重,wi=tfi*idfi式1,式1中的wi表示第i个词的权重,tfi是第i个词在所抽取的正文的所有词中的词频,idfi是第i个词的IDF值;计算所抽取的正文的所有词的平均权重及权重的标准差;从所抽取的正文的所有词中提取权重超过平均值的词作为关键词。6.根据权利要求1至5中任一项所述的方法,其特征在于,从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源,包括:从所述热点池中读取所述待处理热点所包括的各关键词以及各关键词对应的指纹和地域属性;采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源;保存所述待处理热点所包括的各关键词以及各关键词对应的指纹、地域属性和热点资源。7.根据权利要求6所述的方法,其特征在于,采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源,包括:各所述内容源发送抓取命令,所述抓取命令中包括所述待处理热点的关键词;从各所述内容源获取与所述关键词相关的资源链接和标题;过滤掉已经处理过的资源链接;从所述标题中提取标题关键词;计算所述待处理热点的关键词与所提取的标题关键词的相似度和/或所述标题的指纹;根据所述相似度和/或所述标题的指纹从资源链接中获取热点资源。8.根据权利要求1至7中任一项所述的方法,其特征在于,还包括:对各所述热点资源进行后期处理,所述后期处理包括压缩和/或标题美化。9.根据权利要求1至8中任一项所述的方法,其特征在于,还包括:在交互界面检测用户操作,所述用户操作包括对所述热点资源进行删除、增加和修改中的至少一项处理;根据所述用户操作,对各所述热点资源进行相应处理。10.一种内容采集装置,其特征在于,包括:热点词采集模块,用...

【专利技术属性】
技术研发人员:吴迎宾林紫妍杜战单明辉王高林王建宇顾思斌潘柏宇王冀
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1