【技术实现步骤摘要】
本专利技术涉及计算机应用
,尤其涉及一种新闻视频的搜索方法和装置。
技术介绍
为了支持三网融合业务演进,需要研究如何基于资源有限的终端设备,支持开展 更多的电视业务,尤其是目前电视业务中比较吸引观众的新闻业务。如何使电视观众可以 随时收看电视新闻,享受电视新闻的个性化与专题化的服务,成为了三网融合背景下值得 关注的问题。现有技术中的一种网页主题识别和网页信息抽取的方法主要包括在网页主题分 析的基础上,把网站的所有网页合并为一个虚拟网页,采用词频特征向量进行网站分类。采 用向量空间模型,利用向量间的距离进行网站主题分析,采用主题频次向量来描述网站的 主题特征,根据网站中所包含每个主题的网页数来相应确定向量元素的权值。此外,网站的 内部链接结构常常被视为一种层次性的树或图结构。例如根据站点的物理与逻辑链接结 构来合并网页主题,从而确定网站主题。然后,利用人工构建的信息抽取系统、有监督的信息抽取系统、半监督的信息抽取 系统和无监督的信息抽取系统进行网页信息抽取。在实现本专利技术过程中,专利技术人发现上述现有技术中的网页主题识别和网页信息抽 取的方法至少存在如下问题需要对网站的整体链接结构进行复杂的统计和分析,面对快 速增长的网络规模,适用性有待提高。无法快速、准确地识别出新闻视频网站,也无法自动、 及时地发现和集成新闻视频。
技术实现思路
本专利技术的实施例提供了一种新闻视频的搜索方法和装置,以实现自动、准确和及 时地发现和集成新闻视频。一种新闻视频的搜索方法,包括基于语义关联信息构建搜索新闻视频网站的本体知识,利用所述本体知识从互联 网中搜索出新闻视频网 ...
【技术保护点】
一种新闻视频的搜索方法,其特征在于,包括:基于语义关联信息构建搜索新闻视频网站的本体知识,利用所述本体知识从互联网中搜索出新闻视频网站;对所述新闻视频网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间隔;利用所述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的内容,获取所述内容中的新闻视频。
【技术特征摘要】
一种新闻视频的搜索方法,其特征在于,包括基于语义关联信息构建搜索新闻视频网站的本体知识,利用所述本体知识从互联网中搜索出新闻视频网站;对所述新闻视频网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间隔;利用所述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的内容,获取所述内容中的新闻视频。2.根据权利要求1所述的新闻视频的搜索方法,其特征在于,所述的语义关联信息包 括搜索引擎本身提供的搜索关键词、已搜索发现的新闻视频网站的内容关键词、已搜索发 现的新闻视频网站的内容组织结构关键词和已搜索发现的新闻视频网站的内容描述关键 词。3.根据权利要求2所述的新闻视频的搜索方法,其特征在于,所述的利用所述本体知 识从互联网中搜索出新闻视频网站,包括针对所述本体知识中的每一个关键词,利用元搜索技术构造对互联网中的搜索引擎的 搜索请求,抽取设定数量的所述搜索引擎返回的搜索结果,提取出所述搜索结果中包括的 统一资源定位符URL ;通过网站主题识别方法识别出所述URL中包括的新闻视频网站的URL,将识别出的新 闻视频网站存储在预先建立的新闻视频网站数据库。4.根据权利要求3所述的新闻视频的搜索方法,其特征在于,所述的通过网站主题识 别方法识别出所述URL中包括的新闻视频网站的URL,包括利用所述搜索结果中包括的URL的模式信息识别出所述URL是网站URL还是网页URL ;对于识别出的每个网站URL,抓取网站第一层内的所有网页,利用播放页识别技术计 算所述所有网页中的视频播放页的比例,如果该比例小于预先设定的视频播放页阈值,则 认为所述网站URL是与新闻视频网站主题无关,将所述网站URL排除;否则,认为所述网站 URL是与新闻视频网站主题相关的;利用所述与新闻视频网站主题相关的网站中的视频播放页对应的链接文字对预先建 立的新闻视频数据库执行模糊查询,统计出总的相似结果数。计算平均每条链接文字对应 的相似结果数,如果该相似结果数小于预先设定的相似结果数阈值,则认为所述网站与新 闻视频网站主题无关;否则,识别出所述网站是新闻视频网站。5.根据权利要求1所述的新闻视频的搜索方法,其特征在于,所述的对所述新闻视频 网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间 隔,包括从所述种子网站里获得一定数量的当天的新闻视频,根据所述当天的新闻视频对新闻 视频数据库执行模糊查询,统计新闻视频数据库中的每个新闻视频网站中包含的和所述当 天的新闻视频相似的新闻视频数量,将该新闻视频数量作为新闻视频网站的及时性的评价 结果存入新闻视频网站数据库中;根据所述包含的和所述当天的新闻视频相似的新闻视频数量设置每个新闻视频网站 的抓起时间间隔,包含的和所述当天的新闻视频相似的新闻视频数量多的网站对应的抓起 时间间隔短。6.根据权利要求1至5任一项所述的新闻视频的搜索方法,其特征在于,所述的利用所 述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的新 闻视频,包括当新闻视...
【专利技术属性】
技术研发人员:朱明,尹文科,崔昊旻,李自勉,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:34[中国|安徽]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。