新闻视频的搜索方法和装置制造方法及图纸

技术编号:4095888 阅读:362 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例提供了一种新闻视频的搜索方法及装置。该方法主要包括:基于语义关联信息构建搜索新闻视频网站的本体知识,利用所述本体知识从互联网中搜索出新闻视频网站;对所述新闻视频网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间隔;利用所述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的内容,获取所述内容中的新闻视频。利用本发明专利技术,有效地解决了互联网新闻视频自动、准确、及时的搜索与集成的问题,可以快速、准确地识别出新闻视频网站,可以自动、及时地发现和集成新闻视频。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,尤其涉及一种新闻视频的搜索方法和装置
技术介绍
为了支持三网融合业务演进,需要研究如何基于资源有限的终端设备,支持开展 更多的电视业务,尤其是目前电视业务中比较吸引观众的新闻业务。如何使电视观众可以 随时收看电视新闻,享受电视新闻的个性化与专题化的服务,成为了三网融合背景下值得 关注的问题。现有技术中的一种网页主题识别和网页信息抽取的方法主要包括在网页主题分 析的基础上,把网站的所有网页合并为一个虚拟网页,采用词频特征向量进行网站分类。采 用向量空间模型,利用向量间的距离进行网站主题分析,采用主题频次向量来描述网站的 主题特征,根据网站中所包含每个主题的网页数来相应确定向量元素的权值。此外,网站的 内部链接结构常常被视为一种层次性的树或图结构。例如根据站点的物理与逻辑链接结 构来合并网页主题,从而确定网站主题。然后,利用人工构建的信息抽取系统、有监督的信息抽取系统、半监督的信息抽取 系统和无监督的信息抽取系统进行网页信息抽取。在实现本专利技术过程中,专利技术人发现上述现有技术中的网页主题识别和网页信息抽 取的方法至少存在如下问题需要对网站的整体链接结构进行复杂的统计和分析,面对快 速增长的网络规模,适用性有待提高。无法快速、准确地识别出新闻视频网站,也无法自动、 及时地发现和集成新闻视频。
技术实现思路
本专利技术的实施例提供了一种新闻视频的搜索方法和装置,以实现自动、准确和及 时地发现和集成新闻视频。一种新闻视频的搜索方法,包括基于语义关联信息构建搜索新闻视频网站的本体知识,利用所述本体知识从互联 网中搜索出新闻视频网站;对所述新闻视频网站进行及时性的评价,利用所述及时性的评估结果设定所述新 闻视频网站的抓起时间间隔;利用所述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻 视频网站中的内容,获取所述内容中的新闻视频。一种新闻视频的搜索装置,包括新闻视频网站搜索模块,用于基于语义关联信息构建搜索新闻视频网站的本体知 识,利用所述本体知识从互联网中搜索出新闻视频网站;抓起时间间隔设定模块,用于对所述新闻视频网站搜索模块所搜索出来的新闻视 频网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间隔;新闻视频获取模块,用于利用所述抓起时间间隔设定模块所设定的新闻视频网站 的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的内容,获取所述内 容中的新闻视频。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例有效地解决了互 联网新闻视频自动、准确、及时的搜索与集成的问题,可以快速、准确地识别出新闻视频网 站,可以自动、及时地发现和集成新闻视频。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。图1为本专利技术实施例一提供的一种新闻视频的搜索方法的原理示意图;图2为本专利技术实施例一提供的一种新闻视频的搜索方法的处理流程图;图3为本专利技术实施例一提供的一种本体知识的构建原理示意图;图4为本专利技术实施例一提供的一种网站主题识别方法的处理流程图;图5为本专利技术实施例一提供的一种对本体知识进行新链接产生力、主题相关度评 价的具体处理流程图;图6为本专利技术实施例一提供的一种对新闻视频数据库中存储的新闻视频网站进 行及时性评价的处理流程图;图7为本专利技术实施例一提供的一种对新闻视频数据库中存储的新闻视频网站进 行新颖性评价的处理流程图;图8为本专利技术实施例一提供的一种对新闻视频数据库中存储的新闻视频网站进 行原创性评价的处理流程图;图9为本专利技术实施例一提供的一种基于内容的重复检测技术的处理流程图;图10为本专利技术实施例一提供的一种实时抓起新闻视频数据库中存储的新闻视频 网站的内容的处理流程图;图11为本专利技术实施例二提供的一种新闻视频的搜索装置的结构示意图。 具体实施例方式在本专利技术实施例中,基于语义关联信息构建搜索新闻视频网站的本体知识,利用 所述本体知识从互联网中搜索出新闻视频网站。对所述新闻视频网站进行及时性的评价, 利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间隔。然后,利用所述新闻 视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的内容,获 取所述内容中的新闻视频。为便于对本专利技术实施例的理解,下面将结合附图以几个具体实施例为例做进一步 的解释说明,且各个实施例并不构成对本专利技术实施例的限定。实施例一该实施例提供的一种新闻视频的搜索方法的原理示意图如图1所示,该新闻视频 的搜索方法的具体处理流程如图2所示,包括如下的处理步骤步骤21、基于语义关联信息构建搜索新闻视频网站的本体知识,利用上述本体知 识、元搜索技术和网站主题识别方法从互联网中搜索出新闻视频网站,并将新闻视频网站 存储在新闻视频网站数据库中。首先,利用少量种子网站的新闻视频数据预先建立新闻视频数据库,该新闻视频 数据库中存储各个新闻视频和各个新闻视频的描述信息。上述种子网站包括“新华网新 闻”、“腾迅网新闻”等网站。在本专利技术实施例中,还要预先建立新闻视频网站数据库,该新闻视频网站数据库 中存储各个新闻视频网站,以及各个新闻视频网站的评价信息、抓起时间间隔等信息。基于语义关联信息构建搜索新闻视频网站的本体知识。该本体知识的构建原理示 意图如图3所示。上述语义关联信息主要包括搜索引擎本身提供的搜索关键词、已搜索发 现的新闻视频网站的内容关键词、已搜索发现的新闻视频网站的内容组织结构关键词,以 及已搜索发现的新闻视频网站的内容描述关键词。上述新闻视频网站的内容关键词包括 新闻视频网站的内容的标题中的关键词,上述新闻视频网站的内容描述关键词包括热点 视频标题。因此,上述本体知识中主要包括四种关键词,即搜索关键词、内容关键词、内容组 织结构关键词和内容描述关键词。针对上述本体知识中每一个关键词,利用元搜索技术构造对互联网中的搜索引 擎的搜索请求,抽取设定数量的上述搜索引擎返回的搜索结果,提取出返回结果中包括的 URL (Universal Resource Locator,统一资源定位符)。通过网站主题识别方法识别出上述 URL中包括的新闻视频网站的URL。该实施例提供的一种上述网站主题识别方法的处理流程如图4所述,具体处理过 程主要包括首先利用上述返回结果中包括的URL的模式信息,如URL的长度、深度和格式等信 息,使用决策树或者规则集等技术识别出上述URL是网站URL还是网页URL。对于识别出的每个网站URL,抓取网站第一层内的所有网页,利用播放页识别技术 计算上述所有网页中的视频播放页的比例,如果该比例小于预先设定的视频播放页阈值, 则认为该网站URL是与新闻视频网站主题无关,将该网站URL排除;否则,认为上述网站 URL是与新闻视频网站主题相关的。利用上述与新闻视频网站主题相关的网站中的视频播放页对应的链接文字(锚 文字)对预先建立的新闻视频数据库执行模糊查询,统计出总的相似结果数。计算平均每 条链接文字对应的相似结果数,如果该相似结果数小于预先设定的相似结果数阈值,则本文档来自技高网...

【技术保护点】
一种新闻视频的搜索方法,其特征在于,包括:基于语义关联信息构建搜索新闻视频网站的本体知识,利用所述本体知识从互联网中搜索出新闻视频网站;对所述新闻视频网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间隔;利用所述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的内容,获取所述内容中的新闻视频。

【技术特征摘要】
一种新闻视频的搜索方法,其特征在于,包括基于语义关联信息构建搜索新闻视频网站的本体知识,利用所述本体知识从互联网中搜索出新闻视频网站;对所述新闻视频网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间隔;利用所述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的内容,获取所述内容中的新闻视频。2.根据权利要求1所述的新闻视频的搜索方法,其特征在于,所述的语义关联信息包 括搜索引擎本身提供的搜索关键词、已搜索发现的新闻视频网站的内容关键词、已搜索发 现的新闻视频网站的内容组织结构关键词和已搜索发现的新闻视频网站的内容描述关键 词。3.根据权利要求2所述的新闻视频的搜索方法,其特征在于,所述的利用所述本体知 识从互联网中搜索出新闻视频网站,包括针对所述本体知识中的每一个关键词,利用元搜索技术构造对互联网中的搜索引擎的 搜索请求,抽取设定数量的所述搜索引擎返回的搜索结果,提取出所述搜索结果中包括的 统一资源定位符URL ;通过网站主题识别方法识别出所述URL中包括的新闻视频网站的URL,将识别出的新 闻视频网站存储在预先建立的新闻视频网站数据库。4.根据权利要求3所述的新闻视频的搜索方法,其特征在于,所述的通过网站主题识 别方法识别出所述URL中包括的新闻视频网站的URL,包括利用所述搜索结果中包括的URL的模式信息识别出所述URL是网站URL还是网页URL ;对于识别出的每个网站URL,抓取网站第一层内的所有网页,利用播放页识别技术计 算所述所有网页中的视频播放页的比例,如果该比例小于预先设定的视频播放页阈值,则 认为所述网站URL是与新闻视频网站主题无关,将所述网站URL排除;否则,认为所述网站 URL是与新闻视频网站主题相关的;利用所述与新闻视频网站主题相关的网站中的视频播放页对应的链接文字对预先建 立的新闻视频数据库执行模糊查询,统计出总的相似结果数。计算平均每条链接文字对应 的相似结果数,如果该相似结果数小于预先设定的相似结果数阈值,则认为所述网站与新 闻视频网站主题无关;否则,识别出所述网站是新闻视频网站。5.根据权利要求1所述的新闻视频的搜索方法,其特征在于,所述的对所述新闻视频 网站进行及时性的评价,利用所述及时性的评估结果设定所述新闻视频网站的抓起时间间 隔,包括从所述种子网站里获得一定数量的当天的新闻视频,根据所述当天的新闻视频对新闻 视频数据库执行模糊查询,统计新闻视频数据库中的每个新闻视频网站中包含的和所述当 天的新闻视频相似的新闻视频数量,将该新闻视频数量作为新闻视频网站的及时性的评价 结果存入新闻视频网站数据库中;根据所述包含的和所述当天的新闻视频相似的新闻视频数量设置每个新闻视频网站 的抓起时间间隔,包含的和所述当天的新闻视频相似的新闻视频数量多的网站对应的抓起 时间间隔短。6.根据权利要求1至5任一项所述的新闻视频的搜索方法,其特征在于,所述的利用所 述新闻视频网站的抓起时间间隔,通过设定的搜索方法实时抓起所述新闻视频网站中的新 闻视频,包括当新闻视...

【专利技术属性】
技术研发人员:朱明尹文科崔昊旻李自勉
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1