一种基于词频、播放量和创建时间检索信息的方法及系统技术方案

技术编号:7786563 阅读:165 留言:0更新日期:2012-09-21 07:40
本发明专利技术提供了一种基于词频、播放量和创建时间检索信息的方法及系统,该方法包括如下步骤:计算词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值,并依据以上权重值计算最终的权重,并依据该最终权重对该关键词后的网络视频文档进行排序;按照顺序显示与网络视频文档对应的网络视频信息。本发明专利技术所述的方法及系统使得播放量较大时间上较新的数据能够排在前面,这样进行检索时能够提供出播放多时间新的网络视频。

【技术实现步骤摘要】

本专利技术属于互联网数据统计处理
,尤其涉及ー种在建立索引过程中根据网络视频中文字信息中词频、网络视频总数、所有网络视频创建时间对网络视频进行排序的方法及系统。
技术介绍
网络视频已经成为互联网上重要的应用部分,而且,针对网络视频搜索则是当前垂直捜索的ー个重要方向。目前,现有的网络视频检索主要是根据网络视频文字信息的检索系统。而在所述的网络视频文字信息检索系统及领域方面,TF-IDF(termfrequency-inverse document frequency,即词频-逆向文件频率)加权是最常用的方 法,该方法是ー种用于信息检索与信息探勘的常用加权技术方法。进ー步地,TF-IDF作为一种加权方法,主要是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比増加,但同时会随着它在语料库中出现的频率成反比下降。目前,TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。但在网络视频检索领域,由于文字信息有限(仅包括网络视频标题、作者以及关键词等字词信息),在大多数网络视频文字信息中,每个词仅仅出现一次,词本身的频率都是1,字词的重要性并不能由它在文件中出现的次数反映出来。这就造成了一种情况一旦使用标准的TF-IDF加权作为网络视频检索的标准,在做排序时,文本的输入顺序会起到决定性作用,而单纯的输入顺序肯定无法真实反映网络视频的重要程度。因此,在使用TF-IDF加权进行排序就会与信息输入先后顺序保持惊人的一致,TF-IDF无法单独作为有效的权重进行排序。在基于前述问题之下,本专利技术介绍的方法是在TF-IDF加权的基础上引入了网络视频的播放量和上传时间权重。网络视频播放量的大小能够直接反映大家对这个网络视频的关注度。同时我们做出另ー个假设即随着时间的发展,网络视频的重要程度在降低。那么通过对网络视频播放量的统计、计算,同时利用时间就构成了这种对网络视频进行排序检索的方法。基于这种方法构建网络视频信息检索系统能够避免TF-IDF加权的缺点,将用户观看多的网络视频推荐给用户。基于此方法,本专利技术构建了一种网络视频信息检索系统。即综合网络视频播放量、网络视频创建时间和TF-IDF加权值来评价网络视频的重要程度。
技术实现思路
鉴于现有技术中存在的问题,本专利技术的目的在于提供ー种不仅仅依赖于TF-ID(term frequency-inverse document frequency,即词频-逆向文件频率)方法,同时具有网络视频自身特点的排序检索方法。为了达到上述目的,本专利技术提供了ー种基于词频、播放量和创建时间检索信息的方法及系统。根据本专利技术提供的ー种基于词频、播放量和创建时间检索信息的方法,该方法包括如下步骤步骤(I)用户输入关键词后触发检索;步骤(2)根据网络视频文字信息,统计该关键词的词频与包含这个关键词的网络视频数、网络视频总数,计算词频-逆向文件频率权重值;步骤(3)根据网络视频的播放量,及该网络视频所属网络视频分类中所含的网络视频个数、该网络视频分类的所有播放量、所有网络视频的播放量的总和计算网络视频播放量权重值;步骤(4)根据网络视频信息中包含的创建时间计算创建时间权重值;步骤(5)当进行倒排预排时,根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值计算最終的权重并依据该最终权重对该关键词后的网络视频文档进行排序;步骤(6)按照顺序显示与网络视频文档对应的网络视频信息。更进一歩的,本方法中的步骤(2)包括以下步骤计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词频、播放量和创建时间检索信息的方法,其特征在于包括如下步骤 步骤(I)用户输入关键词后触发检索; 步骤(2)根据网络视频文字信息,统计该关键词的词频与包含这个关键词的网络视频数、网络视频总数,计算词频-逆向文件频率权重值; 步骤(3)根据网络视频的播放量,及该网络视频所属网络视频分类中所含的网络视频个数、该网络视频分类的所有播放量、所有网络视频的播放量的总和计算网络视频播放量权重值; 步骤(4)根据网络视频信息中包含的创建时间计算创建时间权重值; 步骤(5)当进行倒排预排时,根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值计算最终的权重并依据该最终权重对该关键词后的网络视频文档进行排序; 步骤(6)按照顺序显示与网络视频文档对应的网络视频信息。2.根据权利要求I所述的方法,其特征在于 步骤⑵包括以下步骤 计算3.根据权利要求I所述的方法,其特征在于 步骤⑶包括以下步骤 进行以下计算4.根据权利要求I所述的方法,其特征在于 步骤⑷包括以下步骤 使用函数5.根据权利要求I所述的方法,其特征在于 步骤(5)中所述根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值对某关键词后的网络视频文档进行排序是指根据下式来进行计算最终的权重fPower (tj, vk) = tf idfik*Power (Hit (vk),vk e (CjI) *TPower (v)。6.一种基于词频、播放量和创建时间检索信息的系统,其特征在于该系统包括 网络视频信息数据库,保存有网络视频信息; 网络视频信息读取单元,该单元从网络视频信息数据库中读取数据,获取网络视频文字信息、创...

【专利技术属性】
技术研发人员:齐志兵刘伟郑海龙李力行卞琪姚健潘柏宇卢述奇
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1