【技术实现步骤摘要】
本专利技术属于互联网数据统计处理
,尤其涉及ー种在建立索引过程中根据网络视频中文字信息中词频、网络视频总数、所有网络视频创建时间对网络视频进行排序的方法及系统。
技术介绍
网络视频已经成为互联网上重要的应用部分,而且,针对网络视频搜索则是当前垂直捜索的ー个重要方向。目前,现有的网络视频检索主要是根据网络视频文字信息的检索系统。而在所述的网络视频文字信息检索系统及领域方面,TF-IDF(termfrequency-inverse document frequency,即词频-逆向文件频率)加权是最常用的方 法,该方法是ー种用于信息检索与信息探勘的常用加权技术方法。进ー步地,TF-IDF作为一种加权方法,主要是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比増加,但同时会随着它在语料库中出现的频率成反比下降。目前,TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。但在网络视频检索领域,由于文字信息有限(仅包括网络视频标题、作者以及关键词等字词信息),在大多数网络视频文字信息中,每个词仅仅出现一次,词本身的频率都是1,字词的重要性并不能由它在文件中出现的次数反映出来。这就造成了一种情况一旦使用标准的TF-IDF加权作为网络视频检索的标准,在做排序时,文本的输入顺序会起到决定性作用,而单纯的输入顺序肯定无法真实反映网络视频的重要程度。因此,在使用TF-IDF加权进行排序就会与信息输入先后顺序保持惊人的一致,TF-IDF无法单独作为有效的权重进行排序。在基于前 ...
【技术保护点】
【技术特征摘要】
1.一种基于词频、播放量和创建时间检索信息的方法,其特征在于包括如下步骤 步骤(I)用户输入关键词后触发检索; 步骤(2)根据网络视频文字信息,统计该关键词的词频与包含这个关键词的网络视频数、网络视频总数,计算词频-逆向文件频率权重值; 步骤(3)根据网络视频的播放量,及该网络视频所属网络视频分类中所含的网络视频个数、该网络视频分类的所有播放量、所有网络视频的播放量的总和计算网络视频播放量权重值; 步骤(4)根据网络视频信息中包含的创建时间计算创建时间权重值; 步骤(5)当进行倒排预排时,根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值计算最终的权重并依据该最终权重对该关键词后的网络视频文档进行排序; 步骤(6)按照顺序显示与网络视频文档对应的网络视频信息。2.根据权利要求I所述的方法,其特征在于 步骤⑵包括以下步骤 计算3.根据权利要求I所述的方法,其特征在于 步骤⑶包括以下步骤 进行以下计算4.根据权利要求I所述的方法,其特征在于 步骤⑷包括以下步骤 使用函数5.根据权利要求I所述的方法,其特征在于 步骤(5)中所述根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值对某关键词后的网络视频文档进行排序是指根据下式来进行计算最终的权重fPower (tj, vk) = tf idfik*Power (Hit (vk),vk e (CjI) *TPower (v)。6.一种基于词频、播放量和创建时间检索信息的系统,其特征在于该系统包括 网络视频信息数据库,保存有网络视频信息; 网络视频信息读取单元,该单元从网络视频信息数据库中读取数据,获取网络视频文字信息、创...
【专利技术属性】
技术研发人员:齐志兵,刘伟,郑海龙,李力行,卞琪,姚健,潘柏宇,卢述奇,
申请(专利权)人:合一网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。