相关内容检索中的时间相似度阈值的调整制造技术

技术编号:2836809 阅读:345 留言:0更新日期:2012-04-11 18:40
提供了在诸如创建时间或使用时间之类的相关时间相似度基础上检索相似内容项目或文档。以数据库为例,通过提取元数据时间来确定一个或多个被识别的锚点文档的时间。然后,基于一种标准时间距离来确定第一个阈值,该标准时间距离在基准时间或当前时间和锚点项目时间之间确定。一个候选文档项目的时间被识别,且用于候选内容项目的时间元数据也能被提取。基准时间与候选时间的时间距离可以被确定为候选时间距离。基于第一个候选时间距离和第一个阈值,一个候选内容项目可以被选择为相似而供检索之用。提供了设定阈值用的具有时间确定的粒度的形式的标准时间距离的思想。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及到内容检索、管理和呈示领域以及基于使用时间和元数据的内容项目的相似度阈值的确定。近年来,存储设备和数据库的存储能力,包括个人计算机的硬盘及其它类型的存储设备的存储能力,一直在迅速增长。根据某些估计,存储能力大约以每年翻一倍的速度增长,与此同时,网络带宽的增长也非常迅速。结果,存储设备存储了大量的内容,需要向用户提供方便以便对存储设备进行存取。用户会被存储设备、数据库甚至个人硬件设备里的内容所淹没,除非这些内容以某种方式被管理和组织来为用户的存取提供方便,否则用户可能没有能力去检索诸如互联网之类的网络上的可以获得的内容。没有采用对用户透明的方式索引或组织的内容,就用户需要而言可能是“丢失”的,而且不太可能被检索到。目前有很多大家都知道的检索方案。Farnham等人的美国专利申请公开说明书NO.2003/0158855公开了自动内容的关联,其中,相关性在目标和元数据之间动态产生,以便决定各计算机文件之间以数值表示的相似度。Stubler等人的美国专利申请公开说明书NO.2003/022541公开了通过为获得的图像提取元数据来产生基于获得的图像与存储图像之间的相似度的已获得的图像的标题或语义标记。Platt的美国专利申请公开说明书NO.2003/022541公开了一种自动播放列表生成器,其中几首种子歌曲,包括不想要的种子歌曲,被用于生成播放列表中的歌曲。Cluts的美国专利申请公开说明书NO.5616876公开了通过编者预先为每首歌曲编写的类型标记来选择与第一组歌曲类似的外加的歌曲。Gargi的美国专利申请公开说明书NO.2004/5616876公开了文件元数据包括建立时间的自动传播。但是,这些参考文献中没有一个公开以选择或拒绝目标项目的方式对时间相似度的阈值的设定。Prince的美国专利申请公开说明书NO.2002/0099696公开了模糊数据库检索,在其中给相似度一个分数,并且用阈值来选择被检索的项目。但是,无论是Prince还是其它参考文件都没有公开或建议基于一个基准时间来设定阈值,也没有根据基准时间与被识别项目时间之间的距离来设定阈值。用户当然可能检索内容项目,但是试图找到类似的项目是非常费时费力的事情,特别是在不知道所期望项目的内容类型时或用户没有指定所期望项目的内容类型时。进一步地,随着内容项目在存储设备或用户控制的数据库中不断积累,内容项目的检索也会越来越困难。提供了一种实施或执行检索系统的各种功能的方法、系统、设备、装置以及计算机可读的介质。提供了被选的候选内容项目或多个项目。确定了基准时间。举例而言,该基准时间可能是当前时间。通过提取第一个识别的内容项目的时间数据来识别第一个时间。第一个阈值可能根据在基准时间和第一个时间之间确定的标准时间距离而被设定。可以识别候选时间并且提取候选内容项目的时间数据。基准时间和第一候选时间之间的距离可以被确定为候选距离。一个候选内容项目可以基于第一个候选时间距离和第一个阈值而被选择为相似的,以用于数据库组织或检索,并相应地为该选中的候选内容输出一个选择信号。提供了用于设定阈值的具有时间确定的粒度的形式的标准时间距离的思想,根据它来设定阈值,以使得距基准时间较近的时间的距离粒度比距基准时间较远的时间的距离粒度更高。另外,可以设定基于标准时间距离的第二阈值,第一阈值与这个第二阈值组成了一个范围,如果第一候选时间距离在此范围之内,那么候选内容项目就被选中。各第一时间可能包括内容项目获得的时间、内容项目最后使用的时间或者内容项目最常用的时间。这个时间可能是内容项目的基准时间、内容项目最新修正时间、或者内容项目的创建时间。另外一些附加的已识别的内容项目能被识别,时间组和距离能被确定,以使第一阈值也可能基于这些被确定的标准时间距离来设定。附图说明图1是根据本专利技术的一个实施方案的检索系统示意图。图2是根据本专利技术的一个实施方案的系统操作流程图。下述讨论以及上述附图描述了申请人的专利技术的实施方案,该实施方案是专利技术人当前最好的理解,但本专利技术还可能进行很多修改、以其它形式体现或者在不脱离本专利技术思想的情况下以其它形式实现。另外,所描述实施方案中在不脱离本专利技术的精神的情况下某些部件可能被省略、有选择地组合或以整体的形式与其它实施方案结合,或者用来代替其它实施方案的特征或其中的一部分。因此,附图和详尽的说明应理解为举例说明本专利技术的各个方面,而不是限制本专利技术的范围。如图1所示,检索系统1-1包括几个模块,下文将做详细叙述。检索系统1-1的模块、其中的一部分、以及/或检索系统的整体,可能包括硬件、软件固件或前者的结合,但是某些模块可能例如由硬件组成,而其它模块可能由软件、固件或它们的组合来实现。应该理解,检索系统的模块并不要求全部位于或集成于同一设备中。对于检索系统也可设想分布式结构,该检索系统可以“搭载”在已有设备提供的合适的模块上实现。下述描述将涉及到一个在物理上通过有线或链接无线链接而与数据库1-2结合或相连的检索系统1-1。一个时钟(未显示)也可能与检索系统1-1结合或相连。数据库1-2可能实现在一个存储设备中,例如个人计算机的硬盘、个人录像机、娱乐系统、电子手账、个人手持设备、Jaz磁盘设备或者以诸如磁盘驱动器等商业存储设备来实施。数据库1-2应理解为可以包括相连的几个存储设备,以使两个或两个以上这样设备的内容项目的管理或分类成为可能。数据库可能理解为包括一个或多个存储媒体,例如磁盘,包括CD、DVD、Zip软盘、软盘以及数据磁带等,它们能被检索系统载入和检索。但是,检索系统应该理解为也可以通过诸如局域网、广域网以及互联网之类的网络1-9来检索内容。如图1所示,检索系统1-1包括时间数据提取器1-11,它是一个从内容项目中收集特定类型数据的模块。内容项目可能是视频、视频剪辑、电影、照片、文本文件、音乐数据、音频文件、或其它类型的多媒体数据,如JPEG文件或XML数据。例如,视频可能是数字录像机上的一段家庭视频摄像,影片可能是商业发布的电影数据,例如按MPEG(包括MPEG-2、MPEG-3等)编码的影片,照片可能是数字照片数据、一组照片或影集,文本文件可能是字处理器生成的文件、电子表格或计算机编码文件,音乐数据可能是MP3之类的文件,如此等等。由时间数据提取器1-11提取的描述数据,包括诸如元数据或有关内容项目的使用数据之类的信息。这些信息还包括用于内容项目的时间数据,例如项目的创建时间、项目的获得时间;最后/第一/倒数第二次等重放和/或编辑内容项目的时间,以及最常使用的时间,例如,项目最常在下午8点左右,或一个星期、一个月或一年中的特定一天被使用,项目最常在诸如晚上之类的时间被使用。这里使用的“最常”可能是基于使用时间的平均值、使用时间的中间值、使用时间的众数等。这些使用历史数据有时称为元数据,相反地,元数据的类型有时称作使用历史数据。这里讨论的时间信息可能是一个或多个这种相似度范围的时间信息,或者它可能是唯一的或是权值最大的那个范围的时间信息。衡量这些因素在权重中所达到的程度(如果有的话)取决于应用和用户的需要。应该理解的是,这种关于项目的描述数据可能以不同的方式查找和提取,包括从项目中、从索引或从数据库管理的文件中,或从外部信息来源中,例如,本文档来自技高网...

【技术保护点】
一种内容项目检索的方法包括:确定(S1)一个基准时间;提取(S2)第一识别的内容项目的时间元数据以作为第一时间;基于在基准时间和第一时间之间确定(S3)的一个标准时间距离来设定(S5)第一阈值;提取(S6)第 一候选内容项目的时间元数据以作为第一候选时间,并确定(S7)基准时间与第一候选时间之间的距离以作为第一候选时间距离;基于第一候选时间距离和第一阈值来选择(S8)第一候选内容项目;以及当第一候选项目被选择时,为第一候选内容项目 输出(S9)一个选择信号。

【技术特征摘要】
【国外来华专利技术】US 2004-12-1 60/632,1361.一种内容项目检索的方法包括确定(S1)一个基准时间;提取(S2)第一识别的内容项目的时间元数据以作为第一时间;基于在基准时间和第一时间之间确定(S3)的一个标准时间距离来设定(S5)第一阈值;提取(S6)第一候选内容项目的时间元数据以作为第一候选时间,并确定(S7)基准时间与第一候选时间之间的距离以作为第一候选时间距离;基于第一候选时间距离和第一阈值来选择(S8)第一候选内容项目;以及当第一候选项目被选择时,为第一候选内容项目输出(S9)一个选择信号。2.权利要求1中的方法,其中第一阈值基于标准时间距离确定的粒度而设定。3.权利要求1中的方法进一步包括基于标准时间距离设定第二阈值,第二阈值和第一阈值组成一个范围,并且当第一候选时间距离在此范围之内,则选择第一候选内容项目。4.权利要求1中的方法,其中,第一时间和第一候选时间中的至少一个包括内容项目获得的时间、内容项目最后使用的时间、内容项目第一次使用的时间和内容项目最常用的时间。5.权利要求1中的方法,其中,第一个时间和第一个候选时间中的至少一个包括内容项目最新修正的时间和内容项目的创建时间。6.权利要求1中的方法进一步包括提取(S2)第二个识别的内容项目的时间元数据以作为第二时间;也基于第二标准时间距离来设定(S5)第一阈值,该第二标准时间距离被确定为基准时间和第二时间之间的距离。7.一个内容项目的检索系统包括基准时间提取器(1-13),被配置来确定基准时间;时间元数据提取器(1-11),被配置来提取第一识别的内容项目的时间元数据以作为...

【专利技术属性】
技术研发人员:EMA迪德里克斯BM范德斯卢伊斯
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1