当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于标签的文件呈现方法及其系统技术方案

技术编号:2823909 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于标签的文件呈现方法及其系统,属于计算机网络领域。本发明专利技术的方法为:首先提取输入的标签集合中的单词,然后判断单词中是否存在多义词并提示用户对多义词的具体含义进行限定,然后将近义词单词划分为若干个近义词集合,最后将标签中单词属于同一近义词集合的文件呈现为同一图元;本发明专利技术的系统包括单词判定模块、多义词判定模块、近义词判定模块和图元生成模块。与现有技术相比,本发明专利技术克服了标签的同义性和多义性带来的问题,使得用户想要的文件能够快速准确的呈现出来,同时满足了用户的个性化需求。

【技术实现步骤摘要】

本专利技术涉及计算机桌面系统或者网站中,一种文件呈现方法及其系统,特别涉及一种基于标签的文件呈现方法及其系统,属于计算机网络领域。
技术介绍
近年来,数字化进程(Cyberization)[1]突飞猛进,具体体现在处理器、存储器、音/视频编码、摄像和显示设备等方面技术的持续高速发展。这些领域的技术进步使得计算机用户可以创造、获得和管理具有越来越大数据量的信息。以数码照片为例,随着数码相机和具有拍照功能的手机的日益普及,家庭数码照片的数量增长迅速。我们注意到,为照片标注标签是多数软件工具和照片共享网站都提供的功能。现有的软件工具如ACDSee[2],Microsoft Windows Photo Gallery[3],Adobe Photoshop Album[4],Google Picasa[5],有代表性的照片共享网站Flickr.com[6]都提供为照片添加标签和根据标签检索照片的功能。与此同时,随着照片共享网站的兴起和标注标签用户界面的改进,越来越多的照片都有标签。在照片共享网站兴起之前,虽然很多软件工具也提供为照片标注标签的功能,但用户的积极性并不高[7],Ames等[8]的调查表明,与他人共享照片,成为用户愿意为照片标注标签的重要原因。同时,近年有大量的研究工作集中在帮助用户进行标签的标注。标注标签的用户界面不断得到改进。标签作为Web2.0的主要特点之一,将会越来越为用户所接受。目前Flickr.com等照片共享网站上已经从世界各地的用户那里收集了大量的标签,面对数量越来越多的标签,如何有效的组织利用它们使文件能够快速准确的呈现给用户,是本专利技术所要解决的问题。上面提到的软件和网站虽然都提供添加标签以及一些相关功能,但所采用的标签组织和呈现的方式不尽相同。ACDSee、Microsoft Windows PhotoGallery和Adobe PhotoShop Album都采用了树形的方式组织和呈现标签,系统预定义了一些分类,在这些分类下面还可以添加子类,所有这些类别的名称实际上也就是标签。树形方式的好处是其与文件结构较为相似,所以容易为用户所接受;缺点主要包括以下三点:1、不能直观表达标签本身的信息,如该标签包含多少照片,用户是否经常点击等;2、分类由系统预设,不够灵活;3、由于标签可能由不同用户添加,不能满足不同用户的个性化需求。与上述软件不同,照片共享网站Flickr.com采用了标签云(Tag Cloud)的标签呈现方式,其同样不能满足不同用户的个性化需求,而且标签之间的关系没有得到体现。-->Google Picasa则没有提供标签的呈现视图。事实上,由于用户添加标签的随意性,以下三个问题成为基于标签的文件呈现中的突出问题:1、标签的同义性问题。许多标签可能含有相近的语义,或者仅仅是单复数的差别。比如“苹果”和“两个苹果”,又如“女孩”和“女生”。这些标签在上述软件的管理方法中被认为是不同的标签,时间长了以后,可能会引起标签数量过多,带来管理不便。2、标签的多义性问题。一个标签可能含有多种语义。比如,“苹果”可能表示一种水果,或者是一家公司,上述软件的管理方法中显然忽略了这种情况,这使得当用户使用“苹果”标签进行检索时,得到预期之外的结果。3、用户的个性化问题。不同用户对相同照片标注的标签,会因为用户背景知识、性格、甚至标注时环境的不同体现出差别,而且不同的用户对不同的呈现方式有偏好。而上面提到的软件和网站仅仅是将标签作为文件名的另外一种形式,并没能解决好这三个问题。
技术实现思路
本专利技术的目的是针对上文中提到的三个问题,提出一种基于标签的文件呈现方法及其系统。本专利技术既可以被集成进照片共享网站,用于网站中标签的处理和呈现;也可以应用到单独的照片管理软件中。为达成上述目的,本专利技术通过引入一个多义词字典,计算标签间语义的相似度,将标签合并或归类,以解决同义性问题。通过引入一个多义词字典,将标签在此字典中的查找结果以含义提示的方式返回给用户,已解决多义性问题。生成标签图元的大小、位置、颜色、形状由其对应照片(或文件)数量、文件点击频率、生成时的用户上下文等参数决定。同时本专利技术中不仅图元的大小、位置、颜色、形状等可以由用户进行修改,而且图元间的关系可以由用户定义。用户可以通过连线将其认为相关的图元联系在一起,并且可以指定关系的名称。标签视图可以被新建、修改、保存。用户可以在同一个照片集合上新建多个不同的视图,并且可以根据需要打开某一特定视图。本专利技术的技术方案为:一种基于标签的文件呈现方法,其步骤为:1)利用单词判定模块对输入的标签集合进行单词提取;2)利用多义词判定模块判断出上述单词中的多义词单词并提示用户设定该多义词单词的具体含义;3)利用近义词判定模块将单词划分为若干近义词集合;-->4)利用图元生成模块将标签中单词属于同一近义词集合的文件呈现为同一图元。所述单词包括但不限于下列单词的一种或几种:英文单词、中文单词。所述标签为短语时,提取单词的方法为将短语分割为单词,且每个单词都保持原来标签的所有属性;所述标签中的单词为英文单词时,采用Porter的填充算法消除单词的单复数、时态。所述多义词判定模块内包含一多义词字典,所述多义词判定模块的工作方法为:1)采用WordNet多义词字典判断出每一个所述单词是否为多义词;2)对于多义词单词提示用户选定其中的某一项含义;3)将所选定的含义作为该单词所属标签的附加内容添加到文件的标签中。所述近义词判定模块的判定方法为:1)计算全部所述单词之间的相似度;2)判断所述相似度值是否大于设定阈值;3)将单词间相似度不小于设定阈值的单词划分到同一近义词集合。所述标签为图结构呈现标签。所述图元的属性包括:大小、位置、颜色和形状。所述方法中,设定标签所映射文件的数量参数num、文件点击频率参数frq,根据公式size=num+frq计算所述图元大小;根据用户交互历史记录确定所述图元的颜色、形状。一种基于标签的文件呈现系统,其包括单词判定模块,用于对输入的标签集合进行单词提取,得到标签中的单词;多义词判定模块,用于判断单词中的多义词单词并提示用户设定多义词单词的具体含义;近义词判定模块,用于将单词划分为若干近义词集合;图元生成模块,用于将标签中单词属于同一近义词集合的文件呈现为同一图元。所述单词判定模块包括短语处理子模块和单词处理子模块;所述多义词判定模块包括单词查找子模块和多义词字典;所述近义词判定模块包括相似度计算子模块和近义词分类子模块。-->本专利技术的积极效果为:通过对文件标签的处理和呈现,使得文件能够快速准确的呈现给用户。本专利技术与现有技术相比,克服了标签的同义性、多义性带来的问题,同时可以满足用户的个性化需求。附图说明图1示出了本专利技术的系统框图;图2示出了标签处理的流程图;图3示出了单词判模块的流程图;图4示出了多义词判定模块的流程图;图5示出了近义词判定模块的流程图;图6示出了图元生成模块的流程图;图7示出了本专利技术的标签视图,即文件呈现视图;图8示出了本专利技术的系统界面(当用户点击左侧标签视图中的图元时,右侧相应的呈现出该图元所映射的照片文件)。具体实施方式下面将一一讨论在
技术实现思路
中给出的各个方法的具体实施方式。下文中的技术主要针对中文和英文进本文档来自技高网
...

【技术保护点】
一种基于标签的文件呈现方法,其步骤为:    1)利用单词判定模块对输入的标签集合进行单词提取;    2)利用多义词判定模块判断出上述单词中的多义词单词并提示用户设定该多义词单词的具体含义;    3)利用近义词判定模块将单词划分为若干近义词集合;    4)利用图元生成模块将标签中单词属于同一近义词集合的文件呈现为同一图元。

【技术特征摘要】
1.一种基于标签的文件呈现方法,其步骤为:1)利用单词判定模块对输入的标签集合进行单词提取;2)利用多义词判定模块判断出上述单词中的多义词单词并提示用户设定该多义词单词的具体含义;3)利用近义词判定模块将单词划分为若干近义词集合;4)利用图元生成模块将标签中单词属于同一近义词集合的文件呈现为同一图元。2.如权利要求1所述的方法,其特征在于所述单词包括但不限于下列单词的一种或几种:英文单词、中文单词。3.如权利要求1所述的方法,其特征在于所述标签为短语时,提取单词的方法为将短语分割为单词,且每个单词都保持原来标签的所有属性;所述标签中的单词为英文单词时,采用Porter的填充算法消除单词的单复数、时态。4.如权利要求1所述的方法,其特征在于所述多义词判定模块内包含一多义词字典,所述多义词判定模块的工作方法为:1)采用WordNet多义词字典判断出每一个所述单词是否为多义词;2)对于多义词单词提示用户选定其中的某一项含义;3)将所选定的含义作为该单词所属标签的附加内容添加到文件的标签中。5.如权利要求1所述的方法,其特征在于所述近义词判定模块的判定方法为:1...

【专利技术属性】
技术研发人员:朱广飞王衡汪国平程惠阁
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1