一种基于同义词的个人文件搜索方法技术

技术编号:8862476 阅读:183 留言:0更新日期:2013-06-28 01:40
一种基于同义词的个人文件搜索方法。该方法通过现有的分词工具将数据集中的文件名进行分词,分词后,利用在线词典网站进行同义词的匹配,利用网页爬取技术将在线词典网站返回的该词语的同义词以及近义词信息爬取下来存入数据库;然后基于输入的关键词,利用字符串匹配方法,并且结合对应的同义词进行查询。本发明专利技术将个人桌面文件与同义词结合起来,针对个人数据管理中文件的查询问题,提出以上解决方案,该方法具有简洁实用、容易实现的特性,同时还可以大大减少用户的文件搜索时间,便于用户查询个人桌面文件,提高文件的召回率以及准确率。

【技术实现步骤摘要】
一种基于同义词的个人桌面文件搜索方法
本专利技术涉及个人信息管理领域,尤其是涉及一种基于同义词的个人文件搜索方法
技术介绍
数字化技术和web的发展使人们每天处理的信息量剧增,而人的注意力和能够用在数据管理上的时间却是基本不变的,因此个人数据空间管理日益成为一个重要的研究问题。个人信息管理的广义定义就是既包括了对个人记忆信息的管理,也包括对外部信息的管理。随着信息技术的发展,信息资源的种类、形式越来越多,原先用于传统纸质信息的方法不再适用,需要从搜集、整理、组织、检索等方面探究信息管理自动化的方法。同时,在当下,个人电脑的普及大大增强了人们处理和管理信息的能力。个人信息管理在很多学科领域得到了发展,包括人机交互、数据库管理、信息检索、信息科学等。目前,人们常用的个人桌面文件检索方法具有一定的局限性。随着现代信息技术和互联网的发展,信息呈海量增长,另一方面,存储装备的价格变得更低,用户更加倾向于购买大容量的存储设备以存储更多的个人数据,但是用户想要在这海量的数据中搜索自己有用的信息,需要花费很长的时间。基于文件系统的资源浏览器是目前人们管理及查询个人桌面文件最常使用的方式。人们通过目录结构进行浏览,找到所需要的数据文件。这种方法有以下局限性:对于一些很长时间没有使用的文件,用户往往不能回忆起文件存放的准确位置,可能需要进行多次尝试才能找到所需要的文件,从而浪费时间。有时甚至无法找到所需要的文件。桌面搜索也是目前经常使用的一种查找个人桌面文件的方法。例如谷歌、微软等都有自己的桌面搜索工具。桌面搜索技术的核心是通过对桌面文件建立全文索引,从而支持用户通过关键字搜索需要的文件。这种方法有以下局限性:一是在查找一些很长时间没有使用的文件时,用户往往不能准确回忆起所需要的关键字;二是这种方式不能支持一些基于同义词的查询;三是全文索引也往往导致比较低的效率。现有的个人数据查询方法具有各自的局限性。行为学研究表明:主体对客体的记忆具有一定的规律性。这种规律性表现在很多方面。例如,主体对文件名的记忆会随着时间逐渐减弱;对于长时间没有访问的文件实体,用户往往不记得它的存储位置,而只是模糊的记得它的文件名中包含的某个关键词等,现在的桌面搜索工具只是根据字符串匹配的方式进行查询,并且有些桌面搜索工具(如微软的桌面搜索工具)需要在整个文件系统(包括系统的安装文件)中进行查询。这种查询方式不仅要花费更长的查询时间,并且与搜索关键词相似的文件名并没有查询出来。基于同义词对文件进行检索可以提高查询效率和召回率,本专利技术就是针对这一问题。
技术实现思路
本专利技术目的是克服现有技术存在的上述问题,提出一种基于同义词的个人文件搜索方法,本专利技术是基于通过专利技术人研发的一个原型系统对用户桌面行为进行监控,搜集大量数据并进行分析后提出的,主要针对解决用户对于长时间没有访问的文件,因记不清其存储位置和准确的关键字信息而无法有效查询的问题。比如当用户需要查询一篇以前阅读过并存储在个人计算机上的关于索引的文章时,由于该用户当初命名文件的时候可能使用用“论文”、“文章”,也可能使用英文Paper或Article。用户在需要查询这篇文章的时候,就需要利用几个关键字进行多次尝试,从而耽误很多时间。因此基于同义词的查询,可以解决这个问题。本专利技术针对个人计算机中文件的管理问题,在基于关键字查询的基础上,考虑查询关键字的同义词关系,使得传统的桌面搜索工具基于字符串匹配查询时,扩展其字符串的匹配范围,本专利技术提供的基于同义词的个人文件搜索方法具体步骤包括:第1,通过现有的分词工具将通过原型系统搜集的数据集中的文件名进行分词,同时将分词后的那些没有实际意义的、包含数字的词语过滤掉,然后将文件名与其对应的词语存入数据库,作为用户的词语列表(如图6中的表A);第2,文件名经过分词后,进行同义词的匹配,在进行同义词的匹配时,我们利用一个在线词典网站进行操作;第2.1遍历所有的词语,对于每一个词语,将其作为在线词典网站的搜索词;第2.2该网站会返回一个关于此词语的一个查询结果网页,其包含了该词语的基本释义、同义词、近义词、反义词等信息,利用网页爬取技术将该词语的同义词以及近义词信息爬取下来;第2.3对于爬取出来的同义词、近义词中的每一个词语,去遍历该用户的分词后的词语列表(如图6中的表A),如果词语列表中包含有这些爬取出来的词语,那么就可以将其作为一对有关系的词语,存入数据库,作为同义词表(如图6中的表B);第3,基于输入的关键词,利用字符串匹配方法,并且结合对应的同义词进行查询;第3.1输入要查询桌面文件的一个关键词K;第3.2在图6中的表B中进行查询,查询此关键词的对应同义词集合S;第3.3将该关键词和查到的同义词作为一个查询文档的查询关键词,作为集合SK;第3.4遍历集合SK中的每一个词语,在用户的词语列表(如图6中的表A)查询其对应的文件名;第3.5返回查询结果(如图10所示)。本专利技术的优点和有益效果:本专利技术将个人桌面文件与同义词结合起来,针对个人数据管理中文件的查询问题,提出解决方案,该方法具有独特的创造性,该方法既可以集成到现有的桌面搜索引擎等个人信息管理工具,也可以将该技术用于元搜索引擎中。本专利技术方法新颖,具有简洁实用、容易实现的特性,同时还可以大大减少用户的文件搜索时间,便于用户查询个人桌面文件,提高文件的召回率以及准确率。附图说明图1是本专利技术基于同义词的个人文件搜索方法的方框图;图2是本专利技术的文件名分词步骤的具体流程图;图3是本专利技术的构建同义词图步骤的具体流程图;图4是本专利技术的查询步骤的具体流程图;图5是本专利技术所用到的数据集中用户的一部分数据的展示图;图6是针对图5中的文件名进行分词后的结果(表A),并存储其相应同义词的数据表(表B);图7是针对图5中文件名分词后的词语进行词语偏好度的计算结果图;图8是针对图7所构建的同义词图;图9是文件名分词后的词语以及次数统计;图10是实施例中的搜索结果。为了更全面地理解本专利技术及其优点,下面结合附图及具体实施例对本专利技术做进一步详细地说明。具体实施方式本专利技术涉及的几个概念个人桌面文件(PersonalDesktopFile):个人桌面文件是指个人电脑中用户访问的文件,不包括系统文件,例如,一篇文档,一个图片等都可以看作是个人桌面文件。个人桌面词典(PersonalDesktopVocabulary):个人桌面词典是指包含在个人桌面文件中文件名的词语集合,除了那些包括数字,没有实际意义的词语。词语偏好程度(WordPreferenceDegree):词语偏好程度是指在整个个人桌面文件的文件名的命名中,词语的使用次数。桌面同义词图(DesktopSynonymGraph):桌面同义词图的结点指的是个人桌面文件的文件名经过分词后的词语以及通过在线词典网站查询的同义词,桌面同义词图的边指的是两个结点是同义词关系。文件关键字向量(FileKeywordVector):文件关键字向量指的是一个文件的文件名包含的词语所组成的向量。实施例1下面我们以一个例子来说明基于同义词的个人文件搜索方法,并且对以上概念进行实例的说明。第一,文件名分词对于图5中的文件集合,我们经过分词工具后,可以得到文件名对应的各个词语,同时我们也可以统计出其出现的本文档来自技高网
...
一种基于同义词的个人文件搜索方法

【技术保护点】
一种基于同义词的个人文件搜索方法,其特征在于该方法包括:第1,通过现有的分词工具将通过原型系统搜集的数据集中的文件名进行分词,同时将分词后的那些没有实际意义的、包含数字的词语过滤掉,然后将文件名与其对应的词语存入数据库,作为用户的词语列表;第2,文件名经过分词后,利用一个在线词典网站进行同义词的匹配;第2.1遍历所有的词语,对于每一个词语,将其作为在线词典网站的搜索词;第2.2该网站会返回一个关于此词语的一个查询结果网页,该网页包含了该词语的基本释义、同义词、近义词、反义词信息,利用网页爬取技术将该词语的同义词以及近义词信息爬取下来;第2.3对于爬取出来的同义词、近义词中的每一个词语,去遍历该用户分词后的词语列表,如果词语列表中包含有这些爬取出来的词语,那么就将搜索词与其同义词作为一对有关系的词语存入数据库,作为同义词表;第3,基于输入的关键词,利用字符串匹配方法,并且结合对应的同义词进行查询;第3.1输入要查询桌面文件的一个关键词K;第3.2在数据库的同义词表中进行查询,查询该关键词的对应同义词集合S;第3.3将该关键词和查到的同义词作为一个查询文档的查询关键词,作为集合SK;第3.4遍历集合SK中的每一个词语,在数据库的用户词语列表中查询对应的文件名;第3.5返回查询结果。...

【技术特征摘要】
1.一种基于同义词的个人桌面文件搜索方法,其特征在于该方法包括:第1,通过现有的分词工具将通过原型系统搜集的数据集中的文件名进行分词,同时将分词后的那些没有实际意义的、包含数字的词语过滤掉,然后将文件名与其对应的词语存入数据库,作为用户的词语列表;第2,文件名经过分词后,利用一个在线词典网站进行同义词的匹配;第2.1遍历所有的词语,对于每一个词语,将其作为在线词典网站的搜索词;第2.2该网站会返回一个关于此词语的一个查询结果网页,该网页包含了该词语的基本释义、同义词、近义词、反义词信息,利用网页爬取技术将该词语的同义词以及近义词信息爬取下来;第...

【专利技术属性】
技术研发人员:李玉坤赵喜燕赵德新
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1