当前位置: 首页 > 专利查询>浙江大学专利>正文

智能移动终端的桌面搜索方法技术

技术编号:2844779 阅读:187 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种智能移动终端的桌面搜索方法。本发明专利技术的方法是通过分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引。智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户,帮助用户快速而准确地定位需要的信息。

【技术实现步骤摘要】

本专利技术涉及基于智能移动终端的信息检索领域,特别是涉及一种。
技术介绍
伴随着通信产业的不断发展,智能移动终端如个人数字助手(PDA)、智能手机等以其强大的功能和便捷的操作等特点得到人们的青睐。随着价格的不断下降,智能移动终端正逐步进入千家万户,成为人们必备的工具。智能移动终端处理能力稳步提升,主流产品的中央处理器的主频已经达到了百兆级别,内存也达到了十兆级别,同时还支持千兆级别的大容量存储卡。这使得用户可以将更多的文本、多媒体数据保存在智能移动终端上,同时也不再需要为短信、彩信、联系人等的容量而担心,用户可以将上千上万条的短信保存在智能移动终端上而不需要删除。智能移动终端数据存储量提升的同时也使得用户要查找相关的信息变得相对困难。因此,在智能移动终端进行桌面搜索将极大地提高信息查找的速度,方便人们的生活。目前,基于互联网的搜索引擎技术得到了迅猛发展,可以帮助用户在几乎无限的互联网资源中找到所需的信息。特别是基于个人电脑PC机的桌面搜索工具除了能找到用户所需要的网络信息之外,还可以帮助用户从个人电脑海量无序的资料中轻松快速地查找到想要看到的信息,已经成为主要搜索服务提供商的新发展方向。智能移动终端的处理能力虽然不断提升,但是它固有的一些特点使得现有的搜索引擎技术很难直接得到应用。如智能移动终端通常使用电池供电,这就要求其运行的应用程序需要节能方面的考虑;智能移动终端的中央处理器能力及存储器的容量比起个人电脑来要落后很多,很难运行如中文分词等对系统资源需求较高的程序。因此,需要综合考虑智能移动终端的计算能力弱、电池寿命短等特点,设计一种能耗低,适于在智能移动终端运行的桌面搜索方法。
技术实现思路
本专利技术的主要目的在于提供一种,根据用户的查询请求,快速准确地定位到用户需要的信息。本专利技术解决其技术问题采用的技术方案如下一种,主要包括以下步骤1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。1.步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。2.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。3.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别是对于图片、音视频等二进制文件,读取这些文件中的文本注释部分进行分析。4.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件的文本部分,对文本以字为单元进行切分处理,将切分出的字保存到字库表中,每个字相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数、出现位置等信息,即获得每个字对应的全文索引信息;字库表中同时保存出现该字的文件个数。5.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件获得全文索引后,将全文索引压缩后再保存到智能移动终端的存储介质中。6.步骤(2)中接受用户的查询请求,允许用户附加指定要查找的文件类型。7.步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位的切分处理,读取该字对应的全文索引信息,利用索引计算查询与文件的相似度,相似度计算需要考虑文件中查询字的频率、出现该字的文件个数以及查询字的位置等信息。本专利技术与
技术介绍
相比,具有的有益的效果是本专利技术是一种针对智能移动终端的特性提出的桌面搜索方法,该方法充分考虑了智能移动终端处理能力较弱,存储能力相对有限以及能耗方面的特点,对智能移动终端中的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件建立全文索引,方便用户查找智能移动终端上的各种信息,同时采用了以字为单位的分词方法及压缩技术等,不仅节约空间,而且具有更好的性能。附图说明图1为根据本专利技术优选实施例的智能移动终端的桌面搜索系统的示意图。图2为根据本专利技术优选实施例的全文索引生成过程图。具体实施例方式如附图中的图1所示,其中示出了根据本专利技术优选实施例的。所述包括以下步骤(1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;(2)智能移动终端的桌面搜索引擎接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。上述步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息。文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。优选地,为了压缩方面的考虑,文件标识符采用整型表示,并且文件标识符从小到大顺序分配给每个文件。初始时每个文件元信息中的时间戳赋为空值,当该文件被分析时被赋为当时的时间。另外,元信息中保存文件的类型信息,以支持用户查询特定的文件,如用户可以指定查找短信或音频文件等等。为提升元信息的查询、更新效率,可使用嵌入式数据库维护元信息,也可以专门定制一个元信息管理模块。为了防止重复分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,在分析之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,还分析文件内的文本内容。特别地,对于图片、音视频等二进制文件,分析文件中的文本注释。上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件生成全文索引,全文索引生成的过程图见图2。首先,读取相应文件的文本部分,对文本采取以字为单元的切分处理,并将切分出的字保存到字库表中。优选地,采用B+树等结构保存字库表。特别的,中文的常用字不超过5000个,采用B+树保存,每个节点保存100个值,这样仅需2层就可以保存10100个字,即只需2层B+树可以保存所有的常用字。智能移动终端桌面搜索引擎运行时,以每个节点保存100个值计,将B+树的根节点保存在内存中,所需内存不超过1KB,要访问叶子节点中的字时,只需读一次I/O速度较慢的外存储设备即可,可以保证较好的性能。对文本切分出的每个字,相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数(即字频)、出现位置等信息,即获得每个字对应的全文索引信息。优选地,采用倒排索引保存每个字的全文索引。字库表中的每个字对应一个倒排索引链表,该链表包含了该字所在文件的文件标识符,字频、出现位置等信息。字库表中同时保存出现该字的文件个数。对于倒排索引链表采用压缩方法保存。倒排索引链表首先根据文件标识符排序,然后将文件标识符转换为相邻文件标识符的差值,即采用小整本文档来自技高网
...

【技术保护点】
一种智能移动终端的桌面搜索方法,其特征在于:1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。

【技术特征摘要】
1.一种智能移动终端的桌面搜索方法,其特征在于1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。2.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。3.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。4.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别...

【专利技术属性】
技术研发人员:陈纯卜佳俊陈伟刘康苗仇光
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1