可扩展标记语言文档的检索方法及装置制造方法及图纸

技术编号:7273109 阅读:175 留言:0更新日期:2012-04-15 21:34
本发明专利技术公开了一种可扩展标记语言文档的检索方法及装置,属于检索领域。所述方法包括:根据用户输入的关键字构建查询路径;根据所述查询路径及所述关键字构建可扩展标记语言XML查询语句;根据所述XML查询语句在XML文档数据库中进行检索。所述装置包括:第一构建模块、第二构建模块和检索模块。本发明专利技术通过根据关键字进行XML检索,使用户在不需要了解XML文档结构的情况下实现检索,不仅能够在保证检索准确性的前提下,降低XML文档的检索复杂度,还能提升用户体验。

【技术实现步骤摘要】

本专利技术涉及检索领域,特别涉及一种可扩展标记语言文档的检索方法及装置
技术介绍
随着互联网的迅速发展,作为互联网资源重要组成部分的XML(ExtensibIeMarkup Language,可扩展标记语言)的应用也越来越广泛。由于XML能够高效存储数据,有效地解决信息存储方面的不足,在集中存储,高可扩展性、可移植性等方面显现出了强大的优势, 因此,设计一种检索方法来实现针对XML文档的高效检索,不但可以增强检索的灵活性,还具有很强的实用性。现有技术在对XML文档进行检索时,采用的是基于结构查询的方式,所谓结构查询,就是先已知待查询的XML文档的内部结构信息和结果的部分信息,然后通过某种机制将这些结构信息的描述执行出来。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下缺点基于结构查询的方式一般比较复杂,不易掌握,并且需要用户知道待查询的XML 文档的结果,导致操作要求较高;另外,随着互联网的飞速发展和XML在互联网中的广泛使用,XML文档的数量和种类不断的增加,基于结构查询的方式使检索变得更加困难。
技术实现思路
为了在保证检索准确性的前提下,降低XML文档的检索复杂度,本专利技术实施例提供了一种可扩展标记语言文档的检索方法及装置。所述技术方案如下—方面,提供了一种可扩展标记语言文档的检索方法,所述方法包括根据用户输入的关键字构建查询路径;根据所述查询路径及所述关键字构建可扩展标记语言XML查询语句;根据所述XML查询语句在XML文档数据库中进行检索。进一步地,所述根据用户输入的关键字构建查询路径之前,还包括解析获取到的XML文档,得到所述XML文档的结构路径信息;根据所述XML文档的结构路径信息对所述XML文档及结构路径进行聚类,并将聚类后的XML文档及结构路径进行存储,得到XML文档数据库。所述根据所述XML文档的结构路径信息对所述XML文档及结构路径进行聚类之后,还包括建立并存储每一类XML文档的索引信息;相应地,所述根据用户输入的关键字构建查询路径,具体包括对所述用户输入的关键字进行预处理,根据预处理后的关键字查找对应的索引信息,并确定对应的XML文档的类别;根据确定的XML文档的类别构建查询路径。所述根据用户输入的关键字构建查询路径之前,还包括接收上传的检索算法和XML文档,将所述上传的检索算法和XML文档存储到指定位置,并记录所述上传的检索算法和XML文档的大小。所述记录所述上传的检索算法和XML文档的大小之后,还包括提示用户指定检索信息,所述检索信息包括XML文档的大小及检索算法;相应地,所述根据所述XML查询语句在XML文档数据库中进行检索,具体包括根据所述XML查询语句及用户指定的检索信息在XML文档数据库中进行检索。可选地,所述根据所述XML查询语句在XML文档数据库中进行检索之后,还包括统计检索算法的检索效率,使用户根据统计结果选择检索算法。所述根据所述XML查询语句在XML文档数据库中进行检索之后,还包括显示检索算法的检索结果及性能指标。另一方面,还提供了一种可扩展标记语言文档的检索装置,所述装置包括第一构建模块,用于根据用户输入的关键字构建查询路径;第二构建模块,用于根据所述第一构建模块构建的查询路径及所述预处理模块预处理后的关键字构建可扩展标记语言XML查询语句;检索模块,用于根据所述第二构建模块构建的XML查询语句在XML文档数据库中进行检索。进一步地,所述装置,还包括解析模块,用于解析获取到的XML文档,得到所述XML文档的结构路径信息;聚类模块,用于根据所述解析模块解析的XML文档的结构路径信息对所述XML文档及结构路径进行聚类;存储模块,用于将所述聚类模块聚类后的XML文档及结构路径进行存储,得到XML 文档数据库。所述存储模块,还用于建立并存储每一类XML文档的索引信息;相应地,所述第一构建模块,具体包括预处理单元,用于对所述用户输入的关键字进行预处理;构建单元,用于根据所述预处理单元预处理后的关键字查找对应的索引信息,并确定对应的XML文档的类别,根据确定的XML文档的类别构建查询路径。所述装置,还包括接收模块,用于接收上传的检索算法和XML文档,将所述上传的检索算法和XML文档存储到指定位置;记录模块,用于记录所述接收模块接收的上传的检索算法和XML文档的大小。所述装置,还包括提示模块,用于提示用户指定检索信息,所述检索信息包括XML文档的大小及检索算法;相应地,所述检索模块,用于根据所述XML查询语句及用户指定的检索信息在XML 文档数据库中进行检索。优选地,所述装置,还包括统计模块,用于统计检索算法的检索效率,使用户根据统计结果选择检索算法。所述装置,还包括5显示模块,用于显示检索算法的检索结果及性能指标。本专利技术实施例提供的技术方案的有益效果是通过根据关键字进行XML检索,使用户在不需要了解XML文档结构的情况下实现检索,不仅能够在保证检索准确性的前提下,降低XML文档的检索复杂度,还能提升用户体验。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的可扩展标记语言文档的检索方法流程图;图2是本专利技术实施例二提供的可扩展标记语言文档的检索方法流程图;图3是本专利技术实施例二提供的汇聚示意图;图4是本专利技术实施例二提供的分布式检索架构示意图;图5是本专利技术实施例三提供的第一种可扩展标记语言文档的检索装置结构示意图;图6是本专利技术实施例三提供的第二种可扩展标记语言文档的检索装置结构示意图;图7是本专利技术实施例三提供的第一构建模块结构示意图;图8是本专利技术实施例三提供的第三种可扩展标记语言文档的检索装置结构示意图;图9是本专利技术实施例三提供的第四种可扩展标记语言文档的检索装置结构示意图;图10是本专利技术实施例三提供的第五种可扩展标记语言文档的检索装置结构示意图;图11是本专利技术实施例三提供的第六种可扩展标记语言文档的检索装置结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一参见图1,本实施例提供了一种可扩展标记语言文档的检索方法,该方法流程具体如下101 根据用户输入的关键字构建查询路径;102 根据查询路径及关键字构建可扩展标记语言XML查询语句;103 根据XML查询语句在XML文档数据库中进行检索。进一步地,根据用户输入的关键字构建查询路径之前,还包括解析获取到的XML文档,得到XML文档的结构路径信息;根据XML文档的结构路径信息对XML文档及结构路径进行聚类,并将聚类后的XML 文档及结构路径进行存储,得到XML文档数据库。进一步地,根据XML文档的结构路径信息对XML文档及结构路径进行聚类之后,还包括建立并存储每一类XML文档的索引信息;相应地,根据用户输入的关键字构建查询路径,具体包括对用户输入的关键字进行预处理,根据预处理后的关键字查找对应的索引信息, 并确定对应的XML文档的类别;根据确定的XML文档的类别构建查询路径。可选地,根据用户输入的关键字构建查询路径之前,本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:邓慧芳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术