当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于多标签分类的中英文搜索结果可视化系统技术方案

技术编号:8593958 阅读:249 留言:0更新日期:2013-04-18 07:07
本发明专利技术涉及一种基于多标签分类的中英文搜索结果可视化系统,该系统包括:显示模块,用于显示用户界面及搜索结果;搜索模块,用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果;分类模块,用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合;可视化模块,用于对整合后的分类结果实现Web用户界面设计,并通过显示模块输出。与现有技术相比,本发明专利技术借鉴粒计算细想,通过采用基于贝叶斯理论的多标签分类方法,可对搜索结果进行有效的多标签分类和整合,通过采用该方法设计可视化系统,能够根据用户的需求按类别显示搜索结果,同时尽量做到不丢失搜索结果,提高用户浏览效率,改善用户浏览体验。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其是涉及一种基于多标签分类的中英文搜索结果可视化系统
技术介绍
目前,网上电子文档迅猛增长,每天都有大量的文档上传到网上。搜索引擎,作为获取网络知识的一种重要方法,得到了越来越广泛的应用。然而,搜索引擎往往返回大量的搜索结果,这使用户常常被淹没在信息的海洋中。当前主流的搜索引擎返回根据用户关键字排序的搜索结果。为了找到感兴趣的信息,用户需要逐条浏览搜索结果。针对以上问题,一些人开始探索更先进的信息检索方法。通常来说,有两种方式一种是基于语义的信息检索方法,即力求采用语义分析技术理解文档和用户的查询语句;另一种是基于机器学习的方法,即运用从历史数据中学习到的模型对搜索结果中的文档进行分类或者聚类。本专利技术关注基于机器学习的方法来改进信息检索结果的问题。网页搜索结果可视化指根据搜索结果的内容,将搜索结果以一种更清晰、更条理的方式展示给用户的过程。其目的在于提高查询效率,改善用户浏览体验。对于该任务,目前多数研究工作采用基于文本聚类的技术,即将可视化任务看作一个非监督的分类问题。根据模式分类的方法体系,我们首先从文本中抽取特征来表示文本,然后将文本分配到本文档来自技高网...

【技术保护点】
一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,该系统包括:显示模块,用于显示用户界面及搜索结果;搜索模块,用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果;分类模块,用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合;可视化模块,用于对整合后的分类结果实现Web用户界面设计,并通过显示模块输出。

【技术特征摘要】
1.一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,该系统包括 显示模块,用于显示用户界面及搜索结果; 搜索模块,用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果; 分类模块,用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合; 可视化模块,用于对整合后的分类结果实现Web用户界面设计,并通过显示模块输出。2.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的分类模块包括 分类器,用于对搜索模块获取的结果进行中英文多标签分类,并进行分类结果整合;分类语料库,该分类语料库为不平衡语料库,包括若干个类别的多标签语料库,用于训练分类器。3.根据权利要求2所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的分类语料库包括中文分类语料库和英文分类语料库。4.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的分类模块采用基于贝叶斯理论的中英文多标签分类方法进行分类,该方法具体包括以下步骤 1)构建中文和英文分类语料库; 2)分类器通过分类语料库进行离线学习; 3)分类器分别对中文和英文的搜索结果进行分类,同时进行在线学习; 4)对分类结果进行整合。5.根据权...

【专利技术属性】
技术研发人员:卫志华苗夺谦
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1