一种基于知识库的医院信息搜索引擎及系统技术方案

技术编号：2913886 阅读：299 留言：0更新日期：2012-04-11 18:40

本发明专利技术基于知识库的医疗搜索引擎及系统，抓取中文医疗健康目录构建原始医疗网页库；对原始医疗网页库中的网页进行相关信息抽取，提取对医院、科室、医生的评论信息，构建医疗评论信息库；使用词频统计和调查问卷，对抽取的相关信息进行医疗评论属性字段提取，提取观点短语，观点短语倾向性分析，给出评论评论信息是正面或是反面的分析结果，确定医院、科室、医生的排名；根据医疗知识库对搜索结果进行排序，将高度结构化和高度相关的信息提供给用户。本发明专利技术针对通用搜索引擎结果信息是非结构化、相关度和准确度低等缺点，构建医疗知识库，为用户提供高度结构化的医疗信息，提高用户查询医疗信息相关度和准确率，能有效提高搜索结果的准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索和搜索引擎
，是一种基于知识库的医院垂直搜索引擎的实现。
技术介绍
2007年7月，中国互联网络信息中心(CNNIC)在北京发布《第二十次中国互联网络发展状况统计报告》，调查结果显示，浏览新闻、搜索引擎、即时通信是网民经常使用的三大网络服务，三者的选择比例分别为浏览新闻77.3％，搜索引擎74.8％，收发邮件69.8％，这三大网络服务的选择比例领先其后的第二阵营20个百分点以上。该中心2007年9月份发布了2007年中国搜索引擎市场调查报告，报告显示搜索引擎用户对搜索引擎的依赖性很高，每次上网都要用到多次搜索的用户数接近一半。搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问题。但是，互联网的信息量呈爆炸趋势增长，几年前全球式搜索引擎收录的网页量只有几千万页，而现在已经达到几十亿页。数量增加带来的是搜索服务的火热。另一方面，也使传统的综合性搜索，如百度和Google的品质下降，搜索引擎在搜集网络信息上远赶不上网络信息的增长速度，同时查询的结果集是海量的，经常是几十万笔的资料，看上去很好，想找到合适的结果，却比较难，搜索结果里存在大量的重复信息和垃圾信息，用户很难在短时间内准确地筛选出需要的内容。国内领先的IT服务集成商——赛迪网(ccidnet.com)，曾就搜索引擎使用习惯及IT搜索引擎市场前景进行了调查，其分析显示：网民在使用搜索引擎时，考虑的主要因素是“搜索速度快，其次是搜索信息准确，第-->三是信息量大”。但“搜索速度慢，死链接太多、重复信息或不相关信息较多”是目前网民对搜索...

【技术保护点】
一种基于知识库的医疗信息搜索引擎系统，其特征在于，包括：　用户端，与搜索引擎用户端接口连接，用于将疾病名称送入搜索引擎用户端接口；　搜索引擎用户端接口，与查询分解模块连接，用于将疾病名称信息送入查询分解模块；用于接收排序模块的医院排序结果和医生信息；　查询分解模块，与索引模块连接，用于将分解后的疾病名称信息送入索引模块；　索引模块，分别与排序模块和索引器连接，用于排序模块输入原始网页库中与疾病匹配的网页内容信息；用于接收索引器建立的索引信息；　排序模块，分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接，用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息，用于输出最后医院排名信息和医生信息；　索引器，分别与原始医疗网页库和索引模块连接，用于接收原始医疗网页库的网页信息，用于输出原始网页库中网页的索引信息；　医疗信息知识库，分别与排序模块和医疗评论信息库连接，用于接收医疗评论信息库中的评论信息，用于输出医院排名信息；　医疗评论信息库，分别与原始医疗网页库和医疗信息知识库连接，用 ...

【技术特征摘要】
1、一种基于知识库的医疗信息搜索引擎系统，其特征在于，包括：用户端，与搜索引擎用户端接口连接，用于将疾病名称送入搜索引擎用户端接口；搜索引擎用户端接口，与查询分解模块连接，用于将疾病名称信息送入查询分解模块；用于接收排序模块的医院排序结果和医生信息；查询分解模块，与索引模块连接，用于将分解后的疾病名称信息送入索引模块；索引模块，分别与排序模块和索引器连接，用于排序模块输入原始网页库中与疾病匹配的网页内容信息；用于接收索引器建立的索引信息；排序模块，分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接，用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息，用于输出最后医院排名信息和医生信息；索引器，分别与原始医疗网页库和索引模块连接，用于接收原始医疗网页库的网页信息，用于输出原始网页库中网页的索引信息；医疗信息知识库，分别与排序模块和医疗评论信息库连接，用于接收医疗评论信息库中的评论信息，用于输出医院排名信息；医疗评论信息库，分别与原始医疗网页库和医疗信息知识库连接，用于接收原始医疗网页库的网页信息，用于输出医疗评论信息；原始医疗网页库，分别与医疗评论信息库、爬虫和索引器连接，用于存储爬虫抓取的原始医疗网页，用于输出原始医疗网页信息；爬虫，分别与万维网和原始医疗网页库，用于接收需要抓取的网页URL网址信息，用于输出原始医疗网页源代码信息。2、根据权利要求1所述基于知识库的医疗信息搜索引擎系统，其特征在于，所述原始医疗网页库是对中文医疗健康论坛网站进行目录式抓取，构建原始医疗网页库。3、根据权利要求1所述基于知识库的医疗信息搜索引擎系统，其特征在于，所述医疗评论信息库基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取，构建医疗评论信息库。4、根据权利要求1所述基于知识库的...

【专利技术属性】
技术研发人员：戴汝为，缪庆亮，李秋丹，耿光刚，王春恒，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人