一种基于知识库的医院信息搜索引擎及系统技术方案

技术编号:2913886 阅读:299 留言:0更新日期:2012-04-11 18:40
本发明专利技术基于知识库的医疗搜索引擎及系统,抓取中文医疗健康目录构建原始医疗网页库;对原始医疗网页库中的网页进行相关信息抽取,提取对医院、科室、医生的评论信息,构建医疗评论信息库;使用词频统计和调查问卷,对抽取的相关信息进行医疗评论属性字段提取,提取观点短语,观点短语倾向性分析,给出评论评论信息是正面或是反面的分析结果,确定医院、科室、医生的排名;根据医疗知识库对搜索结果进行排序,将高度结构化和高度相关的信息提供给用户。本发明专利技术针对通用搜索引擎结果信息是非结构化、相关度和准确度低等缺点,构建医疗知识库,为用户提供高度结构化的医疗信息,提高用户查询医疗信息相关度和准确率,能有效提高搜索结果的准确率和召回率。

【技术实现步骤摘要】

本专利技术涉及信息检索和搜索引擎
,是一种基于知识库的医院垂直搜索引擎的实现。
技术介绍
2007年7月,中国互联网络信息中心(CNNIC)在北京发布《第二十次中国互联网络发展状况统计报告》,调查结果显示,浏览新闻、搜索引擎、即时通信是网民经常使用的三大网络服务,三者的选择比例分别为浏览新闻77.3%,搜索引擎74.8%,收发邮件69.8%,这三大网络服务的选择比例领先其后的第二阵营20个百分点以上。该中心2007年9月份发布了2007年中国搜索引擎市场调查报告,报告显示搜索引擎用户对搜索引擎的依赖性很高,每次上网都要用到多次搜索的用户数接近一半。搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问题。但是,互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页。数量增加带来的是搜索服务的火热。另一方面,也使传统的综合性搜索,如百度和Google的品质下降,搜索引擎在搜集网络信息上远赶不上网络信息的增长速度,同时查询的结果集是海量的,经常是几十万笔的资料,看上去很好,想找到合适的结果,却比较难,搜索结果里存在大量的重复信息和垃圾信息,用户很难在短时间内准确地筛选出需要的内容。国内领先的IT服务集成商——赛迪网(ccidnet.com),曾就搜索引擎使用习惯及IT搜索引擎市场前景进行了调查,其分析显示:网民在使用搜索引擎时,考虑的主要因素是“搜索速度快,其次是搜索信息准确,第-->三是信息量大”。但“搜索速度慢,死链接太多、重复信息或不相关信息较多”是目前网民对搜索引擎最不满意的地方。传统的搜索引擎多属于横向的水平型搜索,在现有的技术水平基础上,它在满足搜索信息量大的同时却难以兼顾搜索的准确度与相关度。针对以上问题,专为搜索某一学科或主题的信息而产生的搜索工具,专门收录某一方面、某一行业或某一主题的信息,对解决实际查询问题要比搜索引擎门户有效得多。如果用户想获得某一专业的信息,就可使用专业搜索引擎,如North Carolina大学计算机科学系和法学院联合开发研制的LIBClient-IRISWeb系统可以用自然语言对网上的法律信息进行全文检索,使得用户获得全面高质的法律专业信息的效率大大提高。目前中文专业搜索引擎有旅游搜索,数码产品搜索,酒店搜索,房屋租赁搜索等,但是目前还没有基于知识库的医疗信息的搜索引擎。
技术实现思路
为了解决现有通用搜索引擎对于查询医疗信息非结构化,准确率和相关性低等问题,本专利技术的目的是为搜索医疗信息的用户提供一种新的搜索平台,该平台能够为用户提供高度结构化,高度相关性和高度准确性的医疗信息服务,为此本专利技术提供一种基于知识库的医疗信息搜索引擎及系统。为了实现所述的目的,本专利技术的第一方面,提供基于知识库的医疗信息搜索引擎系统,技术方案如下所述:用户端,与搜索引擎用户端接口连接,用于将疾病名称送入搜索引擎用户端接口;搜索引擎用户端接口,与查询分解模块连接,用于将疾病名称信息送入查询分解模块;用于接收排序模块的医院排序结果和医生信息;查询分解模块,与索引模块连接,用于将分解后的疾病名称信息送入索引模块;索引模块,分别与排序模块和索引器连接,用于排序模块输入原始网页库中与疾病匹配的网页内容信息;用于接收索引器建立的索引信-->息;排序模块,分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接,用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息,用于输出最后医院排名信息和医生信息;索引器,分别与原始医疗网页库和索引模块连接,用于接收原始医疗网页库的网页信息,用于输出原始网页库中网页的索引信息;医疗信息知识库,分别与排序模块和医疗评论信息库连接,用于接收医疗评论信息库中的评论信息,用于输出医院排名信息;医疗评论信息库,分别与原始医疗网页库和医疗信息知识库连接,用于接收原始医疗网页库的网页信息,用于输出医疗评论信息;原始医疗网页库,分别与医疗评论信息库、爬虫和索引器连接,用于存储爬虫抓取的原始医疗网页,用于输出原始医疗网页信息;爬虫,分别与万维网和原始医疗网页库,用于接收需要抓取的网页URL网址信息,用于输出原始医疗网页源代码信息。优选地,所述原始医疗网页库是对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库。优选地,所述医疗评论信息库基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,构建医疗评论信息库。优选地,所述医疗知识库是使用基于AHP的评价方法,以医疗评论属性字段为评价标准,构建医疗知识库。为了实现所述的目的,本专利技术的第二方面,提供基于知识库的医疗信息搜索引擎,步骤如下:步骤S1:对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库;步骤S2:基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,主要提取对医院、科室、医生的评论信息,构建医疗评论信息库;步骤S3:使用词频统计和调查问卷的方法,对抽取的相关信息进行医疗评论属性字段提取,然后根据医疗评论的语义结构特征提取观点短-->语,最后进行观点短语倾向性分析,给出医疗评论是正面或是反面的分析结果;步骤S4:使用基于AHP的评价方法,以医疗评论属性字段为评价标准,确定医院、科室、医生的排名,构建医疗知识库;步骤S5:根据知识库对搜索结果进行排序,并将高度结构化和高度相关的最终结果信息提供给用户。优选地,所述信息抽取方法是基于相似页面的中文医疗健康论坛网页信息抽取算法。优选地,所述基于相似页面的信息抽取算法,通过比较中文医疗健康论坛网页中字符串的不匹配和标记的不匹配来归纳规则,所述规则用正则表达式的形式表示:匹配医疗网页中医院名称,科室名称,疾病名称,匹配医疗网页中URL网址信息。优选地,所述词频统计和调查问卷的方法,从医疗评论信息中抽取医疗评论属性字段。优选地,所述观点短语的提取是基于医疗评论的语义结构特征,利用知网对观点短语进行分析,从而判断观点短语的倾向性。优选地,所述的对搜索结果进行排序,根据知识库中医院、科室、医生的排名结合基于相似度的排序结果,给出最终的排序结果。本专利技术的整体设计中有效的利用了医疗健康论坛中丰富的用户对医院、科室、医生的评论信息,通过对这些评论信息的搜集、抽取、分析建立医疗信息知识库,以医疗知识库为指导,对搜索引擎基于相似度的排序结果进行重排序,最后对最终的高度准确和相关的排序结果以高度结构化的形式提供给用户,克服了通用搜索引擎的搜索结果非结构化,相关度低,准确度低的缺点。本专利技术巧妙的利用了用户医疗评论信息,为用户提供高度结构化的医疗信息,提高了用户查询医疗信息相关度和准确率。利用实验表明这一方法能有效的提高搜索结果的准确率和相关性。-->附图说明图1是本专利技术基于知识库的医疗信息搜索引擎总体流程图;图2是本专利技术医疗信息抽取步骤流程图;图3是本专利技术医疗知识库构建步骤流程图;图4本专利技术基于知识库的医疗信息搜索引擎总体框架图;具体实施方式下面将结合附图对本专利技术加以详细说明,应指出的是,所描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。为了实现本专利技术的方法,如果在单机实现,最好保证处理器主频不小于2GHz,内存不小于1G,可采用任何常用编本文档来自技高网
...

【技术保护点】
一种基于知识库的医疗信息搜索引擎系统,其特征在于,包括: 用户端,与搜索引擎用户端接口连接,用于将疾病名称送入搜索引擎用户端接口; 搜索引擎用户端接口,与查询分解模块连接,用于将疾病名称信息送入查询分解模块;用于接收排序模块的医 院排序结果和医生信息; 查询分解模块,与索引模块连接,用于将分解后的疾病名称信息送入索引模块; 索引模块,分别与排序模块和索引器连接,用于排序模块输入原始网页库中与疾病匹配的网页内容信息;用于接收索引器建立的索引信息; 排 序模块,分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接,用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息,用于输出最后医院排名信息和医生信息; 索引器,分别与原始医疗网页库和索引模块连接,用于接收原始医疗 网页库的网页信息,用于输出原始网页库中网页的索引信息; 医疗信息知识库,分别与排序模块和医疗评论信息库连接,用于接收医疗评论信息库中的评论信息,用于输出医院排名信息; 医疗评论信息库,分别与原始医疗网页库和医疗信息知识库连接,用 于接收原始医疗网页库的网页信息,用于输出医疗评论信息; 原始医疗网页库,分别与医疗评论信息库、爬虫和索引器连接,用于存储爬虫抓取的原始医疗网页,用于输出原始医疗网页信息; 爬虫,分别与万维网和原始医疗网页库,用于接收需要抓取的网 页URL网址信息,用于输出原始医疗网页源代码信息。...

【技术特征摘要】
1、一种基于知识库的医疗信息搜索引擎系统,其特征在于,包括:用户端,与搜索引擎用户端接口连接,用于将疾病名称送入搜索引擎用户端接口;搜索引擎用户端接口,与查询分解模块连接,用于将疾病名称信息送入查询分解模块;用于接收排序模块的医院排序结果和医生信息;查询分解模块,与索引模块连接,用于将分解后的疾病名称信息送入索引模块;索引模块,分别与排序模块和索引器连接,用于排序模块输入原始网页库中与疾病匹配的网页内容信息;用于接收索引器建立的索引信息;排序模块,分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接,用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息,用于输出最后医院排名信息和医生信息;索引器,分别与原始医疗网页库和索引模块连接,用于接收原始医疗网页库的网页信息,用于输出原始网页库中网页的索引信息;医疗信息知识库,分别与排序模块和医疗评论信息库连接,用于接收医疗评论信息库中的评论信息,用于输出医院排名信息;医疗评论信息库,分别与原始医疗网页库和医疗信息知识库连接,用于接收原始医疗网页库的网页信息,用于输出医疗评论信息;原始医疗网页库,分别与医疗评论信息库、爬虫和索引器连接,用于存储爬虫抓取的原始医疗网页,用于输出原始医疗网页信息;爬虫,分别与万维网和原始医疗网页库,用于接收需要抓取的网页URL网址信息,用于输出原始医疗网页源代码信息。2、根据权利要求1所述基于知识库的医疗信息搜索引擎系统,其特征在于,所述原始医疗网页库是对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库。3、根据权利要求1所述基于知识库的医疗信息搜索引擎系统,其特征在于,所述医疗评论信息库基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,构建医疗评论信息库。4、根据权利要求1所述基于知识库的...

【专利技术属性】
技术研发人员:戴汝为缪庆亮李秋丹耿光刚王春恒
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1