医学信息搜索引擎系统和搜索方法技术方案

技术编号:11351687 阅读:148 留言:0更新日期:2015-04-24 18:12
本发明专利技术提供一种医学信息搜索引擎系统和搜索方法,其中医学信息搜索引擎系统包括:医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词;语义分析模块,用于接收查询指令,并基于医学语义词库存储模块分析生成分词组合;索引模块,用于基于数据库生成分词索引,并分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据;分布式索引数据存储模块,用于存储分词索引;搜索模块,用于在分布式索引数据存储模块中搜索分词组合。本发明专利技术通过设置医学语义词库存储模块精准地拓展了搜索的关键词,显著提升了医学领域的搜索性能。

【技术实现步骤摘要】

本专利技术涉及搜索引擎
,尤其涉及一种。
技术介绍
随着医学信息不断膨胀和扩张,对医学精准搜索和词意正确关联就越来越重要了,快速帮助医生或者病人找到正确的资料的需求更为紧迫。传统的搜索引擎通常基于普通模糊搜索或者分词搜索,有时候一个词汇搜索的结果查全率会很低。例如:搜索“甲亢”这个关键词,英文对应的是“hyperthyreosis”,治疗的相关药物是丙硫氧嘧啶和他巴唑。如果用传统搜索引擎,仅仅只能搜索到包含“甲亢”相关分词的数据,而治疗甲亢的药物或者资料就无法被检索到。此外,基于文档的索引系统,在索引多线程方面存在瓶颈,同一时间可以有多个线程对索引库进行读操作,但只能允许一个线程对索引库进行写操作。因此在索引的分布式方面,并行操作的效率有待提高。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术提供一种,用以解决现有搜索引擎对于医学领域检索查全率低,难以搜索到相关药物或资料,以及索引分布式并行操作效率有待提高的问题。本专利技术提供一种医学信息搜索引擎系统,包括:医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词。语义分析模块,用于接收查询指令,基于所述医学语义词库存储模块对所述查询指令进行分析,生成分词组合。索引模块,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据。分布式索引数据存储模块,用于存储所述分词索引。搜索模块,用于对所述分词组合在所述分布式索引数据存储模块中搜索匹配,得到搜索结果。本专利技术还提供一种医学信息搜索方法,包括:接收查询指令,对查询指令进行分词处理。基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组入口 ο对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。本专利技术提供的通过设置包括医学领域同义词、近义词和关联词的医学语义词库存储模块精准地拓展了搜索的关键词,有效地提升了查全率的同时保持了查准率,基于不同数据库进行搜索后将搜索结果分类合并的设计,可以分类输出医学文献、药物、病例等不同类别的搜索结果。本专利技术生成分词索引的设计对索引进行读写分离,通过对搜索词建立子库,实现了索引库的横向分割,每个子索引库并行操作的可能性将大大减少。综上所述,本专利技术显著地提升了搜索引擎在医学领域的搜索性能。【附图说明】参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1为本专利技术的医学信息搜索引擎系统的第一实施方式的模块示意图。图2为本专利技术的医学信息搜索引擎系统的第二实施方式的模块示意图。图3为本专利技术的医学信息搜索引擎系统的第三实施方式的模块示意图。图4为本专利技术的医学信息搜索引擎系统的第四实施方式的模块示意图。图5为本专利技术的医学信息搜索引擎系统的第五实施方式的模块示意图。图6为本专利技术的医学信息搜索引擎系统的第六实施方式的模块示意图。图7为本专利技术的医学信息搜索方法的第一实施方式的流程图。图8为本专利技术的医学信息搜索方法的第二实施方式的流程图。图9为本专利技术的医学信息搜索方法的第三实施方式的流程图。图10为本专利技术的医学信息搜索方法的第四实施方式的流程图。图11为本专利技术的医学信息搜索方法的第五、第六实施方式的流程图。【具体实施方式】下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。第一实施方式:图1为本专利技术的医学信息搜索引擎系统的第一实施方式的模块示意图。如图1所示,在本实施方式中,本专利技术的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、索引模块50、分布式索引数据存储模块70和搜索模块80 ο医学语义词库存储模块10,用于存储医学领域的同义词、近义词和关联词。具体地,医学语义词库存储模块10中存储了医学领域的包括中文的多国语言同义词、近义词和关联词,为语义分析模块30起到支撑作用。语义分析模块30,用于接收查询指令,基于医学语义词库存储模块10对所述查询指令进行分析,生成分词组合。具体地,语义分析模块30接收查询指令,对查询指令进行分词操作,对所述分词操作的结果在医学语义词库存储模块中查询同义词、近义词和关联词,并根据预设的算法进行筛选和排序,生成分词组合。优选地,所述分词组合还包括相关度数据。语义分析模块30基于分词操作结果中分词的同义词、近义词和/或关联词与所述分词的相关度分析得出所述相关度数据。索引模块50,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块70所存储的数据。具体地,索引模块50基于数据库和预设定的分词生成分词索引,根据预设的算法查找到每个预设定的分词所对应的存储节点,将所述分词所对应的分词索引存储至所查找到的存储节点上,生成分布式索引数据存储模块70。分布式索引数据存储模块70,用于存储所述分词索引。具体地,所述存储节点为映射到物理节点上的虚拟节点,在本实施方式中,所述虚拟节点的数量设置为256,所述物理节点的数量设置为16。搜索模块80,用于对所述分词组合在所述分布式索引数据存储模块70中搜索匹配,得到搜索结果。具体地,所述搜索模块80基于Lucene构建。图7为本专利技术的医学信息搜索方法的第一实施方式的流程图。如图7所示,在本实施方式中,本专利技术的医学信息搜索方法包括:SlO:接收查询指令,对查询指令进行分词处理。具体地,语义分析模块20接收查询指令,对查询指令进行分词操作。S20:基于医学语义词库存储模块10对所述查询指令的分词结果进行分析,生成分词组合。具体地,语义分析模块30对所述分词操作的结果中各分词在医学语义词库存储模块中查询同义词、近义词和关联词,并根据预设的算法进行筛选和排序,生成分词组合。例如搜索“甲亢怎么治疗”时,语义分析模块30对搜索指令进行分词,得到“甲亢”、“怎么”、“治疗”等分词,在医学语义词库存储模块10查询各分词的同义词、近义词和关联词,得到甲亢的同义词“hyperthyreosis”、关联词“丙硫氧嘧啶”、“他巴唑”等分词,再根据预设的算法进行筛选和排序,生成分词组合。S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。具体地,搜索模块80对所述分词组合在分布式索引数据存储模块70中搜索匹配,得到搜索结果O第二实施方式:本实施方式为第一实施方式的一种优选方案。图2为本专利技术的医学信息搜索引擎系统的第二实施方式的模块示意图。如图2所示,在本实施方式中,本专利技术的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70本文档来自技高网...

【技术保护点】
一种医学信息搜索引擎系统,其特征在于,包括:医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词;语义分析模块,用于接收查询指令,基于所述医学语义词库存储模块对所述查询指令进行分析,生成分词组合;索引模块,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据;分布式索引数据存储模块,用于存储所述分词索引;搜索模块,用于对所述分词组合在所述分布式索引数据存储模块中搜索匹配,得到搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘辰辉王哲武靖毛进余可谊尹佳徐凯峰江伟朱祖懿周城朱卫国
申请(专利权)人:杏树林信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1