【技术实现步骤摘要】
药品分词搜索方法及系统
本申请涉及互联网
,特别涉及药品搜索
技术介绍
目前,通过互联网进行药品搜索已经越来越普遍,当前业界主流的分词方法,主要围绕着基于词典、基于统计、基于理解的三个方向在扩展和延伸,虽然这些常规的做法基本满足现代汉语、日常用语的分词,但由于药品搜索的特殊性,医药词汇有着偏僻词多、词义模糊、语义模糊等特点,造成现有模型无法满足医药行业的分词需求。例如,常见的药品名称:万高厄贝沙坦氢氯噻嗪分散片,许多分词器的原生模型得到的结果为(例如IK分词器):万,高,厄,贝,沙,坦,氢,氯,噻,嗪,分散,片。可见,这样的药品分词结果过于零散、模糊,用户输入药品名称时,只能搜索出包含这些字眼的内容,造成大量的相关性较弱的内容被召回回来,无法满足在搜索中精确搜索、丢词搜索的需求,迫使用户需要更改关键词进行多次搜索,影响体验的同时还加大了服务器的处理压力。
技术实现思路
本申请的目的在于提供一种药品分词搜索方法及系统,能够弥补现有技术中难以发现新词、标注不全面的弊端,对新词、 ...
【技术保护点】
1.一种药品分词搜索方法,其特征在于,包含:/n预先设定药品词典和规则词典,其中所述药品词典包括已标注的医药词条,所述规则词典包括剂型特征词、高频特征词和组成特征词;/n根据所述药品词典对输入的搜索字符串进行多路径分词,得到多路径分词结果,其中,如果所述多路径分词结果的最粗粒度路径中至少有一组连续单字的单字数量在预设范围内,则根据所述规则词典中的剂型特征词、高频特征词和组成特征词对所述搜索字符串进行分词,其中,如果相邻的特征词之间的连续单字的单字数量在预设范围内,则将所述相邻的特征词之间的连续单字合并为一个组合词,并将包含该组合词的分词结果作为一条新的路径加入到所述多路径分 ...
【技术特征摘要】
1.一种药品分词搜索方法,其特征在于,包含:
预先设定药品词典和规则词典,其中所述药品词典包括已标注的医药词条,所述规则词典包括剂型特征词、高频特征词和组成特征词;
根据所述药品词典对输入的搜索字符串进行多路径分词,得到多路径分词结果,其中,如果所述多路径分词结果的最粗粒度路径中至少有一组连续单字的单字数量在预设范围内,则根据所述规则词典中的剂型特征词、高频特征词和组成特征词对所述搜索字符串进行分词,其中,如果相邻的特征词之间的连续单字的单字数量在预设范围内,则将所述相邻的特征词之间的连续单字合并为一个组合词,并将包含该组合词的分词结果作为一条新的路径加入到所述多路径分词结果;
使用所述多路径分词结果进行药品搜索。
2.如权利要求1所述的药品分词搜索方法,其特征在于,所述设定规则词典,包含以下子步骤:
分别建立药品的剂型规则词表、药品的高频特征规则词表、以及药品的组成特征规则词表;以及
将所述药品的剂型规则词表、药品的高频特征规则词表、以及药品的组成特征规则词表的数据进行合并,生成规则词典。
3.如权利要求1所述的药品分词搜索方法,其特征在于,所述根据所述药品词典对输入的搜索字符串进行多路径分词,进一步包括:
调用第一分词服务,通过加载常规的现代汉语分词模型,再增量装载药品词典,构建双数组Trie树,使所述第一分词服务基于所述现代汉语分词模型和药品词典对普通词条和已标注的医药词条进行切分处理,得到粗分词网;
使用正向/逆向最大粒度匹配原则选取最优的两条路径,所述路径按照粒度降序排列,当正向/逆向分词粒度大小一致时,根据概率模型计算概率,如果概率不同,则选取最大概率的词条组成分词结果,如果概率一样,则取逆向分词作为分词结果,得到最终的多分词路径;
对所述多分词路径的多条路径做排序,按粒度大小降序排列。
4.如权利要求3所述的药品分词搜索方法,其特征在于,所述根据所述规则词典中的特征词对所述搜索字符串进行分词,进一步包括:
使用第二分词服务,加载所述规则词典,构建双数组Trie树,使所述第二分词服务基于规则词典对未标注的医药词条进行切分处理,得到粗分词网;
使用正向/逆向最大粒度匹配原则选取最优路径,该路径按照粒度降序排列,当正向/逆向分词粒度大小一致时,根据概率模型计算概率,如果概率不同,则选取最大概率的词条组成分词结果,如果概率一样,则取逆向分词作为分词结果,得到最优路径分词结果;
对所述最优路径分词结果中不在规则词典中的连续单字做合并操作,得到一个或多个组合词,其中连续单字的数量在预设范围内。
5.如权利要求4所述的药品分词搜索方法,其特征在于,在所述根据所述药品词典对输入的搜索字符串进行多路径分词,得到多路径分词结果的步骤之前,还包含以下步骤:
对已有的药品建立药品索引,其中,所述药品索引的索引分词是所述第一分词服务的索引分词与所述第二分词服务的索引分词的并集。
6.如权利要求1所述的药品分词搜索方法,其特征在于,所述根据所述药品词典对输入的搜索字符串进行多路径分词,进一步包括:
使用所述药品词典对搜索字符串做词典全切分后,得到粗分词网;
使用正向/逆向最大粒度匹配...
【专利技术属性】
技术研发人员:卓建飞,胡茂华,王新岐,
申请(专利权)人:耀方信息技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。