一种基于特病特药场景的搜索方法技术

技术编号:37296003 阅读:13 留言:0更新日期:2023-04-21 22:42
本发明专利技术公开了一种基于特病特药场景的搜索方法,包括步骤:获取用户输入的搜索关键词或文本,并对所述搜索关键词或文本进行清洗、过滤、剔除等预处理步骤,清洗过滤掉非必要的符号、空格及语气助词,并将特殊字符剔除;基于所述处理后的数据,在类目术语词库中进行词条词汇精准匹配,获取用户配置的最接近术语;重新封装检索条件,基于重新封装的检索条件通过数据接口接入召回排序识别系统,并进行召回&排序,并输出结果。本发明专利技术在搜索系统中采用加入对用户query查询语义的理解,对疾病、药品等术语使用归一化模型,通过包含语义纠错、归一、召回、排序的搜索功能,提升召回率。提升召回率。提升召回率。

【技术实现步骤摘要】
一种基于特病特药场景的搜索方法


[0001]本专利技术涉及特病特药场景领域,具体为一种基于特病特药场景的搜索方法。

技术介绍

[0002]特药,一般是治疗恶性肿瘤等重特大疾病的一些费用较高、疗效确切、副作用小且无其他治疗方案可替代的特效药。
[0003]传统针对特药场景的检索方法大多使用基于字符串匹配的方案,如搜索lcs,bm25等方法计算匹配度,使用倒排索引展示搜索信息,其中bm25是指输入问题Q0,在数据中去匹配其它Q时,可以用BM25进行排序。“BM”其实就是指Best Matching,BM25也称Okapi BM25。
[0004]但不管是lcs还是bm25,在匹配至特药领域时,都存在如下问题:
[0005]1、传统搜索基于字符缺语义上的理解,缺少没有关注用户自身病种、搜索行为,缺少对用户个性化需求的精准搜索排序。
[0006]2、传统搜索难以满足灵活复杂的用户或医药工作者对特病、特药的描述,由于特病特药场景癌种细分种类繁多,不同分期分型描述更是多样,需要使用不同的药品或治疗方案。如“鳞状非小细胞肺癌”可以,描述成“肺鳞癌”“肺癌鳞状细胞癌”等形式,而且传统的搜索方法无法满足从多维度,比如药品福利、患者权益等方向搜索出用户想要的结果。

技术实现思路

[0007]本专利技术的目的在于提供一种基于特病特药场景的搜索方法,以解决上述
技术介绍
中提出的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于特病特药场景的搜索方法,包括步骤:/>[0009]S1:获取用户输入的搜索关键词或文本,并对所述搜索关键词或文本进行清洗、过滤、剔除等预处理步骤,清洗过滤掉非必要的符号、空格及语气助词,并将特殊字符剔除;
[0010]S2:基于所述处理后的数据,在类目术语词库中进行词条词汇精准匹配,获取用户配置的最接近术语;
[0011]S3:重新封装检索条件,基于重新封装的检索条件通过数据接口接入召回排序识别系统,并进行召回&排序,并输出结果。
[0012]优选的,S1中非必要符合、空格包括零长度空格、零长度连接符、零长度非连接符。
[0013]优选的,S1中对特殊字符剔除的步骤具体步骤包括:对文本关键词进行特殊字符的清洗,当特殊字符为象形字形时,依据象形字表呈现的象形字形与原始字符的映射关系进行象形字形到原始字符的替换;当特殊字符为删除性字符时,根据不同删除性字符采用不同清洗方式,清洗方式包括:当删除性字符为退格字符,则将退格字符与该退格字符前一字符同时删除;当删除性字符为删除字符,则将删除字符与该删除字符后一字符同时删除。
[0014]优选的,S2中在类目术语词库中进行词条词汇精准匹配的具体过程包括:获取处理后的数据,根据皮尔逊相关系数算法计算所述数据相对于类目术语词库中其他词汇的相
关系数;通过预设的等级归类规则,将每两个词汇按照相关系数确定归类等级;根据预先设置的词汇提取规则,对词汇进行提取,并基于已提取的词汇确定至少一个关联搜索词汇;针对各关联搜索词汇,基于预先训练好的模型对当前关联搜索词汇进行处理,得到当前关联搜索词汇的待关联词向量;针对各待关联词向量,确定当前待关联词向量与每个待匹配实体信息相对应的至少一个特征向量之间的相似度值,该相似度值即为最接近术语,相似度值通过余弦相似度算法实现,即其中S1为当前待关联词向量,S2为每个待匹配实体信息相对应的特征向量。
[0015]优选的,S3中类目术语词库基于在目标识别场景下的N个术语词库,N为正整数,N个术语词库包括但不限于疾病术语词库、药品术语词库、权益术语词库、医院术语词库,N个术语词库内包含有若干规范化的术语及其别名,若干规范化的术语及其别名经拼音提取、字形提取、向量提取后输出。
[0016]优选的,类目术语词库提供两个接口,一路用于提供S1中的清洗、过滤等预处理步骤,另一路用于S3中召回排序识别系统的召回&排序过程,提供分词、监控/轮询词汇变化,加入词典重建索引等功能,召回排序识别系统基于类目术语词库提供的术语词库,并综合经验,构建药品、权益、医院、咨询以及经验词库于一体的检索系统。
[0017]优选的,S3中召回排序识别系统还接通业务数据库,业务数据库许嵩logstash/脚本数据同步,以及ES索引结构设计等步骤后接入召回排序识别系统。
[0018]优选的,S3中基于重新封装的检索条件通过数据接口接入召回排序识别系统,并通过召回排序识别系统基于检索逻辑以及排序策略进行检索识别,并将结果输出。
[0019]与现有技术相比,本专利技术的有益效果是:
[0020]1、本专利技术在实施方法中采用对搜索文本进行清洗、过滤、剔除等预处理步骤,采用剔除逻辑对文本模态数据进行特殊字符的处理,实现数据的深度清洗,避免了特殊字符对语义的影响,导致索引不准确。
[0021]2、本专利技术在搜索系统中采用加入对用户query查询语义的理解,对疾病、药品等术语使用归一化模型,通过包含语义纠错、归一、召回、排序的搜索功能,提升召回率,召回识别系统采用轻量级的模型,使用多模型加权的方案做召回,提取候选集top50,同时使用预训练模型对文本做嵌入同时融合用户相关信息的向量表示,倒排索引,从而得到用户搜索结果。
[0022]3、本专利技术在实施方法中采用皮尔逊相关系数算法计算所述数据相对于类目术语词库中其他词汇的相关系数,并通过预设的等级归类规则,将其归类,从而快速实现词汇的等级归类,以为后续关键搜索词汇的检索提供依据,同时,关联词汇基于相似度模型进行关联,能实现基于词汇的关联联想功能,引导出更为精准的搜索关键词,提升搜索效果和用户体验。
附图说明
[0023]图1为本专利技术的搜索方法流程图;
[0024]图2为本专利技术的系统方法原理框图;
[0025]图3为本专利技术实施例中特殊字符剔除逻辑图;
[0026]图4为本专利技术实施例中词汇精准匹配的具体过程图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]请参阅图1

2,本专利技术提供一种技术方案:一种基于特病特药场景的搜索方法,包括步骤:
[0029]S1:获取用户输入的搜索关键词或文本,并对所述搜索关键词或文本进行清洗、过滤、剔除等预处理步骤,清洗过滤掉非必要的符号、空格及语气助词,并将特殊字符剔除;
[0030]S2:基于所述处理后的数据,在类目术语词库中进行词条词汇精准匹配,获取用户配置的最接近术语;
[0031]S3:重新封装检索条件,基于重新封装的检索条件通过数据接口接入召回排序识别系统,并进行召回&排序,并输出结果。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于特病特药场景的搜索方法,其特征在于,包括步骤:S1:获取用户输入的搜索关键词或文本,并对所述搜索关键词或文本进行清洗、过滤、剔除等预处理步骤,清洗过滤掉非必要的符号、空格及语气助词,并将特殊字符剔除;S2:基于所述处理后的数据,在类目术语词库中进行词条词汇精准匹配,获取用户配置的最接近术语;S3:重新封装检索条件,基于重新封装的检索条件通过数据接口接入召回排序识别系统,并进行召回&排序,并输出结果。2.根据权利要求1所述的一种基于特病特药场景的搜索方法,其特征在于:所述S1中非必要符合、空格包括零长度空格、零长度连接符、零长度非连接符。3.根据权利要求1所述的一种基于特病特药场景的搜索方法,其特征在于:所述S1中对特殊字符剔除的步骤具体步骤包括:对文本关键词进行特殊字符的清洗,当特殊字符为象形字形时,依据象形字表呈现的象形字形与原始字符的映射关系进行象形字形到原始字符的替换;当特殊字符为删除性字符时,根据不同删除性字符采用不同清洗方式,清洗方式包括:当删除性字符为退格字符,则将退格字符与该退格字符前一字符同时删除;当删除性字符为删除字符,则将删除字符与该删除字符后一字符同时删除。4.根据权利要求1所述的一种基于特病特药场景的搜索方法,其特征在于:所述S2中在类目术语词库中进行词条词汇精准匹配的具体过程包括:获取处理后的数据,根据皮尔逊相关系数算法计算所述数据相对于类目术语词库中其他词汇的相关系数;通过预设的等级归类规则,将每两个词汇按照相关系数确定归类等级;根据预先设置的词汇提取规则,对词汇进行提取,并基于已提取的词汇确定至少一个关联搜索词汇;针对各关联搜索词汇,基于预先训练好的模型对当...

【专利技术属性】
技术研发人员:田东坡
申请(专利权)人:上海镁信健康科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1