一种基于自动标签和多模型融合的智能导诊算法制造技术

技术编号:20972606 阅读:31 留言:0更新日期:2019-04-29 17:49
本发明专利技术公开了一种基于自动标签和多模型融合的智能导诊算法,包括步骤S200:数据标签增强和S300:多模型预测融合的步骤。所述步骤S200中从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本发明专利技术采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。所述步骤300中首先进行单数据源内模型融合,而后进行跨数据源模型融合,本发明专利技术采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。

An Intelligent Guidance Algorithm Based on Automatic Label and Multi-model Fusion

The invention discloses an intelligent guidance algorithm based on automatic label and multi-model fusion, which includes steps of data label enhancement and multi-model prediction fusion. In the second 200, from the perspective of semantic vectors, tag calibration and enhancement within a single data source is carried out; tag enhancement across data sources is carried out from the perspective of multi-data source differences; the present invention adopts single data source and cross-data source tag enhancement technology to substantially calibrate pre-tagged data so as to ensure tag accuracy. In step 300, model fusion within a single data source is carried out first, and then model fusion across data sources is carried out. The multi-model fusion technology is adopted to greatly improve the accuracy and robustness of model prediction.

【技术实现步骤摘要】
一种基于自动标签和多模型融合的智能导诊算法
本专利技术属于多模型融合的
,具体涉及一种基于自动标签和多模型融合的智能导诊算法。
技术介绍
在就诊过程中,许多患者经常遇到选择科室的困惑;医疗知识过于专业,疾病临床表现复杂,存在大量疾病具有相似症状的情况,从而造成患者在选择科室时的困惑甚至错误;目前,人工导诊,不仅耗时耗力,且大大影响医疗服务效率和患者就医体验;而现有的机器导诊,大多基于有监督算法,其过于依赖海量的高质量医疗标注数据。为此我们设计一种无需人工标注的智能导诊算法,其基于自动标签和多模型融合技术,解决了该问题。使得医疗资源与医疗需求高效匹配,节省人力物力,大大提高诊疗效率和就医体验。
技术实现思路
本专利技术的目的在于提供一种基于自动标签和多模型融合的智能导诊算法,本专利技术采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本专利技术采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。本专利技术主要通过以下技术方案实现:一种基于自动标签和多模型融合的智能导诊算法,主要包括以下步骤:步骤S200:数据标签增强:每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签步骤S300:多模型预测融合:针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。为了更好的实现本专利技术,进一步的,所述步骤S200中基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签。为了更好的实现本专利技术,进一步的,所述步骤S300中针对多个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。为了更好的实现本专利技术,进一步的,还包括以下步骤:步骤S100:自动标签:爬取医疗领域网站的数据库,构建基础数据库,爬取网络咨询数据并作为训练数据;针对不同数据源进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合预标注数据。为了更好的实现本专利技术,进一步的,所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。为了更好的实现本专利技术,进一步的,所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。本专利技术的目的在于解决人工导诊耗时耗力及机器导诊对海量标注数据的依赖,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。本专利技术技术流程可分为三个方面:自动标签、数据标签增强、多模型预测融合。1)自动标签a)爬取医疗领域相关网站海量数据,构建基础数据集;b)爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据,包括(患者问题描述、患者个人信息、所属科室),作为预标注的训练数据;c)针对不同数据源,进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合上述的预标注数据。2)数据标签增强a)基于医疗基础数据集,训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源内,基于语义向量,计算患者信息相似度;选择相似度大于一定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签。如图1。b)每个数据源分别训练textcnn、lstm、dpcnn模型,共12个模型;针对每个数据源样本,利用其它数据源的9个模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于一定阈值,且与原标签不一致时,纠正原标签为最大概率标签。如图2。3)多模型预测融合a)针对上述结果,每个数据源重新训练textcnn、lstm、dpcnn模型;针对每个数据源,在三个模型基础上添加线性加权层,并从剩余数据源中随机筛选其它9个模型预测较为一致的样本,用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。如图3。b)针对四个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。如图4。本专利技术的有益效果:(1)本专利技术采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本专利技术采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。(2)本专利技术解决了人工导诊耗时耗力及机器导诊对海量标注数据的依赖的问题,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。(3)步骤S100:自动标签:从网络医疗网站,爬取公开数据;无需人工标注数据,全量数据用于训练语义向量,网络咨询数据作为预标注数据。本专利技术爬取医疗网站咨询数据,作为预标注数据,无需人工标注数据,实现自动标签,具有较好的实用性。(4)步骤S200从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本专利技术采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。(5)步骤S300首先进行单数据源内模型融合,而后进行跨数据源模型融合。本专利技术采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。附图说明图1为本专利技术的单数据源内标签增强流程图;图2为本专利技术的跨数据源标签增强流程图;图3为本专利技术的单数据源内模型融合流程图;图4为本专利技术的跨数据源模型融合流程图。具体实施方式实施例1:一种基于自动标签和多模型融合的智能导诊算法,主要包括以下步骤:步骤S200:数据标签增强:如图1所示,基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签;如图2所示,每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签;所述步骤S200从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本专利技术采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。步骤S300:多模型预测融合:如图3所示,针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。本专利技术采用单数据源、跨数据源标签增强技术,大幅度校正预标本文档来自技高网...

【技术保护点】
1.一种基于自动标签和多模型融合的智能导诊算法,其特征在于,主要包括以下步骤:步骤S200:数据标签增强:基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签;每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签;步骤S300:多模型预测融合:针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。

【技术特征摘要】
1.一种基于自动标签和多模型融合的智能导诊算法,其特征在于,主要包括以下步骤:步骤S200:数据标签增强:基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签;每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签;步骤S300:多模型预测融合:针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样...

【专利技术属性】
技术研发人员:高登科
申请(专利权)人:成都睿码科技有限责任公司杭州数峰科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1