一种基于自动标签和多模型融合的智能导诊算法制造技术

技术编号：20972606 阅读：31 留言：0更新日期：2019-04-29 17:49

本发明专利技术公开了一种基于自动标签和多模型融合的智能导诊算法，包括步骤S200：数据标签增强和S300：多模型预测融合的步骤。所述步骤S200中从语义向量角度，进行单数据源内标签校正增强；从多数据源差异角度，进行跨数据源标签增强；本发明专利技术采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证。所述步骤300中首先进行单数据源内模型融合，而后进行跨数据源模型融合，本发明专利技术采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。

An Intelligent Guidance Algorithm Based on Automatic Label and Multi-model Fusion

The invention discloses an intelligent guidance algorithm based on automatic label and multi-model fusion, which includes steps of data label enhancement and multi-model prediction fusion. In the second 200, from the perspective of semantic vectors, tag calibration and enhancement within a single data source is carried out; tag enhancement across data sources is carried out from the perspective of multi-data source differences; the present invention adopts single data source and cross-data source tag enhancement technology to substantially calibrate pre-tagged data so as to ensure tag accuracy. In step 300, model fusion within a single data source is carried out first, and then model fusion across data sources is carried out. The multi-model fusion technology is adopted to greatly improve the accuracy and robustness of model prediction.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自动标签和多模型融合的智能导诊算法
本专利技术属于多模型融合的
，具体涉及一种基于自动标签和多模型融合的智能导诊算法。
技术介绍
在就诊过程中，许多患者经常遇到选择科室的困惑；医疗知识过于专业，疾病临床表现复杂，存在大量疾病具有相似症状的情况，从而造成患者在选择科室时的困惑甚至错误；目前，人工导诊，不仅耗时耗力，且大大影响医疗服务效率和患者就医体验；而现有的机器导诊，大多基于有监督算法，其过于依赖海量的高质量医疗标注数据。为此我们设计一种无需人工标注的智能导诊算法，其基于自动标签和多模型融合技术，解决了该问题。使得医疗资源与医疗需求高效匹配，节省人力物力，大大提高诊疗效率和就医体验。
技术实现思路
本专利技术的目的在于提供一种基于自动标签和多模型融合的智能导诊算法，本专利技术采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证；本专利技术采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。本专利技术主要通过以下技术方案实现：一种基于自动标签和多模型融合的智能导诊算法，主要包括以下步骤：步骤S200：数据标签增强：每个数据源分别训练textcnn、dppcnn、dpcnn模型；针对每个数据源样本，利用其它数据源的模型进行预测，并合并统计预测标签概率分布；当最大概率与第二大概率差值大于设定阈值，且与原标签不一致时，则纠正原标签为最大概率标签步骤S300：多模型预测融合：针对步骤S200中的结果，每个数据源重新训练textcnn、dppcnn、dpcnn模型；针对每个数据源，在三个模型的基础上添加线性加权层，并从剩余数据源中...

【技术保护点】
1.一种基于自动标签和多模型融合的智能导诊算法，其特征在于，主要包括以下步骤：步骤S200：数据标签增强：基于医疗基础数据集训练语义向量word2vec，并在网络咨询数据上微调语义向量；针对每个数据源，基于语义向量，计算患者信息相似度；选择相似度大于设定阈值的样本聚簇，并在每个簇内进行标签投票；当指定簇内最大标签比例大于指定阈值时，将该簇内样本均赋为其最大概率标签；每个数据源分别训练textcnn、dppcnn、dpcnn模型；针对每个数据源样本，利用其它数据源的模型进行预测，并合并统计预测标签概率分布；当最大概率与第二大概率差值大于设定阈值，且与原标签不一致时，则纠正原标签为最大概率标签；步骤S300：多模型预测融合：针对步骤S200中的结果，每个数据源重新训练textcnn、dppcnn、dpcnn模型；针对每个数据源，在三个模型的基础上添加线性加权层，并从剩余数据源中随机筛选其他模型预测较为一致的样本，并用这些样本训练线性加权层；每个数据源得到一个融合的预测模型。

【技术特征摘要】
1.一种基于自动标签和多模型融合的智能导诊算法，其特征在于，主要包括以下步骤：步骤S200：数据标签增强：基于医疗基础数据集训练语义向量word2vec，并在网络咨询数据上微调语义向量；针对每个数据源，基于语义向量，计算患者信息相似度；选择相似度大于设定阈值的样本聚簇，并在每个簇内进行标签投票；当指定簇内最大标签比例大于指定阈值时，将该簇内样本均赋为其最大概率标签；每个数据源分别训练textcnn、dppcnn、dpcnn模型；针对每个数据源样本，利用其它数据源的模型进行预测，并合并统计预测标签概率分布；当最大概率与第二大概率差值大于设定阈值，且与原标签不一致时，则纠正原标签为最大概率标签；步骤S300：多模型预测融合：针对步骤S200中的结果，每个数据源重新训练textcnn、dppcnn、dpcnn模型；针对每个数据源，在三个模型的基础上添加线性加权层，并从剩余数据源中随机筛选其他模型预测较为一致的样...

【专利技术属性】
技术研发人员：高登科，
申请(专利权)人：成都睿码科技有限责任公司，杭州数峰科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人