【技术实现步骤摘要】
特征提取模型的训练方法、医保风险识别方法及装置
[0001]本公开涉及金融领域及人工智能
,更具体地涉及一种特征提取模型的训练方法、医保风险识别方法、装置、设备、介质和程序产品。
技术介绍
[0002]医保监管一直是一个非常有挑战性的问题,主要体现在医保报销骗保现象严重且隐蔽,欺诈分子可能是医务人员或参保人,熟悉医疗知识和医保逻辑,导致现象稽查越来越难;而且保险监管手段比较单一,主要是事后人工监察,覆盖程度不高。
[0003]因此在宏观指标监管之外,业内采取建立机器学习风险识别模型对每一个报销单据进行风险的判定。大多数欺诈行为的判定可以归类为监督学习中的分类问题,综合运用专家规则,大数据分析和深度学习领域的算法,以参保人当次报销或者前后一段时间的报销单据为样本,针对每个欺诈违规行为建立风险判定器,对所有上述欺诈行为进行概率评定,输出每个违规行为的风险概率。
[0004]目前机器学习风险识别模型处于起步阶段,疾病种类繁多,为分类模型的准确率带来了严峻挑战。数据多模态,数值型、文本型等多种类型数据的混合,特 ...
【技术保护点】
【技术特征摘要】
1.一种特征提取模型的训练方法,包括:获取对第一历史医疗信息进行预处理得到的第一描述信息,其中,所述第一描述信息用于描述用户针对医保项目消耗的资源信息,其中,相同所述资源信息对应多种不同的所述第一描述信息;基于所述第一描述信息,生成分词编码数据,其中,相同所述资源信息对应唯一的所述分词编码数据;以及利用所述分词编码数据训练待训练的特征提取模型,得到训练完成的特征提取模型,其中,所述特征提取模型用于提取所述分词编码数据的向量化特征。2.根据权利要求1所述的方法,其中,所述待训练的特征提取模型的隐藏层包括固定参数隐藏层和可调参数隐藏层,其中,所述可调参数隐藏层包括多层隐藏层;所述利用所述分词编码数据训练待训练的特征提取模型,得到训练完成的特征提取模型包括:迭代地执行至少一次以下操作:按照第一预设规则,从所述可调参数隐藏层中确定目标可调参数隐藏层;以及将所述分词编码数据输入所述待训练的特征提取模型,以便对所述目标可调参数隐藏层的网络参数进行调整;基于所述特征提取模型的输出来确定是否满足收敛条件;在不满足所述收敛条件的情况下,重新确定所述目标可调参数隐藏层;在满足所述收敛条件的情况下,将与所述满足收敛条件的验证结果对应的特征提取模型作为所述训练完成的特征提取模型。3.根据权利要求2所述的方法,其中,所述收敛条件包括以下任意一种或多种:所述可调参数隐藏层中的每层隐藏层的网络参数均被调整;所述特征提取模型的输出结果满足第一预设条件。4.根据权利要求2所述的方法,其中,所述目标可调参数隐藏层设置有第一学习率,其中,所述第一学习率表征以第一步长调整所述目标可调参数隐藏层的网络参数;所述方法还包括:为重新确定的所述目标可调参数隐藏层设置第二学习率,其中,所述第二学习率表征以第二步长调整所述重新确定的目标可调参数隐藏层的网络参数。5.根据权利要求1所述的方法,其中,所述基于所述第一描述信息,生成分词编码数据包括:将所述第一描述信息转换为第一编码数据;按照第二预设规则将所述第一编码数据划分成多个第一子编码数据;将所述多个第一子编码数据与预先配置的对比模板进行对比,生成多个对比结果;在所述多个对比结果中至少一个所述对比结果满足第二预设条件的情况下,获取与满足所述预设条件的对比结果对应的目标子编码数据;将所述目标子编码数据确定为所述分词编码数据。6.根据权利要求5所述的方法,在所述多个对比结果均不满足所述第二预设条件的情况下,按照第三预设规则将所述第一编码数据划分成多个第二子编码数据,以便从所述多个第二子编码数据中确定所述分词编码数据。
7.根据权利要求1所述的方法,其中,所述第一描述信息是通过对所述第一历史医疗信息执行以下预处理操作生成的:将所述第一历史医疗信息与标准模板...
【专利技术属性】
技术研发人员:王雅楠,权爱荣,马晓楠,张华,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。