基于临床数据与多语料验证低噪知识识别模型及建立方法技术

技术编号：33123160 阅读：19 留言：0更新日期：2022-04-17 00:28

本发明专利技术涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法，对多个医疗知识来源语料利用知识图谱分别进行来源语料中语句中知识关系进行初步识别学习，再利用临床数据中准确性高的关系组合用于权重分配，降低初步识别关系错误的频率，最后利用专家数据作为验证集，对每个来源语料的识别差异性进行准确性评估，提高识别关系的准确性。通过医疗多语料集成的方法降低误差，并融合实际病例数据进行有效性评估，提升关系识别的表现以及医疗知识的精度，为后续医保风控辅助支持提供有力的保障。的保障。的保障。

全部详细技术资料下载

【技术实现步骤摘要】
基于临床数据与多语料验证低噪知识识别模型及建立方法

[0001]本专利技术涉及一种医疗知识风控技术，特别涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法。

技术介绍

[0002]在医保风控领域，常规利用机器学习、风险模型、图像等技术对识别欺诈、套取、滥用行为做出识别，然而这种做法还存在着解释性差和循证能力不足的问题，通常做法还需额外引进专家知识对模型进行指导。
[0003]随着数字化时代的发展，将临床数据、临床指南、药品说明书等多渠道知识通过大数据技术和知识图谱技术进行结合，自动化地将临床诊疗知识应用于实用领域中，已经成为可能。通过对核心医学概念的全面覆盖并构建综合智能医疗系统，能够对医疗保险风控提供有力的知识层面的辅助支撑。因此亟需将AI+医疗快速落地，构建一个高覆盖、多领域、高精度和可扩展的医疗知识图谱。
[0004]在实际操作中，构建医疗知识图谱过程中所面临的核心问题是人工标注数据不足，绝大部分知识语料缺乏验证和有效性评估，其存在的大量噪音也损害了用其所构建的医疗知识图谱知识的准确性，并且为保证准确性大规模利用专家来矫正知识准确性是费时费力且效率低下的方法，不适用智能医疗系统的建立。

技术实现思路

[0005]为了提高医疗知识图谱知识的准确性，提出了一种基于临床数据与多语料验证低噪知识识别模型及建立方法,通过医疗多语料集成的方法降低误差，并融合实际病例数据、专家验证进行有效性评估，提升关系识别的表现以及医疗知识的精度，为后续医保风控辅助支持提供有力的保障。
[0...

【技术保护点】

【技术特征摘要】
1.一种基于临床数据与多语料验证低噪知识识别模型，其特征在于，医疗知识来源语料为K个，低噪知识识别模型包含K个语句关系分类模型、一个专家对K个语句关系分类模型评定的准确性矩阵和融合预测模型，待测语句送入K个语句关系分类模型，输出分类结果通过融合预测模型将其与所述准确性矩阵进行融合，识别出待测语句的知识关系。2.根据权利要求1所述基于临床数据与多语料验证低噪知识识别模型，其特征在于，所述语句关系分类模型利用知识图谱对来源语料中语句中知识关系进行初步识别学习，再利用临床数据中准确性高低关系组合用于权重分配获得。3.一种基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，获取多个医疗知识来源语料，对各个语料源数据利用知识图谱里的三元组半结构化数据进行数据处理，三元组包括两实体以及实体间的关系类型，将关系类型定义为标签；然后对各个语料源数据根据文本结构进行关系抽取构成包含噪音的训练数据；对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练，得到语料源数据的所有词语、所在句子以及头实体的向量表示；利用临床数据获取包含噪音的训练数据中抽取的目标三元组在临床数据中出现的频次作为识别训练模型的权重；利用包含噪音的训练数据、语料源数据的向量表示以及从临床数据获得的权重，对各个语料源数据进行训练后获取各个语料源数据对应的基础标签分类模型；以专家标注数据作为验证集，对各个语料源数据对应的基础标签分类模型表现进行准确性校验、评估，对所有基础标签分类模型中不同关系类型预测的准确性指标构建一个准确性矩阵；最终利用多个语料数据关系的基础标签分类模型和对应的准确性矩阵进行融合预测，获取最终语句中知识关系。4.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述构成包含噪音的训练数据的具体方法：知识图谱里的三元组：(E
i1
，E
i2
，R
i
)中的其中一个实体E
i1
以及关系R
i
，通过实体E
i1
提及匹配技术，对语料源数据进行查找定位，随后在实体E
i1
定位到的语料单元格中对另一个实体E
i2
进行查找，如果在该语料单元格找到，则将该三元组和所处语料单元格的句子加入训练语料中，其标签为R
i
；对于从同语料单元格找到的在知识图谱中与实体E
i1
无法匹配的实体E
i
'2,构成三元组(E
i1
，E
i
'2，R
i
')其中R
i
'为无关系类型。5.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,通过最大化目标函数词向量模型得到语料源数据的所有词语、所在句子以及头实体的向量表示。6.根据根据权利要求5所述基于临床数据与多语料验证低噪知识识别模型建立方法，其特征在于，所述目标函数A为对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,其中，语料源数据中包含J个句子，N
j
个词；W
t,j
表示语料源数据中第j个句子中第t个词的向量表示；d
j
代表语料源数据中的第j个句子的向量表示；h
s
...

【专利技术属性】
技术研发人员：张李军，赵蒙海，
申请(专利权)人：上海金仕达卫宁软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人