基于临床数据与多语料验证低噪知识识别模型及建立方法技术

技术编号:33123160 阅读:19 留言:0更新日期:2022-04-17 00:28
本发明专利技术涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法,对多个医疗知识来源语料利用知识图谱分别进行来源语料中语句中知识关系进行初步识别学习,再利用临床数据中准确性高的关系组合用于权重分配,降低初步识别关系错误的频率,最后利用专家数据作为验证集,对每个来源语料的识别差异性进行准确性评估,提高识别关系的准确性。通过医疗多语料集成的方法降低误差,并融合实际病例数据进行有效性评估,提升关系识别的表现以及医疗知识的精度,为后续医保风控辅助支持提供有力的保障。的保障。的保障。

【技术实现步骤摘要】
基于临床数据与多语料验证低噪知识识别模型及建立方法


[0001]本专利技术涉及一种医疗知识风控技术,特别涉及一种基于临床数据与多语料验证低噪知识识别模型及建立方法。

技术介绍

[0002]在医保风控领域,常规利用机器学习、风险模型、图像等技术对识别欺诈、套取、滥用行为做出识别,然而这种做法还存在着解释性差和循证能力不足的问题,通常做法还需额外引进专家知识对模型进行指导。
[0003]随着数字化时代的发展,将临床数据、临床指南、药品说明书等多渠道知识通过大数据技术和知识图谱技术进行结合,自动化地将临床诊疗知识应用于实用领域中,已经成为可能。通过对核心医学概念的全面覆盖并构建综合智能医疗系统,能够对医疗保险风控提供有力的知识层面的辅助支撑。因此亟需将AI+医疗快速落地,构建一个高覆盖、多领域、高精度和可扩展的医疗知识图谱。
[0004]在实际操作中,构建医疗知识图谱过程中所面临的核心问题是人工标注数据不足,绝大部分知识语料缺乏验证和有效性评估,其存在的大量噪音也损害了用其所构建的医疗知识图谱知识的准确性,并且为保证准确性大规模利用专家来矫正知识准确性是费时费力且效率低下的方法,不适用智能医疗系统的建立。

技术实现思路

[0005]为了提高医疗知识图谱知识的准确性,提出了一种基于临床数据与多语料验证低噪知识识别模型及建立方法,通过医疗多语料集成的方法降低误差,并融合实际病例数据、专家验证进行有效性评估,提升关系识别的表现以及医疗知识的精度,为后续医保风控辅助支持提供有力的保障。
[0006]本专利技术的技术方案为:一种基于临床数据与多语料验证低噪知识识别模型,医疗知识来源语料为K个,低噪知识识别模型包含K个语句关系分类模型、一个专家对K个语句关系分类模型评定的准确性矩阵和融合预测模型,待测语句送入K个语句关系分类模型,输出分类结果通过融合预测模型将其与所述准确性矩阵进行融合,识别出待测语句的知识关系。
[0007]优选的,所述语句关系分类模型利用知识图谱对来源语料中语句中知识关系进行初步识别学习,再利用临床数据中准确性高低关系组合用于权重分配获得。
[0008]一种基于临床数据与多语料验证低噪知识识别模型建立方法,获取多个医疗知识来源语料,对各个语料源数据利用知识图谱里的三元组半结构化数据进行数据处理,三元组包括两实体以及实体间的关系类型,将关系类型定义为标签;然后对各个语料源数据根据文本结构进行关系抽取构成包含噪音的训练数据;对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,得到语料源数据的所有词语、所在句子以及头实体的向量表示;利用临床数据获取包含噪音的训练数据中抽取的目标三元组在临床数据中出
现的频次作为识别训练模型的权重;利用包含噪音的训练数据、语料源数据的向量表示以及从临床数据获得的权重,对各个语料源数据进行训练后获取各个语料源数据对应的基础标签分类模型;以专家标注数据作为验证集,对各个语料源数据对应的基础标签分类模型表现进行准确性校验、评估,对所有基础标签分类模型中不同关系类型预测的准确性指标构建一个准确性矩阵;最终利用多个语料数据关系的基础标签分类模型和对应的准确性矩阵进行融合预测,获取最终语句中知识关系。
[0009]进一步,所述构成包含噪音的训练数据的具体方法:
[0010]知识图谱里的三元组:(E
i1
,E
i2
,R
i
)中的其中一个实体E
i1
以及关系R
i
,通过实体E
i1
提及匹配技术,对语料源数据进行查找定位,随后在实体E
i1
定位到的语料单元格中对另一个实体E
i2
进行查找,如果在该语料单元格找到,则将该三元组和所处语料单元格的句子加入训练语料中,其标签为R
i
;对于从同语料单元格找到的在知识图谱中与实体E
i1
无法匹配的实体E'
i2
,构成三元组(E
i1
,E'
i2
,R'
i
)其中R'
i
为无关系类型。
[0011]进一步,所述对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,通过最大化目标函数词向量模型得到语料源数据的所有词语、所在句子以及头实体的向量表示。
[0012]进一步,所述目标函数A为对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,
[0013][0014]其中,语料源数据中包含J个句子,N
j
个词;W
t,j
表示语料源数据中第j个句子中第t个词的向量表示;d
j
代表语料源数据中的第j个句子的向量表示;h
s
表示与句子j匹配的第s个头实体。
[0015]进一步,所述基础标签分类模型训练方法如下:
[0016]首先、分类标签的构建:对训练数据的关系类型进行one

hot编码,则每个标签表示为一个长度为N
classes
+1的一维向量标签y
i
,通过训练一个深度学习分类模型f
θ
(v
i1
,v
i2
,s
i
),输入词向量、句向量和头实体的向量对对应的标签进行拟合,得到估计的一维向量标签然后、融合临床数据的训练,得到训练数据三元组的权重调整分类基础的交叉熵损失函数,并由此来训练模型参数,具体做法如下:
[0017]损失函数基于交叉熵损失函数进行调整,构建噪音一维向量标签y
i
和当前模型预测的一维向量标签的线性凸组合来替代噪音标签,对交叉熵损失进行更新:
[0018]设θ
(t)
为模型可训练参数在第t次迭代的值,通过如下两步交替进行该迭代算法:
[0019]1)通过上一次迭代得到的对标签预测值更新噪音标签和预测标签的凸组合,从而得到更新的损失函数,对当前分类模型参数利用mini

batch随机梯度下降进行更新,得到新的模型参数θ
(t)
及对应的分类模型
[0020]2)下一轮用最新的模型对标签进行重新预测,得到预测值然后继续步1);
[0021]参数为样例i的权重,该权重是临床数据中出现的频次F
i
的单调增函数,样例i对应的(E
i1
,E
i2
,R
i
)在临床数据的出现次数F
i
越高,则认为该条关系的可信度越高,故β
i
更高,赋予该噪音标签更高的权重,同时通过σ(β
i
)赋予该例子在损失函数中更高的权重,其中σ(β
i
)为有截尾的高斯变换,
[0022]进一步,所述准确性矩阵建立方法:医疗知识来源语料为K个,对K个基础标签分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于临床数据与多语料验证低噪知识识别模型,其特征在于,医疗知识来源语料为K个,低噪知识识别模型包含K个语句关系分类模型、一个专家对K个语句关系分类模型评定的准确性矩阵和融合预测模型,待测语句送入K个语句关系分类模型,输出分类结果通过融合预测模型将其与所述准确性矩阵进行融合,识别出待测语句的知识关系。2.根据权利要求1所述基于临床数据与多语料验证低噪知识识别模型,其特征在于,所述语句关系分类模型利用知识图谱对来源语料中语句中知识关系进行初步识别学习,再利用临床数据中准确性高低关系组合用于权重分配获得。3.一种基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,获取多个医疗知识来源语料,对各个语料源数据利用知识图谱里的三元组半结构化数据进行数据处理,三元组包括两实体以及实体间的关系类型,将关系类型定义为标签;然后对各个语料源数据根据文本结构进行关系抽取构成包含噪音的训练数据;对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,得到语料源数据的所有词语、所在句子以及头实体的向量表示;利用临床数据获取包含噪音的训练数据中抽取的目标三元组在临床数据中出现的频次作为识别训练模型的权重;利用包含噪音的训练数据、语料源数据的向量表示以及从临床数据获得的权重,对各个语料源数据进行训练后获取各个语料源数据对应的基础标签分类模型;以专家标注数据作为验证集,对各个语料源数据对应的基础标签分类模型表现进行准确性校验、评估,对所有基础标签分类模型中不同关系类型预测的准确性指标构建一个准确性矩阵;最终利用多个语料数据关系的基础标签分类模型和对应的准确性矩阵进行融合预测,获取最终语句中知识关系。4.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述构成包含噪音的训练数据的具体方法:知识图谱里的三元组:(E
i1
,E
i2
,R
i
)中的其中一个实体E
i1
以及关系R
i
,通过实体E
i1
提及匹配技术,对语料源数据进行查找定位,随后在实体E
i1
定位到的语料单元格中对另一个实体E
i2
进行查找,如果在该语料单元格找到,则将该三元组和所处语料单元格的句子加入训练语料中,其标签为R
i
;对于从同语料单元格找到的在知识图谱中与实体E
i1
无法匹配的实体E
i
'2,构成三元组(E
i1
,E
i
'2,R
i
')其中R
i
'为无关系类型。5.根据权利要求3所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述对所有半结构化语料源数据的词语、句子及头实体词进行句向量模型训练,通过最大化目标函数词向量模型得到语料源数据的所有词语、所在句子以及头实体的向量表示。6.根据根据权利要求5所述基于临床数据与多语料验证低噪知识识别模型建立方法,其特征在于,所述目标函数A为对所有句子的所有词向量基于窗口长度k的周边词和所在句子的向量的条件概率p的加总,其中,语料源数据中包含J个句子,N
j
个词;W
t,j
表示语料源数据中第j个句子中第t个词的向量表示;d
j
代表语料源数据中的第j个句子的向量表示;h
s
...

【专利技术属性】
技术研发人员:张李军赵蒙海
申请(专利权)人:上海金仕达卫宁软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1