【技术实现步骤摘要】
一种术后风险预测自然语言数据增强模型及方法
[0001]本专利技术涉及信息处理
,具体的说,涉及一种术后风险预测自然语言数据增强模型及方法。
技术介绍
[0002]术后风险预估通常被视为一个二分类的任务。统计机器学习模型被广泛地应用来解决这个问题,例如逻辑回归(Logistic Regression,ession,LR)和极致梯度提升(eXtreme Gradient Boosting,XGBoost)。基于向量的LR方法将离散型和连续型变量都进行标准化处理后输入到模型,基于树模型的XGBoost模型直接利用结构化的数据进行训练。
[0003]在最近的研究工作中,因为深度学习其自身的复杂的特征表达能力和预测性能,有许多研究人员开始利用深度学习来解决预测病人术后风险的问题。在这些研究当中,围术期的表格数据是主要的数据来源,它包含了患者的基本信息、实验室检查值以及许多其他的离散型和数值型特征。通常对于离散型变量的处理是进行向量化处理将其变成独热向量或者分布式向量,对于连续型则是进行一个批标准化的处理方式。最后将连续 ...
【技术保护点】
【技术特征摘要】
1.一种术后风险预测自然语言数据增强模型,其特征在于,所述模型包括:离散化层,被配置为,将围术期下的表格数据的连续型特征转化为分类型特征;列嵌入层,被配置为,将围术期下的表格数据的离散型特征转换为离散型特征向量,以及将所述分类型特征转换为分类型特征向量,获得向量嵌入 ,其中指代离散型特征向量和分类型特征向量,的范围属于1到m + n,m为连续型特征数量,n为离散型特征数量;文本嵌入层,被配置为,基于术前诊断文本上下文来确定词嵌入;并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;特征交互层,被配置为,通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。2.根据权利要求1所述的模型,其特征在于,所述三个向量矩阵均由查询向量、键向量和值向量组成。3.根据权利要求1所述的模型,其特征在于,所述离散化层,被配置为,根据数值特征的最大值和最小值将连续型特征转化为分类型特征。4.根据权利要求1所述的模型,其特征在于,所述文本嵌入层,被配置为,基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。5.根据权利要求1所述的模型,其特征在于,所述模型还包括多层感知机,所述多层感知机被配置为,根据所述语义向量来得到术后风险...
【专利技术属性】
技术研发人员:郝学超,王亚强,杨潇,朱涛,舒红平,
申请(专利权)人:成都信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。