基于半监督多任务学习的医疗数据分类模型的构建方法技术

技术编号：19859043 阅读：44 留言：0更新日期：2018-12-22 12:02

本发明专利技术公开了一种基于半监督多任务学习的医疗数据分类模型的构建方法，基于多任务最小二乘成支持向量机，对有标签数据和无标签数据进行训练。本发明专利技术具有以下优势：(1)通过使用混合的数据，来帮助模型更好的学习无标签数据；(2)通过引入多任务学习方法，使得模型能够利用相关任务的共享表示提高所有任务的效率；(3)由于最小二乘支持向量机把求解二次规划问题转化为了求解线性方程问题，有效降低了计算复杂度，减少了训练时间；(4)达到与单任务学习同等的性能，多任务学习需要更少的迭代次数和数据量。

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督多任务学习的医疗数据分类模型的构建方法
本专利技术属于半监督学习
，特别是涉及一种基于半监督多任务学习的医疗数据分类模型的构建方法。
技术介绍
半监督学习是监督学习与无监督学习相结合的一种学习方法，可以同时使用大量无标签数据和少量有标签数据来进行模式识别工作。由于真实应用中收集到的观测数据大多数是没有类别标记的，如果对这些样本进行人工标记，会造成人力物力的极大浪费。如果使用监督学习方法只对少量的有标签数据进行训练，这样训练出来的模型往往泛化能力很差，而且也是对无标签数据资源的极大浪费。因此，在有标签数据较少的情况下，如何利用大量无标签的数据来提高模型的学习性能已经引起越来越多的关注，半监督学习正是为了解决这一问题而提出的。多任务学习是和单任务学习相对的一种机器学习方法。在机器学习领域，标准的算法理论是一次学习一个任务。对于复杂的问题，也可以分解为简单且相互独立的子问题来单独解决，然后再合并结果，得到最初复杂问题的结果。这样做看似合理，其实是不正确的，因为现实世界中很多问题不能分解为一个一个独立的子问题，即使可以分解，各个子问题之间也是相互关联的，通过一些共享表示联系在一起。把现实问题当做一个个独立的单任务处理，忽略了问题之间所富含的丰富的关联信息。使用多任务学习不仅可以学到多个任务的共享表示，这个共享表示具有较强的抽象能力，能够适应多个不同但相关的目标，通常可以使训练获得的模型具有更好的泛化能力。此外，由于使用共享表示，多个任务同时进行预测时，减少了数据来源的数量以及整体模型参数的规模，使预测更加高效。因此，在多个应用领域中，可以利用多任务...

【技术保护点】
1.基于半监督多任务学习的医疗数据分类模型的构建方法，其特征在于，具体按照以下步骤进行：步骤一、指定参数γ，λ，使用多任务最小二乘支持向量机(MTLS‑SVM)对有标签数据进行训练，得到初始分类器SVM0；步骤二、指定参数γ1,γ2，用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习，计算每一个无标签样本的判别函数输出f(xi*)，用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注；在每次训练中，对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注，并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中，加入到新一轮的训练中，每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度；

【技术特征摘要】
1.基于半监督多任务学习的医疗数据分类模型的构建方法，其特征在于，具体按照以下步骤进行：步骤一、指定参数γ，λ，使用多任务最小二乘支持向量机(MTLS-SVM)对有标签数据进行训练，得到初始分类器SVM0；步骤二、指定参数γ1,γ2，用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习，计算每一个无标签样本的判别函数输出f(xi*)，用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注；在每次训练中，对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注，并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中，加入到新一轮的训练中，每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度；约束条件：约束条件：是初始分类器SVM0对每个分类任务i中所有无标签样本的数据的判别函数输出，γ1,γ2是决定标注区域的参数，其中0<γ1<max,0<γ2<min；是每个分类任务i中所有无标签样本的数据；步骤三、重置每个分类任务i中所有无标签样本的数据，对每个分类任务i中所有有标签的数据和步骤二加入的新标注的每个分类任务i中所有无标签样本的数据按照步骤一进行重新训练，得到分类器SVM1，对每个分类任务i中的每一个医疗数据样本进行分类，判断某一个早期标注的分类任务i中所有无标签样本的数据的标签值和分类器SVM1的判别函数输出的一致性，依据标签重置的法则确定每个分类任务i中的每一个医疗数据样本的标注；在每一轮训练中，将已标注的分类任务i中所有无标签样本的数据与本轮该数据的标注值进行比较，如果不一致，在早期迭代中出现误标情况，随后把不一致的分类任务i的样本标签重置为分类任务i的无标签样本，加入到后一轮的训练中，重置的分类任务i的无标签样本在未来某次训练中得到更为可靠的标注；步骤四、用区域标注法寻找当前边界区域内符合新加标注条件的未加标注的分类任务i的无标签样本，如果存在符合新加标注条件的未加标注的分类任务i的无标签样本，则对其加以标注并返回步骤三；如果不存在，则用当前的分类器SVM1对分类任务i中剩下的全部无标签样本做分类并加标签，计算过程结束，并输出结果，初始分类器SVM0和分类器SVM1为最终得到医疗数据分类模型。2.根据权利要求1所述的基于半监督多任务学习的医疗数据分类模型的构建方法，其特征在于，所述步骤一为学习每一种疾病的数据为一个单任务，有N个相关的医疗数据分类任务，每个分类任务i的分类超平面由一个公共函数ω0Tφ0(x)+b0和一个私有函数viTφi(x)+bi构成...

【专利技术属性】
技术研发人员：杨云，贾雪阔，
申请(专利权)人：云南大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人