当前位置: 首页 > 专利查询>云南大学专利>正文

基于半监督多任务学习的医疗数据分类模型的构建方法技术

技术编号:19859043 阅读:44 留言:0更新日期:2018-12-22 12:02
本发明专利技术公开了一种基于半监督多任务学习的医疗数据分类模型的构建方法,基于多任务最小二乘成支持向量机,对有标签数据和无标签数据进行训练。本发明专利技术具有以下优势:(1)通过使用混合的数据,来帮助模型更好的学习无标签数据;(2)通过引入多任务学习方法,使得模型能够利用相关任务的共享表示提高所有任务的效率;(3)由于最小二乘支持向量机把求解二次规划问题转化为了求解线性方程问题,有效降低了计算复杂度,减少了训练时间;(4)达到与单任务学习同等的性能,多任务学习需要更少的迭代次数和数据量。

【技术实现步骤摘要】
基于半监督多任务学习的医疗数据分类模型的构建方法
本专利技术属于半监督学习
,特别是涉及一种基于半监督多任务学习的医疗数据分类模型的构建方法。
技术介绍
半监督学习是监督学习与无监督学习相结合的一种学习方法,可以同时使用大量无标签数据和少量有标签数据来进行模式识别工作。由于真实应用中收集到的观测数据大多数是没有类别标记的,如果对这些样本进行人工标记,会造成人力物力的极大浪费。如果使用监督学习方法只对少量的有标签数据进行训练,这样训练出来的模型往往泛化能力很差,而且也是对无标签数据资源的极大浪费。因此,在有标签数据较少的情况下,如何利用大量无标签的数据来提高模型的学习性能已经引起越来越多的关注,半监督学习正是为了解决这一问题而提出的。多任务学习是和单任务学习相对的一种机器学习方法。在机器学习领域,标准的算法理论是一次学习一个任务。对于复杂的问题,也可以分解为简单且相互独立的子问题来单独解决,然后再合并结果,得到最初复杂问题的结果。这样做看似合理,其实是不正确的,因为现实世界中很多问题不能分解为一个一个独立的子问题,即使可以分解,各个子问题之间也是相互关联的,通过一些共享表示联系在一起。把现实问题当做一个个独立的单任务处理,忽略了问题之间所富含的丰富的关联信息。使用多任务学习不仅可以学到多个任务的共享表示,这个共享表示具有较强的抽象能力,能够适应多个不同但相关的目标,通常可以使训练获得的模型具有更好的泛化能力。此外,由于使用共享表示,多个任务同时进行预测时,减少了数据来源的数量以及整体模型参数的规模,使预测更加高效。因此,在多个应用领域中,可以利用多任务学习来提高效果或性能,比如垃圾邮件过滤、网页检索、自然语言处理、图像识别、语音识别、医疗预测等。现在90%的多任务学习算法都属于监督学习领域,随着研究的深入,半监督多任务学习领域引起了人们极大的关注。由于此项研究领域具有较高的理论研究与实际应用价值,因此根据实际需求研究人员提出了半监督支持向量机,比较经典的是直推式支持向量机,但是该算法的一个主要的缺陷在于,在训练开始前必须人为的指定训练样本中无标签样本中的正标签样本数,一种简单的方法是根据有标签样本中正负样本的比例来估计无标签样本中正标签样本数,无标签样本中的正标签样本错误的估计值将导致模型的性能下降。廖东平等人在成对标注法和标签重置法的基础上提出了快速的渐进直推式支持向量机方法,在训练开始前,不对无标签样本的分布情况做任何估计,而是在训练过程中,选择在指定大小的边界区域内的无标签样本,赋予它们当下最可能的标签值并把他们加入到有标签样本中,进行新一轮的训练。在这个过程中,如果发现先前标注的无标签样本的标签值与当前的训练输出值不一致,将取消这些不合适的无标签样本的标注并加入到无标签样本中,进行下一次训练。重复上述过程,直到边界区域内不存在满足条件的无标签样本,得到最终的分类模型。与一般的半监督支持向量机相比,半监督多任务学习具有四大优势:(1)通过使用相关任务混合的数据,来帮助模型更好的学习无标签数据;(2)学习相关任务的共享表示,提高模型的性能和泛化能力;(3)由于最小二乘支持向量机把求解二次规划问题转化为了求解线性方程问题,有效降低了计算复杂度,减少了训练时间;(4)达到同等的性能,多任务学习需要更少的迭代次数和数据量。现有半监督支持向量机方法的具体缺点如下:(1)泛化能力差现在的半监督支持向量机都属于单任务学习,在训练过程中只涉及一个任务的数据样本,通常数据量比较少,这样训练出来的分类器可能效果不错,但是泛化能力差,对相关任务的数据利用不充分。(2)忽略相关任务之间的关系把相关任务作为一个一个的独立任务,利用半监督支持向量机进行训练,忽略了相关任务之间的关系,没有利用有标签数据和无标签数据共享参数的特点,导致每个独立任务学习到的参数不能被其他任务利用。(3)训练需要的时间和数据量大由于在训练过程中可能出现多次迭代的情况,而半监督支持向量机每次迭代都是转化为二次规划问题求解,训练时间代价大,本专利技术采用最小二乘支持向量机,把求解二次规划问题转化为了求解线性方程问题,有效降低了计算复杂度,减少了训练时间。与多任务学习相比,若达到同等的性能,半监督支持向量机需要大量的训练数据,但现实中的数据量往往达不到要求。在医疗方面,有时候不同的疾病所具有的症状相似,反映在数据层面上就是属性相似,如果使用半监督学习算法进行学习,把学习每一种疾病的数据看成一个单任务,忽略了相关任务的有标签和无标签数据的共享表示,所以引入多任务最小二乘支持向量机方法,充分利用混合数据的共享表示,提高模型的效率。现有的医疗数据分类模型大多是针对一种疾病(即单任务的分类模型),只能够判断患者是否患有此疾病;如果患者未患此疾病,并不能够判断患者是否患有与此疾病症状相似的其他疾病。如果要达到以上两种目的,现有的医疗数据分类模型针对具有相似症状的每一种疾病构建单任务分类模型,训练过程中需要的数据量大,时间效率低,而且要将患者的数据信息放入所有的单任务医疗数据分类模型中,才能够作出准确的判断。
技术实现思路
本专利技术的目的在于提供一种基于半监督多任务学习的医疗数据分类模型的构建方法,解决了现有的医疗数据分类模型针对具有相似症状的每一种疾病构建单任务分类模型,训练过程中需要的数据量大,时间效率低的问题。本专利技术所采用的技术方案是,基于半监督多任务学习的医疗数据分类模型的构建方法,具体按照以下步骤进行:步骤一、指定参数γ,λ,使用多任务最小二乘支持向量机(MTLS-SVM)对有标签数据进行训练,得到初始分类器SVM0;步骤二、指定参数γ1,γ2,用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习,计算每一个无标签样本的判别函数输出用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注;在每次训练中,对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注,并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中,加入到新一轮的训练中,每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度;约束条件:约束条件:是初始分类器SVM0对每个分类任务i中所有无标签样本的数据的判别函数输出,γ1,γ2是决定标注区域的参数,其中0<γ1<max,0<γ2<min;是每个分类任务i中所有无标签样本的数据;步骤三、重置每个分类任务i中所有无标签样本的数据,对每个分类任务i中所有有标签的数据和步骤二加入的新标注的每个分类任务i中所有无标签样本的数据按照步骤一进行重新训练,得到分类器SVM1,对每个分类任务i中的每一个医疗数据样本进行分类,判断某一个早期标注的分类任务i中所有无标签样本的数据的标签值和分类器SVM1的判别函数输出的一致性,依据标签重置的法则确定每个分类任务i中的每一个医疗数据样本的标注;在每一轮训练中,将已标注的分类任务i中所有无标签样本的数据与本轮该数据的标注值进行比较,如果不一致,在早期迭代中出现误标情况,随后把不一致的分类任务i的样本标签重置为分类任务i的无标签样本,加入到后一轮的训练中,重置的本文档来自技高网
...

【技术保护点】
1.基于半监督多任务学习的医疗数据分类模型的构建方法,其特征在于,具体按照以下步骤进行:步骤一、指定参数γ,λ,使用多任务最小二乘支持向量机(MTLS‑SVM)对有标签数据进行训练,得到初始分类器SVM0;步骤二、指定参数γ1,γ2,用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习,计算每一个无标签样本的判别函数输出f(xi*),用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注;在每次训练中,对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注,并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中,加入到新一轮的训练中,每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度;

【技术特征摘要】
1.基于半监督多任务学习的医疗数据分类模型的构建方法,其特征在于,具体按照以下步骤进行:步骤一、指定参数γ,λ,使用多任务最小二乘支持向量机(MTLS-SVM)对有标签数据进行训练,得到初始分类器SVM0;步骤二、指定参数γ1,γ2,用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习,计算每一个无标签样本的判别函数输出f(xi*),用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注;在每次训练中,对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注,并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中,加入到新一轮的训练中,每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度;约束条件:约束条件:是初始分类器SVM0对每个分类任务i中所有无标签样本的数据的判别函数输出,γ1,γ2是决定标注区域的参数,其中0<γ1<max,0<γ2<min;是每个分类任务i中所有无标签样本的数据;步骤三、重置每个分类任务i中所有无标签样本的数据,对每个分类任务i中所有有标签的数据和步骤二加入的新标注的每个分类任务i中所有无标签样本的数据按照步骤一进行重新训练,得到分类器SVM1,对每个分类任务i中的每一个医疗数据样本进行分类,判断某一个早期标注的分类任务i中所有无标签样本的数据的标签值和分类器SVM1的判别函数输出的一致性,依据标签重置的法则确定每个分类任务i中的每一个医疗数据样本的标注;在每一轮训练中,将已标注的分类任务i中所有无标签样本的数据与本轮该数据的标注值进行比较,如果不一致,在早期迭代中出现误标情况,随后把不一致的分类任务i的样本标签重置为分类任务i的无标签样本,加入到后一轮的训练中,重置的分类任务i的无标签样本在未来某次训练中得到更为可靠的标注;步骤四、用区域标注法寻找当前边界区域内符合新加标注条件的未加标注的分类任务i的无标签样本,如果存在符合新加标注条件的未加标注的分类任务i的无标签样本,则对其加以标注并返回步骤三;如果不存在,则用当前的分类器SVM1对分类任务i中剩下的全部无标签样本做分类并加标签,计算过程结束,并输出结果,初始分类器SVM0和分类器SVM1为最终得到医疗数据分类模型。2.根据权利要求1所述的基于半监督多任务学习的医疗数据分类模型的构建方法,其特征在于,所述步骤一为学习每一种疾病的数据为一个单任务,有N个相关的医疗数据分类任务,每个分类任务i的分类超平面由一个公共函数ω0Tφ0(x)+b0和一个私有函数viTφi(x)+bi构成...

【专利技术属性】
技术研发人员:杨云贾雪阔
申请(专利权)人:云南大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1