当前位置: 首页 > 专利查询>陈一飞专利>正文

一种生物文本中蛋白质相互关系的半监督抽取方法技术

技术编号:8765585 阅读:238 留言:0更新日期:2013-06-07 22:54
本发明专利技术公开了一种生物文本中蛋白质相互关系的半监督抽取方法,按如下步骤进行:(1)将训练样本集和未标注样本集输入预处理器,分别进行蛋白质命名实体识别、分句处理和指代消解处理;(2)在预处理过的训练样本集中提取候选蛋白质作用对;(3)在候选蛋白质作用对中提取分类模型需要的特征集,对特征集的特征值进行基于信息强度的加权;(4)将基于信息强度加权的特征值与未标注样本集一起输入到分类模型中进行半监督学习,对中样本进行标注,将最有价值的生物文本加入到样本标注集,用更新训练样本集和未标注样本集,对分类过程进行迭代,直到收敛。本发明专利技术简洁高效、性能高、收敛快、抽取效率高并保证数据真实性、节约实验资源。

【技术实现步骤摘要】
一种生物文本中蛋白质相互关系的半监督抽取方法
本专利技术涉及一种语义抽取的方法,更具体的说,涉及一种生物文本中蛋白质相互关系的半监督抽取方法,属于数据挖掘

技术介绍
后基因组时代,蛋白质相互作用(ProteinProteinIneraction,PPI)研究越来越受到人们的重视,它是一种研究蛋白质功能的重要方法,对生物知识网络的建立、生物关系的预测及新药的研制均具有很重要的意义。随着研究的不断深入,报道蛋白质相互作用信息的文献激增,例如美国国立医学图书馆的Medline数据库已存储了超过108000种杂志的19000000篇文献摘要或全文。但是由于文献数目巨大且增长迅速,人们通过手工阅读文献往往难以及时、高效地发现其所关心的蛋白质相互作用信息。文本挖掘方法(textmining)是一种解决这种“信息爆炸”问题的有效途径。当前,一些蛋白质相互作用数据库,如MINT和IntAct已经开始尝试利用文本挖掘技术搜集蛋白质相互作用数据,自动提取蛋白质相互作用注释信息,提高研究人员获取蛋白质相互作用信息的效率。不仅如此,文本挖掘蛋白质相互作用还能减少重复试验带来的资源浪费,而且挖掘到的蛋白质相互作用有详细的生物学实验支持,真实可靠。因此,基于文本挖掘方法得到的蛋白质相互作用数据逐渐成为相互作用数据库十分重要的信息来源。目前,蛋白质相互作用提取方法主要可以归纳为3大类:基于规则方法(rule-basedapproach)、基于统计学和机器学习方法(statisticalandmachine-learningapproach)与基于计算语言方法(computationallinguistics-basedapproach)。在基于统计和机器学习的方法中,蛋白相互作用关系提取可以看成是判断句子中有无蛋白质相互作用关系的二值分类问题,并使用支持向量机(supportvectormachine,SVMs)、最大熵模型(maximumentropy,ME)等分类方法进行模型训练和相互关系对的提取。其主要优点在于能够自动地训练模型,避免了大量的人工定义规则。Airola等人在多个训练集上使用全路径图核方法(all-pathsgraphkernel)获取蛋白质相互作用信息。Miwa等人采用丰富的特征向量及考虑训练集权重的支持向量机方法。王浩畅等同样基于机器学习的方法,提取了丰富的特征集及后处理规则。虽然机器学习方法特别是SVMs使蛋白质相互关系抽取的性能有了很大的提高,但是从一些著名的国际测评会议的结果来看,其性能还远远达不到实际应用的要求。在最近一次测评会议BioCreativeII.5的蛋白质相互关系抽取任务中,最好的抽取方法是利用SVMs分类器得到的,精度为30.9%,召回率为21.3%,F值为25.2。机器学习方法未能取得较好的分类效果,主要由于以下三个方面的因素:训练集的规模、质量及特征值的选取。首先,实际应用中往往缺少高质量的机器学习训练集,因为标注大量的生物文本需要花费专家大量的人力、物力和时间为代价。由于蛋白质间相互关系较为复杂,可包括物理相互作用(physicalinteraction)、遗传相互作用(geneticinteraction)、共表达(co-express)关系和共定位(co-location)关系等,普通用户很难进行准确的标注,通常要通过生物学家来完成。正因为标注上的困难,使得在蛋白质相互作用关系抽取中能够获得的训练样本数量就比较有限。相反,由于电子期刊的迅速发展,获得无标注的样本却非常容易。因此一种旨在使用少量已标注样本,借助于大量未标注样本就可以完成相关工作的半监督学习方法在蛋白质关系抽取中的研究成为热点。半监督学习(Semi-supervisedLearning,SSL)是一种新的学习方法,它将大量的无标注样本和少量的已标注样本结合起来以提高学习器的泛化能力。最近,SSL已经被应用到一些文本的关系研究中,这些研究表明了使用少量已标注样本,有效利用未标注样本可以使关系抽取性能得到一定程度的提高。按照Chapelle、Seeger、Mitchell等人对半监督学习的分析,SSL问题主要有3种主要的技术:基于生成式的模型、基于图正则化框架的模型以及基于协同训练的模型。自训练算法(Self-TrainingAlgorithm)属于最后一种算法的范畴,该算法隐含地利用了聚类假设或者流型假设,以简洁高效而著称,因此和其他半监督算法相比,有着极为广泛的应用。其次,训练集数据的质量也直接影响模型的分类效果,主动学习(ActiveLearning,AL)可以通过减少此类不正确分类的样本来协助半监督学习。目前有很多研究者都提出了样本添加的方法,Tong等在基于SVMs的分类中,根据样本到当前分类面的距离对样本进行选择,最靠近分类面的样本被认为是最具有信息量的,此类样本被添加到训练集中;基于委员会的采样也是比较常用的主动学习方法,选择分类结果最不一致的样本加入到当前的训练集;在基于熵的不确定采样中,根据计算每个样本的熵,选择那些熵越大的,也就是分类不确定性越高的样本添加到训练集。这些方法都是通过在训练集中引入不确定性高的样本,来增加训练集的信息量。然而在半监督自训练模型的迭代中,这些不确定性高的样本可能会引入过多不正确分类的样本到训练集中,而这些分类的错误信息在以后学习过程中会不断积累,给分类器带来致命的错误而大大影响其性能。因此在选择样本时不仅要考虑样本的信息量,还要考虑其正确性。最后,为了进一步提高机器学习模型的分类能力,特定的丰富的特征被提取和使用,对特定的训练数据集效果显著,在蛋白质相互作用关系的提取中也同样需要提取大量的特征来支持。然而简单的特征组合难以产生令人满意的结果,而且对于训练语料的针对性较强,缺乏鲁棒性和可移植性,严重影响抽取的性能,抽取效率不高,数据真实性得不到保证,并且大量重复的实验带来的资源的浪费。
技术实现思路
本专利技术所要解决的技术问题是,克服现有技术的缺点,提供一种简洁高效、性能高、收敛快、抽取效率高并保证数据真实性、节约实验资源的生物文本中蛋白质相互关系的半监督抽取方法。为了解决以上技术问题,本专利技术提供一种生物文本中蛋白质相互关系的半监督抽取方法,按如下步骤进行:(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW-SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:,式中:,其中M为预定义的类别总数,C为预定义的类别,在蛋白质相互关系抽取的应用中,类别总数为2,即M=2。C就表示类别,C1类(第一类)是描述相互作用的蛋白质对,C2类(第二类)则是没有相互作用的蛋白质对。(4)基于信息强度加权的特征值训练SSW-SVMs分类模型,并对未标注样本集U0进行标注,本文档来自技高网
...
一种生物文本中蛋白质相互关系的半监督抽取方法

【技术保护点】
一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,按如下步骤进行:(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW?SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:,式中:其中M为预定义的类别总数,C为预定义的类别;(4)基于信息强度加权的特征值训练SSW?SVMs分类模型,并对未标注样本集U0进行标注,利用主动学习方法选择标注后的U0样本,将最有价值的生物文本加入到样本标注集S,更新训练样本集更新未标注样本集U1=U0\S,用更新后的训练样本集L1和未标注样本集U1重复步骤(3)?(5),对分类过程进行迭代,直到收敛。FDA00002892654500011.jpg,FDA00002892654500012.jpg,FDA00002892654500013.jpg...

【技术特征摘要】
1.一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,按如下步骤进行:(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW-SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:式中:其中M为预定义的类别总数,C为预定义的类别;(4)基于信息强度加权的特征集训练SSW-SVMs分类模型,并对未标注样本集U0进行标注,利用主动学习方法选择标注后的U0样本,将最有价值的生物文本加入到样本标注集S,更新训练样本集L1=L0∪S,更新未标注样本集U1=U0/S,用更新后的训练样本集L1和未标注样本集U1重复步骤(3)-(4),对分类过程进行迭代,直到收敛。2.根据权利要求1所述的一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,步骤(4)中利用主动学习方法选择标注后的U0样本的方法为:4-1、利用5折叠的交叉验证方法训练SSW-SVMs模型,并在每...

【专利技术属性】
技术研发人员:陈一飞
申请(专利权)人:陈一飞
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1