当前位置: 首页 > 专利查询>陈一飞专利>正文

一种生物文本中蛋白质相互关系的半监督抽取方法技术

技术编号:8765585 阅读:263 留言:0更新日期:2013-06-07 22:54
本发明专利技术公开了一种生物文本中蛋白质相互关系的半监督抽取方法,按如下步骤进行:(1)将训练样本集和未标注样本集输入预处理器,分别进行蛋白质命名实体识别、分句处理和指代消解处理;(2)在预处理过的训练样本集中提取候选蛋白质作用对;(3)在候选蛋白质作用对中提取分类模型需要的特征集,对特征集的特征值进行基于信息强度的加权;(4)将基于信息强度加权的特征值与未标注样本集一起输入到分类模型中进行半监督学习,对中样本进行标注,将最有价值的生物文本加入到样本标注集,用更新训练样本集和未标注样本集,对分类过程进行迭代,直到收敛。本发明专利技术简洁高效、性能高、收敛快、抽取效率高并保证数据真实性、节约实验资源。

【技术实现步骤摘要】
一种生物文本中蛋白质相互关系的半监督抽取方法
本专利技术涉及一种语义抽取的方法,更具体的说,涉及一种生物文本中蛋白质相互关系的半监督抽取方法,属于数据挖掘

技术介绍
后基因组时代,蛋白质相互作用(ProteinProteinIneraction,PPI)研究越来越受到人们的重视,它是一种研究蛋白质功能的重要方法,对生物知识网络的建立、生物关系的预测及新药的研制均具有很重要的意义。随着研究的不断深入,报道蛋白质相互作用信息的文献激增,例如美国国立医学图书馆的Medline数据库已存储了超过108000种杂志的19000000篇文献摘要或全文。但是由于文献数目巨大且增长迅速,人们通过手工阅读文献往往难以及时、高效地发现其所关心的蛋白质相互作用信息。文本挖掘方法(textmining)是一种解决这种“信息爆炸”问题的有效途径。当前,一些蛋白质相互作用数据库,如MINT和IntAct已经开始尝试利用文本挖掘技术搜集蛋白质相互作用数据,自动提取蛋白质相互作用注释信息,提高研究人员获取蛋白质相互作用信息的效率。不仅如此,文本挖掘蛋白质相互作用还能减少重复试验带来的资源浪费,而且挖掘到的本文档来自技高网...
一种生物文本中蛋白质相互关系的半监督抽取方法

【技术保护点】
一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,按如下步骤进行:(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW?SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:,式中:...

【技术特征摘要】
1.一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,按如下步骤进行:(1)将已标注蛋白质相互作用信息的生物文本集做为训练样本集L0,将未标注蛋白质相互作用信息的生物文本集做为未标注样本集U0,将所述训练样本集L0和所述未标注样本集U0输入预处理器,依次分别进行蛋白质命名实体识别、分句处理和指代消解处理,生成预处理过的文本集;(2)在步骤(1)中的预处理过的训练样本集L0中提取候选蛋白质作用对;(3)在候选蛋白质作用对与其存在的句子和全文的基础上提取SSW-SVMs分类模型需要的特征集F=(f1,f2......,fn),对特征集F的特征值通过半监督学习方法进行基于信息强度的加权:式中:其中M为预定义的类别总数,C为预定义的类别;(4)基于信息强度加权的特征集训练SSW-SVMs分类模型,并对未标注样本集U0进行标注,利用主动学习方法选择标注后的U0样本,将最有价值的生物文本加入到样本标注集S,更新训练样本集L1=L0∪S,更新未标注样本集U1=U0/S,用更新后的训练样本集L1和未标注样本集U1重复步骤(3)-(4),对分类过程进行迭代,直到收敛。2.根据权利要求1所述的一种生物文本中蛋白质相互关系的半监督抽取方法,其特征在于,步骤(4)中利用主动学习方法选择标注后的U0样本的方法为:4-1、利用5折叠的交叉验证方法训练SSW-SVMs模型,并在每...

【专利技术属性】
技术研发人员:陈一飞
申请(专利权)人:陈一飞
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1