当前位置: 首页 > 专利查询>杨仑专利>正文

对专利基因或基因专利进行检索、注释和数据挖掘的方法技术

技术编号:2848635 阅读:211 留言:0更新日期:2012-04-11 18:40
本发明专利技术实现了对专利序列、专利微阵列、专利单核苷酸多态性(SNP)、专利基序等专利基因对象以及基因专利进行检索、注释和数据挖掘的方法。其中的检索方法在相关研究的立项、基因研发状态追踪以及基因专利申请和审批等工作中将具有广泛的应用。而注释和数据挖掘方法可以供企业用来对专利基因在自然进化和社会偏好双重选择压下的生命周期、申请偏好及授权偏好等特性进行考察。

【技术实现步骤摘要】

本专利技术属于生物信息学领域,具体而言涉及生物化学与分子生物学以及计算机网络和数据挖掘领域。
技术介绍
专利基因是在专利中被涵盖的基因、微阵列序列、序列通式或单核苷酸多态等,基因专利则体现为包含专利基因的申请公开书或审定授权书。有关基因专利的知识产权保护问题很早就受到关注[1]。基因专利处理不当会引发一系列的法律问题[2]或伦理问题[3]。我国某转基因棉花研究由于初期没有可用的专利基因检索技术,对专利基因检索不充分,导致开发完成后与该基因的专利权人间发生法律纠纷。而即使对于已授权的基因专利,也会因当初检索和数据挖掘工作上的缺漏而被判予无效[4]。当前,知识产权问题已成为立项的核心问题,基因专利的考察对于生命科学研究战略制定、审批立项和项目执行等均具有重要意义。这些考察重点包括哪些基因已被专利覆盖,哪些尚未被覆盖;某基因的哪些技术或功能在已覆盖范围之外还有创新余地等。由此可见,专利基因是基因专利的核心,对基因专利的考察最终要落实到对专利基因的考察上来。专利基因是一种具生物学、社会偏好和法律状态三重意义的特殊文本。对专利基因进行全面而精确的检索并进行深入的数据挖掘,除能启迪开发思路外,还能避免对基因的重复研究和知识产权纠纷隐患的产生。此前考察我国专利基因的唯一途径是对中国基因专利标题或摘要进行文字检索。但目前专利中存在的用词艰深隐晦及基因名使用不标准等问题均可能造成重要信息漏检。BLAST技术[5]的运用可开发成一种不通过标题和摘要而直接到达专利基因的检索方法,然而专利文献海量性和图片或纸质形式的文本又成为实现这种检索的瓶颈。此外,基因的查新工作当前多限于对GenBank等公共非冗余库运用BLAST来执行序列同源比对,多数研究者可能无法并且也忽视了对专利基因的BLAST检索。据FIZ Karlsruhe信息研究所报道,近60%的世界专利(WIPO)基因尚未被三大核酸数据库收录,即使对收录的专利基因也没有分子生物学意义方面的注释;我国专利基因几乎未被任何公共数据库收录,即使在收费极昂贵的私营数据库中也收录不全。这是由于申请人和各国知识产权管理部门未系统地向世界三大核酸数据库提交专利基因。因此,如果某基因在公共数据库中不存在功能已知的同源序列,并不能将其判定为新基因,更不能武断地追加投资进而对其展开深入研究和开发。上述现状表明,通过专利数据库对我国专利基因所能完成的检索和分析十分有限,而公共核酸数据库几乎不能提供有关中国专利基因的任何信息。目前,人们对海量专利基因的检索需求日益精确化和专业化,除进行BLAST检索外,研究者还需针对基因名、专利基序、基因的细胞组分、分子功能和生物学过程等方面进行检索和深入分析,并且需进行面向通路、基因微阵列和SNP的专利覆盖情况考察。1 Doll J J.The Patenting of DNA.Science,1998,280(5364)689-6902 Abbott A.Clinicians win fight to overturn patent for breast-cancer gene.Nature,2004,429,329 3293 Abbott A.Europe pares down double patents on breast-cancer gene.Nature,2005,433,344 3444 Paradise J,Andrews L,Holbrook T.Patents on human genesan analysis ofscope and claims.Science,2005,307,1566-15675 Schaffer A A,Aravind L,Madden T L,et al.Improving the accuracy ofPSI-BLAST protein database searches with composition-based statistics andother refinements.Nucleic Acids Res.,2001,29(14)2994-3005专利技术目的本专利技术的目的是针对上述该领域内的现状,创造一种,从而使基因专利文献在较低的电子化程度上能够为生命科学界提供尽可能多的信息。技术方案数据库创建方法选取符合知识产权行业标准(ZC 0003-2001)的且未失效的基因专利,人工或计算机识别专利文献中的核酸序列、蛋白序列、专利基序、引物序列、探针序列、SNP、RNA序列、基因微阵列及多肽核酸(PNA)等,并将其电子化。其中,专利基序是指型如“一种肽,具有‘X1CYDX2A’的通式,其中X1是L或I,X2是E或Q或缺失”的描述,在NASDAP中以核酸序列正则表达式或蛋白序列正则表达式的形式存储;专利SNP则选取左右各20nt的侧翼序列连同突变位点储存为正则表达式。定期进行序列更新和法律状态更新。用cgi技术构建web检索界面。注释方法本专利技术所采用的技术方案是以基因为单位组织专利。将不同专利中相同的基因聚合成一类,以便进行注释和数据挖掘。核酸序列无论是否编码蛋白质,均按6个相位翻译,选择其中最长的开放阅读框(ORF)所对应的氨基酸序列作为代表序列。将核酸代表序列与蛋白序列合并再执行两两比对,将一致性98%以上且共有序列占总长度80%以上的序列聚为一簇,称为一个基因专利簇(UniPat)。定义每簇中最长的蛋白序列为该簇的参考序列。将参考序列对标准参考数据库,例如SWISS-PROT进行BLASTP,BLASTP的E值设置为1e-40,从而保证了精确度。注释后的序列拥有蛋白名、基因名、登录时间、国际酶学委员会编号以及物种名等属性。将参考序列通过SWISS-PROT登陆号及基因本体注释关联到基因本体(GO)和基因缩略本体(GO slim)。对专利序列和专利微阵列的检索方法通过WEB提交待检序列(图1),通过POST方法传送至服务器端的cgi程序。cgi程序读取待检序列并判断提交的序列类型是核酸序列还是蛋白序列,随后通过BLAST或FASTA或Smith-Waterman或HMM或Needleman-Wunsch等方法执行待检序列与数据库中序列的比对。如果选用BLAST算法,则对于DNA序列,可选用″blastn″、″tblastx″或″blastx″三种子算法来完成对库检索,而对于蛋白序列,则可选用″blastp″或″tblastn″程序。在运行程序之前,去除非DNA或蛋白质序列的非法字符,同时去除对服务器造成安全隐患的字符,并且屏蔽可能造成服务器死机的长度超过20000个核苷酸或5000个氨基酸的超长序列。对于选用″blastn″、″tblastx″或″tblastn″程序的情况,待检序列所比对的对象为核酸专利序列;而″blastp″或″blastx″程序的比对目标为蛋白序列。比对完成后,按照与待检序列相似性从高到低的顺序输出专利序列及其所在的专利。随后创建日志文档,对于提交人的IP地址、提交时间、选择程序、序列类型以及序列情况进行记录。对专利序列通式和专利单核苷酸多态的检索方法通过WEB提交待检序列(图1),通过POST方法传送至服务器端的cgi程序。cgi程序读取待检序列并判断提交的序列类型本文档来自技高网...

【技术保护点】
一种检索专利中的基因或基因微阵列序列及其所对应的专利的方法,其特征是将专利文献中的核酸序列、蛋白序列或基因微阵列序提取并储存为计算机文件的形式并定期更新,同时将待检序列通过序列比对程序与之进行比对从而获得与待检序列相似的专利基因或专利基因微阵列序列及其所对应的专利。

【技术特征摘要】
1.一种检索专利中的基因或基因微阵列序列及其所对应的专利的方法,其特征是将专利文献中的核酸序列、蛋白序列或基因微阵列序提取并储存为计算机文件的形式并定期更新,同时将待检序列通过序列比对程序与之进行比对从而获得与待检序列相似的专利基因或专利基因微阵列序列及其所对应的专利。2.一种检索专利中的序列通式或单核苷酸多态及其所对应的专利的方法,其特征是将专利文献中的核酸、蛋白序列通式或单核苷酸多态等生物信息提取并储存为正则表达式的形式并定期更新,同时通过对待检序列进行正则表达式的扫描而获得待检序列中的专利基因通式或单核苷酸多态以及它们所对应的专利。3.如权力要求1所述的检索核酸、蛋白序列或基因微阵列序列的方法,其特征是通过人工识别或计算机识别而将专利文献中的基因序列格式化为纯文本格式或fasta格式或NCBI的blastall程序所认可的格式或关系型数据库的兼容格式并与专利申请号进行关联,用BLAST或FAS...

【专利技术属性】
技术研发人员:杨仑夏振华徐朗莱
申请(专利权)人:杨仑夏振华徐朗莱
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1