一种基因序列与专利整合关联的方法与系统技术方案

技术编号:19424939 阅读:37 留言:0更新日期:2018-11-14 10:33
本发明专利技术公开了一种基因序列与专利整合关联的方法与系统,使得用户能够得到较好的基因序列检索与相关专利的关联整合信息服务。其技术方案为:通过对干细胞生物技术专利基因文本挖掘技术、干细胞生物技术专利相关基因序列库的构建,实现了基因序列相似性检索与专利文献整合关联。

【技术实现步骤摘要】
一种基因序列与专利整合关联的方法与系统
本专利技术涉及一种基因序列相似性检索相关的技术,尤其涉及将基因序列与专利信息进行整合关联的方法与系统。
技术介绍
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。文本挖掘涵盖了多种技术,包括信息抽取、信息检索、自然语言处理和数据挖掘技术等,它的主要用途是从原本未经使用的文本中抽取出未知的知识。在基因序列的研究领域具有很多和基因序列研究相关的专利技术,然而目前不存在将基因序列和其相关的专利信息整合在一起的系统。因为没有这样的系统,所以基因研究者便无法很方便的知道自己研究的基因序列相关的专利信息,造成研发效率的降低。如何借鉴文本挖掘技术对基因序列和其相关的专利信息进行关联和整合,是目前亟待解决的技术难题。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种基因序列与专利整合关联的方法与系统,使得用户能够得到较好的基因序列检索与相关专利的关联整合信息服务。本专利技术的技术方案为:本专利技术揭示了一种基因序列与专利整合关联的方法,包括:步骤1:基于干细胞生物技术专利知识数据库,借助干细胞相关的基因文本挖掘工具字典实现干细胞生物技术专利知识数据库中的基因文本和相关专利的挖掘和发现,生成包含了已被挖掘标记的基因和已被挖掘标记的基因相关专利及其对应关系的干细胞生物技术专利知识数据仓库;步骤2:基于所生成的干细胞生物技术专利知识数据仓库,借助于基因序列数据库和基因序列相似性检索,将数字序号标识过的一系列相似性基因序列和干细胞生物技术专利知识数据仓库进行整合关联,生成基因序列与干细胞生物技术专利的整合关联关系。根据本专利技术的基因序列与专利整合关联的方法的一实施例,步骤1进一步包括:步骤a:构建干细胞生物技术专利知识数据库和干细胞相关的基因文本挖掘工具字典;步骤b:以已构建的干细胞相关的基因文本挖掘工具字典为依据,以干细胞生物技术专利知识数据库中的干细胞相关基因名词为挖掘和发现对象,进行基因文本挖掘和高亮显示;步骤c:去除数据挖掘和信息整合结果中的非法信息。根据本专利技术的基因序列与专利整合关联的方法的一实施例,在步骤a中,基因文本挖掘工具字典中的每个基因名词前用数字序号进行标识。根据本专利技术的基因序列与专利整合关联的方法的一实施例,在步骤b中,使干细胞生物技术专利知识数据库中的基因名词及专利号与干细胞生物技术专利相关的基因序列数据库的规范数字序号进行一一对应的整合和关联。根据本专利技术的基因序列与专利整合关联的方法的一实施例,在步骤c中,去除非法信息包括去除假阳性基因挖掘结果。根据本专利技术的基因序列与专利整合关联的方法的一实施例,步骤2进一步包括:步骤d:构建干细胞生物技术专利相关的基因序列数据库;步骤e:将已构建的基因序列数据库转变为BLAST数据库;步骤f:进行基因序列相似性检索;步骤g:根据基因序列数据库提供的协议将标识过的数字序号转换成超链接信息,以实现基因序列与干细胞生物技术专利的信息整合与关联。根据本专利技术的基因序列与专利整合关联的方法的一实施例,步骤d中,通过对干细胞生物技术专利和相关基因的学习和理解,从干细胞生物技术专利知识数据库中提取干细胞相关的基因名词,并在NCBI的基因银行中搜索和收集该基因相关的参数和注释,按照国家知识产权局颁布的专利文献领域核苷酸序列表电子文件标准,进行基因序列数据库的编撰和构建。根据本专利技术的基因序列与专利整合关联的方法的一实施例,在步骤f中,在核酸序列检索框中输入被检的基因序列,通过BLAST算法完成基因序列的相似性搜索和比对,得到一系列相似性的基因序列,其中每一个基因序列都有一个数字序号标识。本专利技术还揭示了一种基因序列与专利整合关联的系统,包括:干细胞生物技术专利知识数据库服务器,用于存储干细胞生物技术专利知识数据库和专利信息知识挖掘程序;干细胞相关基因序列数据库服务器,用于存储干细胞相关的基因序列数据库和整合关联程序;其中专利信息知识挖掘程序在干细胞生物技术专利知识数据库服务器上运行执行以下的处理:基于干细胞生物技术专利知识数据库,借助干细胞相关的基因文本挖掘工具字典实现干细胞生物技术专利知识数据库中的基因文本和相关专利的挖掘和发现,生成包含了已被挖掘标记的基因和已被挖掘标记的基因相关专利及其对应关系的干细胞生物技术专利知识数据仓库;其中整合关联程序在干细胞相关基因序列数据库服务器上运行执行以下的处理:基于所生成的干细胞生物技术专利知识数据仓库,借助于基因序列数据库和基因序列相似性检索,将数字序号标识过的一系列相似性基因序列和干细胞生物技术专利知识数据仓库进行整合关联,生成基因序列与干细胞生物技术专利的整合关联关系。根据本专利技术的基因序列与专利整合关联的系统的一实施例,专利信息知识挖掘程序在服务器上运行步骤具体为:步骤a:构建干细胞生物技术专利知识数据库和干细胞相关的基因文本挖掘工具字典;步骤b:以已构建的干细胞相关的基因文本挖掘工具字典为依据,以干细胞生物技术专利知识数据库中的干细胞相关基因名词为挖掘和发现对象,进行基因文本挖掘和高亮显示;步骤c:去除数据挖掘和信息整合结果中的非法信息。根据本专利技术的基因序列与专利整合关联的系统的一实施例,在步骤a中,基因文本挖掘工具字典中的每个基因名词前用数字序号进行标识。根据本专利技术的基因序列与专利整合关联的系统的一实施例,在步骤b中,使干细胞生物技术专利知识数据库中的基因名词及专利号与干细胞生物技术专利相关的基因序列数据库的规范数字序号进行一一对应的整合和关联。根据本专利技术的基因序列与专利整合关联的系统的一实施例,在步骤c中,去除非法信息包括去除假阳性基因挖掘结果。根据本专利技术的基因序列与专利整合关联的系统的一实施例,整合关联程序在服务器上运行步骤具体为:步骤d:构建干细胞生物技术专利相关的基因序列数据库;步骤e:将已构建的基因序列数据库转变为BLAST数据库;步骤f:进行基因序列相似性检索;步骤g:根据基因序列数据库提供的协议将标识过的数字序号转换成超链接信息,以实现基因序列与干细胞生物技术专利的信息整合与关联。根据本专利技术的基因序列与专利整合关联的系统的一实施例,在步骤d中,通过对干细胞生物技术专利和相关基因的学习和理解,从干细胞生物技术专利知识数据库中提取干细胞相关的基因名词,并在NCBI的基因银行中搜索和收集该基因相关的参数和注释,按照国家知识产权局颁布的专利文献领域核苷酸序列表电子文件标准,进行基因序列数据库的编撰和构建。根据本专利技术的基因序列与专利整合关联的系统的一实施例,在步骤f中,在核酸序列检索框中输入被检的基因序列,通过BLAST算法完成基因序列的相似性搜索和比对,得到一系列相似性的基因序列,其中每一个基因序列都有一个数字序号标识。根据本专利技术的基因序列与专利整合关联的系统的一实施例,系统还包括:Web服务器,用于接收用户请求并通过设置于Web服务器的本文档来自技高网...

【技术保护点】
1.一种基因序列与专利整合关联的方法,其特征在于,包括:步骤1:基于干细胞生物技术专利知识数据库,借助干细胞相关的基因文本挖掘工具字典实现干细胞生物技术专利知识数据库中的基因文本和相关专利的挖掘和发现,生成包含了已被挖掘标记的基因和已被挖掘标记的基因相关专利及其对应关系的干细胞生物技术专利知识数据仓库;步骤2:基于所生成的干细胞生物技术专利知识数据仓库,借助于基因序列数据库和基因序列相似性检索,将数字序号标识过的一系列相似性基因序列和干细胞生物技术专利知识数据仓库进行整合关联,生成基因序列与干细胞生物技术专利的整合关联关系。

【技术特征摘要】
1.一种基因序列与专利整合关联的方法,其特征在于,包括:步骤1:基于干细胞生物技术专利知识数据库,借助干细胞相关的基因文本挖掘工具字典实现干细胞生物技术专利知识数据库中的基因文本和相关专利的挖掘和发现,生成包含了已被挖掘标记的基因和已被挖掘标记的基因相关专利及其对应关系的干细胞生物技术专利知识数据仓库;步骤2:基于所生成的干细胞生物技术专利知识数据仓库,借助于基因序列数据库和基因序列相似性检索,将数字序号标识过的一系列相似性基因序列和干细胞生物技术专利知识数据仓库进行整合关联,生成基因序列与干细胞生物技术专利的整合关联关系。2.根据权利要求1所述的基因序列与专利整合关联的方法,其特征在于,步骤1进一步包括:步骤a:构建干细胞生物技术专利知识数据库和干细胞相关的基因文本挖掘工具字典;步骤b:以已构建的干细胞相关的基因文本挖掘工具字典为依据,以干细胞生物技术专利知识数据库中的干细胞相关基因名词为挖掘和发现对象,进行基因文本挖掘和高亮显示;步骤c:去除数据挖掘和信息整合结果中的非法信息。3.根据权利要求2所述的基因序列与专利整合关联的方法,其特征在于,在步骤a中,基因文本挖掘工具字典中的每个基因名词前用数字序号进行标识。4.根据权利要求3所述的基因序列与专利整合关联的方法,其特征在于,在步骤b中,使干细胞生物技术专利知识数据库中的基因名词及专利号与干细胞生物技术专利相关的基因序列数据库的规范数字序号进行一一对应的整合和关联。5.根据权利要求4所述的基因序列与专利整合关联的方法,其特征在于,在步骤c中,去除非法信息包括去除假阳性基因挖掘结果。6.根据权利要求5所述的基因序列与专利整合关联的方法,其特征在于,步骤2进一步包括:步骤d:构建干细胞生物技术专利相关的基因序列数据库;步骤e:将已构建的基因序列数据库转变为BLAST数据库;步骤f:进行基因序列相似性检索;步骤g:根据基因序列数据库提供的协议将标识过的数字序号转换成超链接信息,以实现基因序列与干细胞生物技术专利的信息整合与关联。7.根据权利要求6所述的基因序列与专利整合关联的方法,其特征在于,步骤d中,通过对干细胞生物技术专利和相关基因的学习和理解,从干细胞生物技术专利知识数据库中提取干细胞相关的基因名词,并在NCBI的基因银行中搜索和收集该基因相关的参数和注释,按照国家知识产权局颁布的专利文献领域核苷酸序列表电子文件标准,进行基因序列数据库的编撰和构建。8.根据权利要求7所述的基因序列与专利整合关联的方法,其特征在于,在步骤f中,在核酸序列检索框中输入被检的基因序列,通过BLAST算法完成基因序列的相似性搜索和比对,得到一系列相似性的基因序列,其中每一个基因序列都有一个数字序号标识。9.一种基因序列与专利整合关联的系统,其特征在于,包括:干细胞生物技术专利知识数据库服务器,用于存储干细胞生物技术专利知识数据库和专利信息知识挖掘程序;干细胞相关基因序列数据库服务器,用于存储干细胞相关的基因序列数据库和整合关联程序;其中专利信息知识挖掘程序在干细胞生物技术专利知识数据库服务器上运行执行以下的...

【专利技术属性】
技术研发人员:陈恒刘延淮陈成材张永娟张丽雯陈涛
申请(专利权)人:中国科学院上海生命科学研究院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1