数据库构建方法、文件检索方法以及装置制造方法及图纸

技术编号:27747419 阅读:18 留言:0更新日期:2021-03-19 13:42
本申请涉及一种数据库的构建方法、装置、基因序列关联度的标注、装置、文件检索方法、装置、计算机设备以及计算机可读存储介质,该申请的方案从目标文件中提取生物序列以及属性信息,基于提取的生物序列与属性信息构建数据库中词条,用户在基于该数据库进行检索时,由于服务器即可以通过词条中生物序列、属性信息或者二者结合的方式为用户匹配词条,因此,本申请的数据库在被应用于检索平台时,可以为用户提供生物序列检索、生物序列属性检索以及综合生物序列和生物序列属性等多样的检索支持。

【技术实现步骤摘要】
数据库构建方法、文件检索方法以及装置
本申请涉及自然语言处理
,特别是涉及一种数据库构建方法、装置、一种生物序列关联度的标注方法、系统、一种文件检索方法、装置、计算机设备和存储介质。
技术介绍
在专利文件中生物序列一般以字母串或者序列号的形式表示。这些生物序列一般用于描述DNA、RNA,其他核苷酸和蛋白质的主要分子结构以及表达携带的遗传信息。在大多数情况下,权利要求中的生物序列一般可以通过三种方式主张保护:1、基于生物序列本身结构主张保护。通过这种方式主张保护,若可以基于具体实施方式提供相关的证据,则权利要求主张保护的范围可以扩展为与主张保护的序列达到一定的相似性百分率(同源性)。2、基于生物序列的来源、功能和内含物主张保护。3、基于生物序列起作用的产品(尤其是药物)。由于专利文件中生物序列的表达方式的特殊性,这使得用户在对该领域的技术进行检索时极其困难。尤其在可专利性或新颖性检索、防止侵权检索或自由使用权检索(FTO)、预归档可专利性检索以及有效性或无效性检索上,传统的检索检索方法表现难以达到用户的期望。
技术实现思路
基于此,有必要针对上述技术问题,提供一种数据库构建方法、装置、一种生物序列关联度的标注方法、系统、一种文件检索方法、装置、计算机设备和存储介质。第一方面,本申请提出一种生物序列数据库构建方法,所述方法包括:获取目标文件;提取目标文件中的生物序列与属性信息;将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;使用所述词条构建数据库。第二方面,本申请提出一种基因序列关联度的标注方法,所述方法包括:根据所述数据库与属性信息输出具有至少一种属性的相关基因序列;根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度第三方面,本申请提出一种文件检索方法,所述方法包括:接收检索信息;从本申请任一实施例数据库构建方法构建的数据库中为所述检索信息匹配出至少一个候选词条;根据所述候选词条得到检索结果。第四方面,本申请提出一种数据库构建装置,包括:特征提取模块,获取目标文件,提取目标文件中的生物序列与属性信;关联模块,将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;存储模块,使用所述词条构建生物序列数据库。第五方面,本申请提出一种生物序列关联度的标注系统,所述系统包括:基因序列输出单元,用于根据所述数据库与属性信息输出包含至少一种属性的相关生物序列;生物序列关联度确定单元,用于根据每个所述相关生物序列与属性信息的相关联数量标注对应的各个所述相关生物序列的相关维度。第六方面,本申请提出一种文件检索装置,所述装置包括:获取模块,用于接收检索信息;词条匹配模块,用于从本申请任一实施例数据库构建方法构建的数据库中为所述检索信息匹配出至少一个候选词条;检索结果生成模块,用于根据所述候选词条得到检索结果。第七方面,本申请提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请任一实施例中方法的步骤。第八方面,本申请提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一实施例中方法的步骤。上述数据库的构建方法、装置、基因序列关联度的标注、装置、文件检索方法、装置、计算机设备以及计算机可读存储介质,该申请的方案从目标文件中提取生物序列以及属性信息,基于提取的生物序列与属性信息构建数据库中词条,用户在基于该数据库进行检索时,由于服务器即可以通过词条中生物序列、属性信息或者二者结合的方式为用户匹配词条,因此,本申请的数据库在被应用于检索平台时,可以为用户提供生物序列检索、生物序列属性检索以及综合生物序列和生物序列属性等多样的检索支持。附图说明图1为一个实施例中数据库构建方法的应用环境图;图2为一个实施例中数据库构建方法的流程示意图;图3为一个实施例中文件检索方法的流程示意图;图4为一个实施例中步骤S330的细化步骤的流程示意图;图5为一个实施例中的检索结果图;图6为另一个实施例中步骤S330的细化步骤的流程示意图;图7为一个实施例中的生物序列地图;图8为另一个实施例中步骤S330的细化步骤的流程示意图;图9为一个实施例中的相似性新领域视图;图10为一个实施例中的一种属性查询模式的基本视图;图11为一个实施例中步骤S310的细化步骤的流程示意图;图12为另一个实施例中步骤S330的细化步骤的流程示意图;图13为一个实施例中的基因组视图;图14为另一个实施例中步骤S330的细化步骤的流程示意图;图15为一个实施例中内含物视图;图16为另一个实施例中步骤S330的细化步骤的流程示意图;图17为一个实施例中的功能相似性视图;图18为另一个实施例中步骤S330的细化步骤的流程示意图;图19为一个实施例中数据库构建装置的结构框图;图20为一个实施例中文件检索装置的结构框图;图21为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的生物序列数据库构建方法可以应用于如图1所示的应用环境中。其中,终端100通过网络与服务器200通过网络进行通信。服务器200可以用独立的服务器或者是多个服务器组成的服务器集群来实现。该服务器的处理器可以执行预设的算法,识别专利文件中的专用名词(例如生物领域)、生物序列。该终端100可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。用户可以通过终端100进行文件检索,该文件检索基于生物序列数据库得到检索结果。可选地,该服务器200可以包含数据库,该数据库被用于生物序列的相关检索。在用户需要进行相关的生物序列检索时,可以通过终端100上相应的界面与服务器200进行交互。服务器200在接收到用户通过终端100输入的检索请求后,会在数据库匹配出词条,并根据词条为用户反馈检索结果。在一个实施例中,如图2所示,提供数据库构建方法,以该方法构建的数据库可以被部署于应用环境中的服务器200上,应用到搜索引擎进行相关搜索。包括以下步骤:步骤S210,获取目标文件,提取目标文件中的生物序列与属性信息。具体地,该目标文件一般情形下为生物学领域的文件,例如论文、期刊杂志、专利文件等等。具体地,处理器提取目标文件中的生物序列与属性信息。可选地,处理器首先从数据源中获取文件,形成文件集;之后根据预设条件,从所述文件集本文档来自技高网...

【技术保护点】
1.一种数据库的构建方法,其特征在于,所述数据库应用于搜索引擎,所述方法包括:/n获取目标文件;/n提取目标文件中的生物序列与属性信息;/n将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;/n使用所述词条构建数据库。/n

【技术特征摘要】
1.一种数据库的构建方法,其特征在于,所述数据库应用于搜索引擎,所述方法包括:
获取目标文件;
提取目标文件中的生物序列与属性信息;
将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
使用所述词条构建数据库。


2.根据权利要求1所述的方法,其特征在于,所述获取目标文件包括:
从数据源中获取文件,形成文件集;
根据预设条件,从所述文件集中获取目标文件。


3.根据权利要求1所述的方法,其特征在于,所述使用所述词条构建数据库包括:
对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;
根据所述关联信息对词条进行关联处理,得到生物序列数据库。


4.一种基因序列关联度的标注方法,其特征在于,所述方法包括:
根据所述数据库与属性信息输出具有至少一种属性的相关基因序列,其中,所述数据库根据权利要求1-3任一项所述方法构建;
根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度。


5.一种文件检索方法,所述方法包括:
接收检索信息,其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合;
从如权利要求1-3任一项所述的方法得到的数据库中为所述检索信息匹配出至少一个候选词条;
根据所述候选词条得到检索结果。


6.根据权利要求5所述的方法,其特征在于,根据所述候选词条得到检索结果,包括:
根据所述...

【专利技术属性】
技术研发人员:希夫尚卡尔·乌玛尚卡尔庞卡·库玛黑马
申请(专利权)人:智慧芽信息科技苏州有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1