【技术实现步骤摘要】
数据库构建方法、文件检索方法以及装置
本申请涉及自然语言处理
,特别是涉及一种数据库构建方法、装置、一种生物序列关联度的标注方法、系统、一种文件检索方法、装置、计算机设备和存储介质。
技术介绍
在专利文件中生物序列一般以字母串或者序列号的形式表示。这些生物序列一般用于描述DNA、RNA,其他核苷酸和蛋白质的主要分子结构以及表达携带的遗传信息。在大多数情况下,权利要求中的生物序列一般可以通过三种方式主张保护:1、基于生物序列本身结构主张保护。通过这种方式主张保护,若可以基于具体实施方式提供相关的证据,则权利要求主张保护的范围可以扩展为与主张保护的序列达到一定的相似性百分率(同源性)。2、基于生物序列的来源、功能和内含物主张保护。3、基于生物序列起作用的产品(尤其是药物)。由于专利文件中生物序列的表达方式的特殊性,这使得用户在对该领域的技术进行检索时极其困难。尤其在可专利性或新颖性检索、防止侵权检索或自由使用权检索(FTO)、预归档可专利性检索以及有效性或无效性检索上,传统的检索检索 ...
【技术保护点】
1.一种数据库的构建方法,其特征在于,所述数据库应用于搜索引擎,所述方法包括:/n获取目标文件;/n提取目标文件中的生物序列与属性信息;/n将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;/n使用所述词条构建数据库。/n
【技术特征摘要】
1.一种数据库的构建方法,其特征在于,所述数据库应用于搜索引擎,所述方法包括:
获取目标文件;
提取目标文件中的生物序列与属性信息;
将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
使用所述词条构建数据库。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文件包括:
从数据源中获取文件,形成文件集;
根据预设条件,从所述文件集中获取目标文件。
3.根据权利要求1所述的方法,其特征在于,所述使用所述词条构建数据库包括:
对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;
根据所述关联信息对词条进行关联处理,得到生物序列数据库。
4.一种基因序列关联度的标注方法,其特征在于,所述方法包括:
根据所述数据库与属性信息输出具有至少一种属性的相关基因序列,其中,所述数据库根据权利要求1-3任一项所述方法构建;
根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度。
5.一种文件检索方法,所述方法包括:
接收检索信息,其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合;
从如权利要求1-3任一项所述的方法得到的数据库中为所述检索信息匹配出至少一个候选词条;
根据所述候选词条得到检索结果。
6.根据权利要求5所述的方法,其特征在于,根据所述候选词条得到检索结果,包括:
根据所述...
【专利技术属性】
技术研发人员:希夫尚卡尔·乌玛尚卡尔,庞卡·库玛,黑马,
申请(专利权)人:智慧芽信息科技苏州有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。