一种文献标注方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:21345864 阅读:15 留言:0更新日期:2019-06-13 23:20
本申请涉及一种文献标注方法、装置、设备及计算机可读介质,所述文献标注方法包括:接收用户提交的包含目标基因的基因检索请求;在数据库中查找与所述目标基因匹配的基因、变异和疾病之间的关联关系及所述关联关系的来源文献信息;对与所述来源文献信息对应的来源文献进行针对基因、变异和疾病的命名实体识别,并标注识别到的命名实体数据;在至少两个所述命名实体数据所在的关系类型共现语句中,确定命名实体之间的关系类型,在所述来源文献中标注所述关系类型。本申请能够提供对医学文献中基因、变异、疾病实体的定位以及基因、变异和疾病实体间相关关系的标注能力,提供细粒度的文献证据溯源能力。

【技术实现步骤摘要】
一种文献标注方法、装置、设备及计算机可读介质
本申请涉及计算机
,尤其涉及一种文献标注方法、装置、设备及计算机可读介质。
技术介绍
目前,基因疾病的研究判别主要依赖于专家的经验记忆和对大量文献阅读后的主观理解。然而,由于缺少客观的推理过程和便捷的证据链条获取途径,基因疾病的判别溯源工作量大,证据定位难以精准,影响科学判别结果的获取。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种文献标注方法、装置、设备及计算机可读介质。第一方面,本申请提供了一种文献标注方法,包括:接收用户提交的包含目标基因的基因检索请求;在数据库中查找与所述目标基因匹配的基因、变异和疾病之间的关联关系及所述关联关系的来源文献信息;对与所述来源文献信息对应的来源文献进行针对基因、变异和疾病的命名实体识别,并标注识别到的命名实体数据;在至少两个所述命名实体数据所在的关系类型共现语句中,确定命名实体之间的关系类型,在所述来源文献中标注所述关系类型。可选地,所述对与所述来源文献信息对应的来源文献进行针对基因、变异和疾病的命名实体识别,包括:按照预设分词规则对所述来源文献中的各语句进行浅层分词和深层分词;将所述来源文献中的各语句输入预设的深度神经网络中,计算每一个输入的语句中各词语属于不同预设实体类型的概率值,所述深度神经网络由双向长短期记忆模型网络层和全连接网络层组成;结合传统机器学习维特比模型、条件随机场模型及状态转移算法,确定关于基因、变异和疾病的命名实体数据。可选地,所述在至少两个所述命名实体数据所在的关系类型共现语句中,确定命名实体之间的关系类型,包括:查找所述命名实体数据所在的关系类型共现语句;在至少两个所述命名实体数据所在的关系类型共现语句中,查找位于预设关系类型指示词库中的关系类型指示词;将所述关系类型指示词映射至所述数据库中,确定与所述关系类型指示词对应的关系类型。可选地,所述方法还包括:将与所述目标基因匹配的基因、变异和疾病之间的关联关系的来源文献信息更新为至少两个所述命名实体数据所在的关系类型共现语句。第二方面,本申请还提供了一种文献标注装置,包括:接收模块,用于接收用户提交的包含目标基因的基因检索请求;查找模块,用于在数据库中查找与所述目标基因匹配的基因、变异和疾病之间的关联关系及所述关联关系的来源文献信息;识别模块,用于对与所述来源文献信息对应的来源文献进行针对基因、变异和疾病的命名实体识别,并标注识别到的命名实体数据;确定模块,用于在至少两个所述命名实体数据所在的关系类型共现语句中,确定命名实体之间的关系类型,在所述来源文献中标注所述关系类型。可选地,所述识别模块,包括:分词单元,用于按照预设分词规则对所述来源文献中的各语句进行浅层分词和深层分词;计算单元,用于将所述来源文献中的各语句输入预设的深度神经网络中,计算每一个输入的语句中各词语属于不同预设实体类型的概率值,所述深度神经网络由双向长短期记忆模型网络层和全连接网络层组成;第一确定单元,用于结合传统机器学习维特比模型、条件随机场模型及状态转移算法,确定关于基因、变异和疾病的命名实体数据。可选地,所述确定模块,包括:第一查找单元,用于查找所述命名实体数据所在的关系类型共现语句;第二查找单元,用于在至少两个所述命名实体数据所在的关系类型共现语句中,查找位于预设关系类型指示词库中的关系类型指示词;第二确定单元,用于将所述关系类型指示词映射至所述数据库中,确定与所述关系类型指示词对应的关系类型。可选地,所述装置还包括:更新模块;所述更新模块,用于将与所述目标基因匹配的基因、变异和疾病之间的关联关系的来源文献信息更新为至少两个所述命名实体数据所在的关系类型共现语句。第三方面,本申请还提供了一种文献标注设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。第四方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面所述的方法。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请针对疾病筛查和精准寻因等基因疾病关系判别应用场景,解决基因疾病判别知识的精准获取问题,提供对医学文献中基因、变异、疾病实体的定位以及基因、变异和疾病实体间相关关系的标注能力,提供细粒度的文献证据溯源能力。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种文献标注方法的流程图;图2为本申请实施例提供的图1中步骤S103的流程图;图3为本申请实施例提供的步骤S103实际应用场景中的流程图;图4为本申请实施例提供的图1中步骤S104的流程图;图5为本申请实施例提供的步骤S104实际应用场景中的流程图;图6为本申请实施例提供的一种关系类型指示词库的示意图;图7为本申请实施例提供的一种文献标注装置的结构图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。由于目前缺少客观的推理过程和便捷的证据链条获取途径,基因疾病的判别溯源工作量大,证据定位难以精准,影响科学判别结果的获取。为此,本申请实施例提供一种文献标注方法、装置、设备及计算机可读介质,可以针对疾病筛查和精准寻因等基因疾病关系判别应用场景,解决基因疾病判别知识的精准获取问题,提供对医学文献中基因、变异、疾病实体的定位以及基因、变异和疾病实体间相关关系的标注能力,提供细粒度的文献证据溯源能力。为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种文献标注方法进行详细介绍,所述文献标注方法可以应用于计算机中,如图1所示,所述文献标注方法可以包括以下步骤。步骤S101,接收用户提交的包含目标基因的基因检索请求;示例性的,基因检索请求中可以包含目标基因的名称等信息,例如:“CFTR”。步骤S102,在数据库中查找与所述目标基因匹配的基因、变异和疾病之间的关联关系及所述关联关系的来源文献信息;示例性的,用户提交对于基因“CFTR”检索请求,系统会返回包括“pathogenic(CFTR,c.1520_1522delTCT,Cysticfibrosis)”在内的“基因-变异-疾病”关联关系,该关系所表达的信息是携带“c.1520_1522delTCT”变异的“CFTR”基因对于“Cysticfibrosis”疾病具有“致病”作用。NCBIClinVar数据库系统返回关联关系“pathogenic(CFTR,c.1520_1522delTCT,Cysticfibrosis)”出自文献“Δ本文档来自技高网...

【技术保护点】
1.一种文献标注方法,其特征在于,包括:接收用户提交的包含目标基因的基因检索请求;在数据库中查找与所述目标基因匹配的基因、变异和疾病之间的关联关系及所述关联关系的来源文献信息;对与所述来源文献信息对应的来源文献进行针对所述基因、所述变异和所述疾病的命名实体识别,并标注识别到的命名实体数据;在至少两个所述命名实体数据所在的关系类型共现语句中,确定命名实体之间的关系类型,在所述来源文献中标注所述关系类型。

【技术特征摘要】
1.一种文献标注方法,其特征在于,包括:接收用户提交的包含目标基因的基因检索请求;在数据库中查找与所述目标基因匹配的基因、变异和疾病之间的关联关系及所述关联关系的来源文献信息;对与所述来源文献信息对应的来源文献进行针对所述基因、所述变异和所述疾病的命名实体识别,并标注识别到的命名实体数据;在至少两个所述命名实体数据所在的关系类型共现语句中,确定命名实体之间的关系类型,在所述来源文献中标注所述关系类型。2.根据权利要求1所述的文献标注方法,其特征在于,所述对与所述来源文献信息对应的来源文献进行针对基因、变异和疾病的命名实体识别,包括:按照预设分词规则对所述来源文献中的各语句进行浅层分词和深层分词;将所述来源文献中的各语句输入预设的深度神经网络中,计算每一个输入的语句中各词语属于不同预设实体类型的概率值,所述深度神经网络由双向长短期记忆模型网络层和全连接网络层组成;结合传统机器学习维特比模型、条件随机场模型及状态转移算法,确定关于基因、变异和疾病的命名实体数据。3.根据权利要求1所述的文献标注方法,其特征在于,所述在至少两个所述命名实体数据所在的关系类型共现语句中,确定命名实体之间的关系类型,包括:查找所述命名实体数据所在的关系类型共现语句;在至少两个所述命名实体数据所在的关系类型共现语句中,查找位于预设关系类型指示词库中的关系类型指示词;将所述关系类型指示词映射至所述数据库中,确定与所述关系类型指示词对应的关系类型。4.根据权利要求1所述的文献标注方法,其特征在于,所述方法还包括:将与所述目标基因匹配的基因、变异和疾病之间的关联关系的来源文献信息更新为至少两个所述命名实体数据所在的关系类型共现语句。5.一种文献标注装置,其特征在于,包括:接收模块,用于接收用户提交的包含目标基因的基因检索请求;查找模块,用于在数据库中查找与所述目标基因匹配的基因、变异和疾病之间的关联关系及...

【专利技术属性】
技术研发人员:佟凡宋伟刘圣钱丹丹赵化育焦亚鑫李金秋
申请(专利权)人:北京迈迪培尔信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1