一种基于问答模型的病原微生物知识自动获取的方法技术

技术编号:39599269 阅读:11 留言:0更新日期:2023-12-03 19:59
本发明专利技术属于基因检测和人工智能相结合的技术领域,公开了一种基于问答模型的病原微生物知识自动获取的方法

【技术实现步骤摘要】
一种基于问答模型的病原微生物知识自动获取的方法、系统及装置


[0001]本专利技术涉及基因检测和人工智能相结合
,尤其涉及一种基于问答模型的病原微生物知识自动获取的方法

系统及装置


技术介绍

[0002]随着测序技术的快速发展,宏基因组二代测序
(mNGS)
在感染性疾病的临床应用越来越受到重视,可以辅助临床医生快速鉴定病原体

然而,从测序结果到临床诊疗,中间需要庞大的解读知识库的支撑

目前,这些解读知识库的构建都是依靠具有丰富经验的遗传分析师人工阅读大量文献资料去手动构建的,即以物种名作为关键词在
PubMed
或者其他搜索引擎中进行检索,通过题目判断并选取可能会包含所需信息的文献,逐一进行全文阅读,提取所需信息,并记录到数据表中

[0003]人工从文献中收集病原微生物知识存在着多种缺点

首先,文献数据庞大,以物种名作为关键词在
PubMed
中进行检索,结果可能高达数千篇文献

文献中所涉及的病原微生物信息需要进行整理

分类和归纳,需要进行复杂的数据处理和分析,工作量巨大

其次,病原微生物相关研究在不断发展和更新,人工收集文献中所描述的信息可能存在较大的时间滞后性,不能及时反映最新的研究进展和发现

[0004]因此,开发更加先进和高效的技术手段来自动



规范

高效地从海量文献数据中收集和整合病原微生物相关信息,提高信息的质量

全面性和实时性,从而构建高质量

规范化的病原微生物知识库,更好地支持病原微生物相关的研究和应用,是目前亟需解决的技术难题


技术实现思路

[0005]鉴于此,本专利技术的目的在于提供一种基于问答模型的病原微生物知识自动获取的方法

系统及装置,旨在解决上述
技术介绍
中提到的技术问题

[0006]为实现以上目的,第一方面,本专利技术提供了一种基于问答模型的病原微生物知识自动获取的方法,包括:
[0007]获取从预制网站首页输入的第一关键词,根据所述第一关键词从文献数据库中获取第一对象信息和第二对象信息;
[0008]对所述第一对象信息进行渲染显示处理,并将所述第二对象信息与所述预制网站的数据接口对接,以获取对象文件;
[0009]通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合;
[0010]获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集;
[0011]利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取
目标信息集合,将所述目标信息集合保存到对象数据库中

[0012]优选的,所述获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集包括:
[0013]获取第二关键词并判断所述第二关键词在所述对象信息集合中的文本关系;
[0014]根据所述文本关系并通过预设的高亮规则对所述对象信息集合进行逐级高亮处理;
[0015]构建待训练的数据集

[0016]优选的,所述文本关系包括所述第二关键词在所述句子中的位置和关联程度

[0017]优选的,所述通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合包括:
[0018]通过
HTML
标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合

[0019]优选的,所述
HTML
标签包括
<h1>

<h6>
标签和
<p>
标签,其中,所述
<h1>

<h6>
标签用于定位或提取文章的标题,所述
<p>
标签用于定位或提取文章的正文内容

[0020]优选的,所述第一关键词为物种名或文献的
PubMedID
,所述第一对象信息包括标题信息和摘要信息,所述第二对象信息包括
PubMedID
信息

[0021]优选的,所述利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合具体为:
[0022]以专门用于生物医学文本处理的
BioBERT
模型作为预设的训练模型;
[0023]利用经自然语言处理模型多样化处理的所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合

[0024]优选的,所述利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合具体为:
[0025]以专门用于生物医学文本处理的
BioBERT
模型作为预设的训练模型;
[0026]利用所述待训练的数据集对预设的训练模型进行训练,以得到中间训练模型;
[0027]由专业的评审人员对经所述中间训练模型预测的答案进行在线评审,以扩充所述待训练的数据集;
[0028]利用扩充后的所述待训练的数据集对预设的训练模型进行深度学习训练,以实现模型自动获取目标信息集合

[0029]第二方面,本专利技术提供了一种基于问答模型的病原微生物知识自动获取的系统,用于实现上述的方法,包括前端模块

文献获取模块

第二关键词高亮模块

文本挖掘模块和数据库模块

[0030]第三方面,本专利技术提供了一种基于问答模型的病原微生物知识自动获取的装置,包括上述的系统

[0031]综上所述,与现有技术相比,本专利技术提供了一种基于问答模型的病原微生物知识自动获取的方法

系统及装置,可以将审核后的知识提交到对象数据库中持久化地保存和管理,具有操作简单

能够极大减少人力的投入

以及预测答案的准确率高达
93
%等有益效果

附图说明
[0032]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0033]图1是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于问答模型的病原微生物知识自动获取的方法,其特征在于,包括:获取从预制网站首页输入的第一关键词,根据所述第一关键词从文献数据库中获取第一对象信息和第二对象信息;对所述第一对象信息进行渲染显示处理,并将所述第二对象信息与所述预制网站的数据接口对接,以获取对象文件;通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合;获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集;利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合,将所述目标信息集合保存到对象数据库中
。2.
如权利要求1所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集包括:获取第二关键词并判断所述第二关键词在所述对象信息集合中的文本关系;根据所述文本关系并通过预设的高亮规则对所述对象信息集合进行逐级高亮处理;构建待训练的数据集
。3.
如权利要求2所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述文本关系包括所述第二关键词在所述句子中的位置和关联程度
。4.
如权利要求1所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合包括:通过
HTML
标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合
。5.
如权利要求4所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述
HTML
标签包括
<h1>

<h6>
标签和
<p>
标签,其中,所述
<h1>

<h6&a...

【专利技术属性】
技术研发人员:王惠禤华俊陈焕鑫王文军
申请(专利权)人:深圳市合木千行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1