【技术实现步骤摘要】
一种基于问答模型的病原微生物知识自动获取的方法、系统及装置
[0001]本专利技术涉及基因检测和人工智能相结合
,尤其涉及一种基于问答模型的病原微生物知识自动获取的方法
、
系统及装置
。
技术介绍
[0002]随着测序技术的快速发展,宏基因组二代测序
(mNGS)
在感染性疾病的临床应用越来越受到重视,可以辅助临床医生快速鉴定病原体
。
然而,从测序结果到临床诊疗,中间需要庞大的解读知识库的支撑
。
目前,这些解读知识库的构建都是依靠具有丰富经验的遗传分析师人工阅读大量文献资料去手动构建的,即以物种名作为关键词在
PubMed
或者其他搜索引擎中进行检索,通过题目判断并选取可能会包含所需信息的文献,逐一进行全文阅读,提取所需信息,并记录到数据表中
。
[0003]人工从文献中收集病原微生物知识存在着多种缺点
。
首先,文献数据庞大,以物种名作为关键词在
PubMed
中进行检索,结果可能高达数千篇文献
。
文献中所涉及的病原微生物信息需要进行整理
、
分类和归纳,需要进行复杂的数据处理和分析,工作量巨大
。
其次,病原微生物相关研究在不断发展和更新,人工收集文献中所描述的信息可能存在较大的时间滞后性,不能及时反映最新的研究进展和发现
。
[0004]因此,开发更加先进和高效的技术手段来自动
、
准 ...
【技术保护点】
【技术特征摘要】
1.
一种基于问答模型的病原微生物知识自动获取的方法,其特征在于,包括:获取从预制网站首页输入的第一关键词,根据所述第一关键词从文献数据库中获取第一对象信息和第二对象信息;对所述第一对象信息进行渲染显示处理,并将所述第二对象信息与所述预制网站的数据接口对接,以获取对象文件;通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合;获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集;利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合,将所述目标信息集合保存到对象数据库中
。2.
如权利要求1所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集包括:获取第二关键词并判断所述第二关键词在所述对象信息集合中的文本关系;根据所述文本关系并通过预设的高亮规则对所述对象信息集合进行逐级高亮处理;构建待训练的数据集
。3.
如权利要求2所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述文本关系包括所述第二关键词在所述句子中的位置和关联程度
。4.
如权利要求1所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合包括:通过
HTML
标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合
。5.
如权利要求4所述的基于问答模型的病原微生物知识自动获取的方法,其特征在于,所述
HTML
标签包括
<h1>
‑
<h6>
标签和
<p>
标签,其中,所述
<h1>
‑
<h6&a...
【专利技术属性】
技术研发人员:王惠,禤华俊,陈焕鑫,王文军,
申请(专利权)人:深圳市合木千行科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。