基于知识图谱的急诊问答系统构建方法技术方案

技术编号:24251596 阅读:65 留言:0更新日期:2020-05-22 23:36
本发明专利技术提出了一种基于知识图谱的急诊分诊问答系统,其主要功能为对急诊进行分级,分诊及其他一般问题应答。首先通过结合网络上垂直类医疗网站的数据,医疗类专家知识和专业医学文献构建了一个实体类型超过2.4万的知识图谱,其次基于字符串匹配算法实现了问答系统。该问答系统的构建包括以下步骤:根据关键词对用户问题进行分类;根据分类结果,获取领域词及实体类型;在构建好的知识图谱中进行查询并给出回答。目前急诊的分诊分级系统大多采用人工实现,而本发明专利技术利用知识图谱,提高了目前急诊问答系统的速度和准确性;增添了一般问题应答使得系统更完善和人性化;并且使用没有专业知识门槛,可以帮助最大限度的挽救急诊患者的生命。

The construction method of emergency Q & a system based on Knowledge Map

【技术实现步骤摘要】
基于知识图谱的急诊问答系统构建方法
本专利技术涉及一种基于知识图谱的急诊分诊问答系统构建方法,属于知识图谱医疗问答系统

技术介绍
随着急诊急救技术水平的不断提高,急、危重症患者的急救成功率也逐步提高,能否对急诊患者病情严重程度正确评估和分诊,是患者的倒计时救治抢救成功的关键。急诊护士预检分诊使患者进入急诊室得到救治的第一个关键环节,而急诊分诊管理的难点在于病情复杂、疑难病例多、短时间患者可提供信息少,如不能正确分诊,则影响专科救治的时效,并且容易导致专科分流患者不畅,患者在急诊室逗留时间长等问题。当今急诊分诊的实施主要是由分诊护士人工完成,急诊护士要根据患者主诉及主要症状,安排分诊专科就诊。若要做到快速准确分诊,需要急诊护士具有过硬的专业素质,能根据突发的各种情况做出快速精准判断。这对急诊护士来说是一个巨大考验。知识图谱作为近两年在大数据时代下新颖的知识组织与检索技术,其知识组织和展示的优势逐渐体现出来,受到众多领域的关注,成为当前的研究热点。它凭借着自己强大的语义处理能力和开放组织能力,将互联网中大规模的,组织结构松散的数据通过三元组的形式相互连接,构成网状的语义知识库,实现了数据的结构化和可视化,大大提升了知识查询的效率。目前,网络搜索、地图、金融等越来越多领域,对知识图谱的依赖症日益增长。然而在医疗领域,知识图谱主要应用于门诊中对一些医学影像的识别,在急诊以及文本处理方面,尤其是具备分诊分级功能的知识图谱应用,还稍显欠缺。经检索发现,申请号为201910125877.6的中国专利公开了一种保险行业知识图谱问答系统构建方法及装置,该方法在知识图谱构建方面,在融合部分采用融合同种类别数据的方式;在问答系统构建方面,仅仅利用基于规则匹配的方法构建问答系统。
技术实现思路
本专利技术所要解决的技术问题是,克服现有技术的不足而提供一种基于知识图谱的急诊问答系统构建方法,用于提高急诊护士分诊效率和准确率,缓解专科分流患者不畅、患者在急诊室逗留时间过长、急诊室秩序混乱的问题,使患者可以更快速精确地明确疾病等级并分配到对应诊室;并且在此基础上增加了对病因、饮食、药品方面的咨询,使患者更清楚直观地了解自己的病情以及如何更有效地辅助调理。本专利技术提供一种基于知识图谱的急诊问答系统构建方法,其特征在于,包括以下步骤:步骤1、定义知识图谱实体、关系与疾病属性,并获取急诊数据;步骤2、对三元组形式的知识图谱进行实体融合与可视化展示;步骤3、构建急诊分诊问答系统,该系统包括问句分类、问句解析和查询结果三个部分。本专利技术设计的基于知识图谱的急诊分诊问答系统,其主要功能为对急诊进行分级,分诊及其他一般问题应答。首先通过结合网络上垂直类医疗网站的数据,医疗类专家知识和专业医学文献构建了一个实体类型超过2.4万的知识图谱,其次基于字符串匹配算法实现了问答系统。该问答系统的构建包括以下步骤:根据关键词对用户问题进行分类;根据分类结果,获取领域词及实体类型;在构建好的知识图谱中进行查询并给出回答。目前急诊的分诊分级系统大多采用人工实现,而本专利技术利用知识图谱,提高了目前急诊问答系统的速度和准确性;增添了一般问题应答使得系统更完善和人性化;并且使用没有专业知识门槛,可以帮助最大限度的挽救急诊患者的生命。本专利技术进一步优化的技术方案如下:进一步的,所述步骤1的具体方法如下:步骤101、设计六类实体类型,包括诊室、级别、疾病、症状、药品与食品;步骤102、设计六类关系类型,包括belongs_to、rank_of、do_eat、not_eat、recommand_drug与has_symptom;步骤103、设计八类疾病属性类型,包括名称、简介、病因、诊室、治疗周期、治疗方式、治愈概率与易感人群;步骤104、通过基于python的网络爬虫技术获取网络中的垂直类医疗网站的急诊数据,该急诊数据包括诊室、疾病、症状、药品与食品数据;步骤105、通过专家知识与医学文献人工添加级别数据。进一步的,所述步骤2的具体方法如下:步骤201、对爬取的半结构化数据进行预处理,并根据预定义的实体-关系模型进行关系链接,形成三元组形式的知识图谱;步骤202、采用如下公式计算属性相似度,其中,simDice(s,t)表示基于Dice系数的属性s与属性t的相似度,|ScapT|表示属性s的字符串与属性t的字符串中相同字符的个数,|S|表示属性s的字符串长度,|T|表示属性t的字符串长度;步骤203、采用K-means聚类算法与Canopy相结合的聚类算法将潜在匹配的实体对进行聚类;步骤204、将实体融合后的知识图谱导入Neo4j图数据库进行图谱的可视化,并等待下一步的图谱搜索。上述实体融合后的知识图谱就是指最终的知识图谱,是根据步骤201和实体融合获得。进一步的,所述步骤203中,采用K-means与Canopy相结合的聚类算法将潜在匹配的实体对进行聚类的具体方法如下:为所有实体选取两个阈值T1与T2,且T1大于T2;选取一实体作为第一个聚类,再选取另一实体计算该实体到所有聚类的欧氏距离d,并将d小于T1的实体加入第一聚类,若d大于T1,则将该实体作为一个新的聚类,而若d大于T1且小于T2,则不将该实体加入任何聚类;重复上述过程,直到所有实体均进行过计算。进一步的,所述步骤3的具体方法如下:步骤301、构造用于问句分类的类,在其中定义特征词、领域词与问句疑问词;步骤302、构建Aho-Corasick字符串匹配算法,该算法包括trie字符串索引词典与Aho-Corasick自动机两种数据结构;步骤303、急诊病人输入问句后,通过Aho-Corasick字符串匹配算法匹配问句中的领域词,并收集问句中涉及的实体类型,再检查问句中是否含有该实体类型中的某种特征词,以判断问句的类型,问句类型及其对应问句疑问词如表1;表1问句类型及其问句疑问词步骤304、根据问句分类后的结果对问句进行解析,利用问句中的领域词及其对应的实体类型合并组装成形如{‘实体类型’:[‘领域词’],...}的分类字典;步骤305、将所得的分类字典转换为Neo4j图数据库的Cypher语言在知识图谱中查询,并将查询结果和回答框架相结合,最后输出最终的回答。本专利技术基于知识图谱的急诊问答系统构建方法使用了如下技术:(1)爬虫技术。利用爬虫技术爬取了急诊分诊及问答所需要的病因、症状、检查、饮食保健、科室、药品、药品产商相关类型别的数据,并经过预处理生成有标签的结构化急诊数据集medical。(2)Neo4j数据库。将已经构建了关系的实体以三元组的形式导入到Neo4j数据库当中并构建了一个可视化的知识图谱,可在Neo4j数据库中直观地观察知识图谱中实体与实体之间的关联。后续的答案匹配也将在Neo4j中直接查询。(3)Aho-C本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的急诊问答系统构建方法,其特征在于,包括以下步骤:/n步骤1、定义知识图谱实体、关系与疾病属性,并获取急诊数据;/n步骤2、对三元组形式的知识图谱进行实体融合与可视化展示;/n步骤3、构建急诊分诊问答系统,该系统包括问句分类、问句解析和查询结果三个部分。/n

【技术特征摘要】
1.一种基于知识图谱的急诊问答系统构建方法,其特征在于,包括以下步骤:
步骤1、定义知识图谱实体、关系与疾病属性,并获取急诊数据;
步骤2、对三元组形式的知识图谱进行实体融合与可视化展示;
步骤3、构建急诊分诊问答系统,该系统包括问句分类、问句解析和查询结果三个部分。


2.根据权利要求1所述基于知识图谱的急诊问答系统构建方法,其特征在于,所述步骤1的具体方法如下:
步骤101、设计六类实体类型,包括诊室、级别、疾病、症状、药品与食品;
步骤102、设计六类关系类型,包括belongs_to、rank_of、do_eat、not_eat、recommand_drug与has_symptom;
步骤103、设计八类疾病属性类型,包括名称、简介、病因、诊室、治疗周期、治疗方式、治愈概率与易感人群;
步骤104、获取网络中的垂直类医疗网站的急诊数据,该急诊数据包括诊室、疾病、症状、药品与食品数据;
步骤105、通过专家知识与医学文献人工添加级别数据。


3.根据权利要求1所述基于知识图谱的急诊问答系统构建方法,其特征在于,所述步骤2的具体方法如下:
步骤201、对爬取的半结构化数据进行预处理,并根据预定义的实体-关系模型进行关系链接,形成三元组形式的知识图谱;
步骤202、采用如下公式计算属性相似度,



其中,表示基于系数的属性与属性的相似度,表示属性的字符串与属性的字符串中相同字符的个数,表示属性的字符串长度,表示属性的字符串长度;
步骤203、采用K-means与Canopy相结合的聚类算法...

【专利技术属性】
技术研发人员:陈可佳冯子恩刘羿万晓娴乔凯
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1