一种基于大数据推理的智能分诊方法技术

技术编号:28132449 阅读:19 留言:0更新日期:2021-04-19 11:56
本发明专利技术属于人工智能技术领域,具体来说是涉及一种基于大数据推理的智能分诊方法。本发明专利技术主要包括:获取用户输入的描述语句,经过预处理后进行文本表示;根据文本表示,基于大数据推理的方法获得分诊信息;基于大数据推理的基础是将病历数据通过预处理转化为文本表示构建数据库,使得检索过程简单有效。本发明专利技术的有益效果是,使分诊过程实现了智能化,同时提高了智能分诊的准确性。高了智能分诊的准确性。高了智能分诊的准确性。

【技术实现步骤摘要】
一种基于大数据推理的智能分诊方法


[0001]本专利技术属于人工智能
,具体来说是涉及一种基于大数据推理的智能分诊方法。

技术介绍

[0002]随着人民生活条件的不断改善,对于健康的需求也越来越旺盛。近年来,各大医院的门急诊量急剧增长,特别是处于行业领先地位的医院。而对应还面临的问题包括:患者缺乏医疗健康知识,不清楚就诊什么科室,进一步加剧了医疗分诊的压力。还导致医生的工作负荷大,没有足够的时间回答患者的所有问题,在某种程度上造成医患关系紧张,同时也带来医疗质量难以保证的问题。在患者方,部分患者为能快速就诊,往往采取首选急诊的方式,又进一步降低了医院的救治效率。
[0003]为了解决此类问题,目前已有人工分诊台以及为用户提供自主分诊服务的应用程序,主要是针对诊前咨询,给诊疗做出指导。而目前的分诊程序冗余度较高,智能化程度较低,导致用户体验差,并不能有效的实现智能化分诊的目的。

技术实现思路

[0004]本专利技术的目的,是针对上述问题,提出一种基于大数据推理的智能分诊方法,仅需获取用户日常化的描述语句,在后台进行一系列转化处理,即可为用户提供分诊服务,并且基于大数据推理的方法,有效提高分诊的准确度。
[0005]本专利技术的技术方案是:一种基于大数据推理的智能分诊方法,其特征在于,包括:
[0006]获取用户输入的描述语句,经过预处理后进行文本表示;
[0007]根据文本表示,基于大数据推理的方法获得分诊信息。
[0008]进一步的,所述预处理的具体方法包括:
[0009]1)删除否定短语;
[0010]2)通过语法分析,将语句分为三类:第一类语句为名词+形容词/名词+动词,定义为N

A/N

V式,第二类语句为数量式短语,第三类语句为其他类型短语;
[0011]3)进行中文分词和噪音消除:对第一类语句,使用键值对分词法,即将名词作为键值,形容词/动词作为对应键值的属性;对第二类语句,采用数值判断的方式转为键值对表示,具体为根据数据库中的标准,将具体数据转化为文本作为键值的属性,包括偏高、偏低、正常,同样名词作为键值;对第三类语句,使用MeCab进行中文分词,得到平行单词;
[0012]4)特征选择:对于键值对,直接提取键值加入到关键特征集;对于平行单词,采用信息增益算法选择出重要单词,将重要单词加入关键特征集;
[0013]5)对关键特征集进行赋值,即根据键值对应的所有属性值从0开始编号,不同属性通过不同的阿拉伯数字进行区分,获得文本表示。
[0014]进一步的,所述基于大数据推理的方法获得分诊信息的具体方法为:
[0015]1)获取病历数据,将病历数据按照关键词和诊断结果进行存储,具体为:使用每一
篇病历的诊断结果即疾病名替换文章名,将病历中的数据进行预处理转化为文本表示,使用mysql数据库进行疾病名+文本表示的格式进行存储;
[0016]2)设定一个病症对应一个关键特征,判断获得的文本表示中病症是否小于3个,若是,则认为当前获得的描述语句不足以分诊,生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,进入步骤3);
[0017]3)判断病症是否小于5个,若是,则根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并根据病历对应的诊断结果,按照设定的规则进行分诊。
[0018]进一步的,使用mysql进行存储时,若多个病历具有相同的诊断结果,则将病历进行合并。
[0019]本专利技术的有益效果是,使分诊过程实现了智能化,同时提高了智能分诊的准确性。
附图说明
[0020]图1为预处理模型示意图;
[0021]图2为键值对分词法示意图;
[0022]图3为键值对分词示例;
[0023]图4为数量式短语示例;
[0024]图5为数量式短语转键值对示例;
[0025]图6为关键特征集示意图;
[0026]图7为文本向量表示方法示意图。
具体实施方式
[0027]下面结合附图详细描述本专利技术的技术方案:
[0028]本专利技术的方法可以概括为:将病历库中数据按照关键词和诊断结果进行存储,根据用户输入的症状通过关键词进行文档相似度匹配,根据匹配度最高的病历对应的疾病进行分诊指导。
[0029]本专利技术基于大数据推导的分诊,首先是基于对输入语句的处理,将其转化为便于处理检索的文本表示,通常如果根据用户的描述自己进行关键词检索,可能会检索出非常多的结果,比如关键词为“头痛”,那么检索得到的对应的病历可能几十甚至几百种,那么这种检索就毫无意义,没有任何分诊指导价值。
[0030]如图1所示,为本专利技术中对病历描述的预处理模型,对用户输入的描述语句也是相同的处理方式。具体包括:
[0031](1)删除否定短语。比如:头颅无畸形,淋巴结不肿大,无意义。
[0032](2)语法分析,一共分为三类(可以使用Stanford CoreNLP语法分词工具)
[0033]①
N

A/N

V式;名词+形容词,名词+动词。比如:神情痛苦,面部抽搐。
[0034]②
数量式短语;比如:体温380C
[0035]③
其他类型短语。
[0036](3)中文分词和噪音消除
[0037]①
N

A/N

V式,使用键值对分词法,如图2所示。形式如下
[0038]比如:脊柱两侧肌肉紧张有压痛,分词结果如图3所示。
[0039]②
数量式短语,从数值判断到键值对。
[0040]数量短语基本都是测量值,所以依然可以使用键值对来进行表示。同时,根据项目名匹配数据库中标准,将数据替换成偏高,偏低等。如图4所示,其中WBC表示白细胞,HGB表示血红蛋白,RBC表示红细胞,PLT表示血小板,这个数据可以表示成如图5所示。
[0041]③
其他句型,可以使用MeCab进行中文分词,得到平行单词。
[0042](4)特征选择:
[0043]①
于键值对:直接提取键值加入到关键特征集;
[0044]②
于平行单词,使用信息增益算法,选择重要单词加入关键特征集。
[0045]如图6所示,在病历中,可能存在多个病历对应相同诊断结果的情况,每个病历经过预处理后获得一个关键特征集,一个诊断结果就可能对应多个关键特征集,将不同关键特征集按文本+阿拉伯数字的方式进行标号,获得一个总的关键特征集,将关键特征集里所有内容加上标签,图6中其中的W1,W2,

,W9就是标签。
[0046]将键值对应的所有属性值从0开始编号:比如:体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据推理的智能分诊方法,其特征在于,包括:获取用户输入的描述语句,经过预处理后进行文本表示;根据文本表示,基于大数据推理的方法获得分诊信息。2.根据权利要求1所述的一种基于大数据推理的智能分诊方法,其特征在于,所述预处理的具体方法包括:1)删除否定短语;2)通过语法分析,将语句分为三类:第一类语句为名词+形容词/名词+动词,定义为N

A/N

V式,第二类语句为数量式短语,第三类语句为其他类型短语;3)进行中文分词和噪音消除:对第一类语句,使用键值对分词法,即将名词作为键值,形容词/动词作为对应键值的属性;对第二类语句,采用数值判断的方式转为键值对表示,具体为根据数据库中的标准,将具体数据转化为文本作为键值的属性,包括偏高、偏低、正常,同样名词作为键值;对第三类语句,使用MeCab进行中文分词,得到平行单词;4)特征选择:对于键值对,直接提取键值加入到关键特征集;对于平行单词,采用信息增益算法选择出重要单词,将重要单词加入关键特征集;5)对关键特征集进行赋值,即根据键值对应的所有属性值从0开始编号,不同属...

【专利技术属性】
技术研发人员:崔桂鹏
申请(专利权)人:重庆中肾网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1