当前位置: 首页 > 专利查询>东北大学专利>正文

问诊信息的处理方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:24891492 阅读:45 留言:0更新日期:2020-07-14 18:17
本发明专利技术公开了一种问诊信息的处理方法、装置、存储介质及计算机设备,涉及人工智能技术领域,主要目的在于能够接收并识别患者答语信息,通过分词处理提取关键词,并匹配对应的问题信息,利用强化学习模型构建最优问诊路径并输出所述路径终点对应的问诊信息,从而根据答语匹配到更加准确的问题信息,提高问诊的准确率和问诊效率。所述方法包括:获取语音转录的答语文本数据;对答语文本数据进行分词处理;通过特征提取得到答语文本数据的数值向量;根据预设的答问匹配算法以及答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、答语文本数据特征向量以及问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。

【技术实现步骤摘要】
问诊信息的处理方法、装置、存储介质及计算机设备
本专利技术涉及人工智能
,特别是涉及一种问诊信息的处理方法、装置、存储介质及计算机设备。
技术介绍
在眩晕症诊治过程中,对眩晕患者的详细问诊是减少误诊误治的关键环节。由于患者经常不能准确表述患病的主要特征,此时就需要医生有耐心有技巧的引导和准确的鉴别才能得到准确的诊断。可是临床大部分眩晕患者误诊误治源自医生经验不足,问诊时间不够,这是短期内很难改变的临床问题。因此,人工智能技术在问诊环节得到越来越多的应用。目前,人工智能问诊通常是预先设计好问题,记录对应答案至数据库并不断更新,问诊时返回库中答案相关项供患者选择,从而完成问诊过程。然而,这种问诊方法只是利用固定答案选项对患者进行问卷调查或者简单记录,限制了患者的表述;另外,若患者自身对文字的理解和书写有困难,对于病症专业术语理解有偏误时,容易丢失或误诊关键问诊信息,导致问诊的准确率和效率较低。
技术实现思路
有鉴于此,本专利技术提供一种问诊信息的处理方法、装置、存储介质及计算机设备,主要目的在于能够通过接收并识别患者答语信息,通过分词标注并处理提取患者答语中映射的关键词,并匹配对应的问题信息,利用强化学习模型构建最优问诊路径并输出所述路径终点对应的问诊信息,从而根据答语匹配更加准确的问题信息,提高问诊的准确率和问诊效率。依据本专利技术一个方面,提供了一种问诊信息的处理方法,包括:获取语音转录的答语文本数据;对所述答语文本数据进行分词处理;通过特征提取得到所述答语文本数据的特征向量;根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息。可选地,所述对所述答语文本数据进行分词处理,包括:利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;和/或利用预先训练的分词模型对所述答语文本数据进行分词处理。可选地,所述通过特征提取得到所述答语文本数据的特征向量,包括:利用doc2bow方法计算统计分布参数;通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。可选地,所述根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据,包括:利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;和/或对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;利用测试答语得到的每个长句主题对应的意图数据项数进行排序,并与预先处理的意图数据库中的问题文本数据进行对比,以得到意图相似度最高的问题文本数据。进一步地,所述利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息,包括:利用预先训练的强化学习模型对所述答语文本数据特征向量以及所述问题文本数据进行处理,得到最优问诊路径;输出所述路径终点对应的问诊信息。进一步地,所述方法还包括:在本地建立所述意图数据与所述疾病信息的映射关系。可选地,所述获取答语文本数据之前,所述方法还包括:获取问诊文本数据,所述问诊文本数据包括问题文本数据以及答语文本数据;建立问诊文本语料库,将所述问题文本数据保存至所述语料库中的问题列表中,将所述答语文本数据保存至所述语料库中的答语列表中。依据本专利技术第二方面,提供了一种问诊信息的处理装置,包括:第一获取单元,用于获取语音转录的答语文本数据;分词单元,用于对所述答语文本数据进行分词处理;提取单元,用于通过特征提取得到所述答语文本数据的特征向量;匹配单元,用于根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;输出单元,用于利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据特征向量索引构建最优问诊路径,并输出所述路径终点对应的问诊信息。可选地,所述分词单元,包括:第一分词模块,用于利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;和/或第二分词模块,用于利用预先训练的分词模型对所述答语文本数据进行分词处理。可选地,所述提取单元,包括:计算模块,用于利用doc2bow方法计算统计分布参数;转化模块,用于通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;确定模块,用于通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;组合模块,用于通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。可选地,所述匹配单元,包括:模拟模块,用于利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;和/或聚类模块,用于对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;映射模块,用于在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;检索模块,用于在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;排序模块,用于利用测试答语得到的每个长句主题对应的意图数据项数进行排序,并与预先处理的意图数据库中的问题文本数据进行对比,以得到意图相似度最高的问题文本数据。进一步地,所述输出单元,包括:处理模块,用于利用预先训练的强化学习模型对所述答语文本数据特征向量以及所述问题文本数据进行处理,得到最优问诊路径;输出模块,用于输出所述路径终点对应的问诊信息。进一步地,所述方法还包括:映射单元,用于在本地建立所述意图数据与所述疾病信息的映射关系。可选地,所述方法还包括:第二获取单元,用于获取问诊文本数据,所述问诊文本数据包括问题文本数据以及答语文本数据;建立单元,用于建立问诊文本语料库,将所述问题文本数据保存至所述语料库中的问题列表中,将所述答语文本数据保存至所述语料库中的答语列表中。依据本专利技术第三方面,提本文档来自技高网...

【技术保护点】
1.一种问诊信息的处理方法,其特征在于,包括:/n获取语音转录的答语文本数据;/n对所述答语文本数据进行分词处理;/n通过特征提取得到所述答语文本数据的特征向量;/n根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;/n利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息。/n

【技术特征摘要】
1.一种问诊信息的处理方法,其特征在于,包括:
获取语音转录的答语文本数据;
对所述答语文本数据进行分词处理;
通过特征提取得到所述答语文本数据的特征向量;
根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;
利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息。


2.根据权利要求1所述的方法,其特征在于,所述对所述答语文本数据进行分词处理,包括:
利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;
和/或
利用预先训练的分词模型对所述答语文本数据进行分词处理。


3.根据权利要求1所述的方法,其特征在于,所述通过特征提取得到所述答语文本数据的特征向量,包括:
利用doc2bow方法计算统计分布参数;
通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;
通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;
通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。


4.根据权利要求1所述的方法,其特征在于,所述根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据,包括:
利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;
和/或
对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;
在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;
在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;
利用测试答语得到的每个长句主题对应的意图数据项数进行排序,并与预先处理的意图数据库中的问题文本数据...

【专利技术属性】
技术研发人员:柴东
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1