口语化医疗问答方法及系统技术方案

技术编号:20992667 阅读:41 留言:0更新日期:2019-04-29 22:37
本发明专利技术涉及一种口语化医疗问答方法及系统,所述口语化医疗问答方法包括:根据历史数据,构建医疗实体字典;基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;通过词向量表达方法,对训练数据进行同义词处理,得到同义词组;对同义词组进行归一化处理,得到标准表达术语,以使医学专业术语统一;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;根据用户输入的医疗问题,基于所述检索库,确定医疗答案。从而提高医疗问答的准确性和快速性。

Oral Medical Question Answering Method and System

The invention relates to a spoken medical question-and-answer method and system. The spoken medical question-and-answer method includes: constructing a medical entity dictionary based on historical data; determining training data from spoken medical corpus based on medical entity dictionary; the medical corpus includes question-and-answer data; and processing training data by word vector expression method to obtain synonyms. Synonym phrases; normalize synonym phrases to get standard expression terms so as to unify medical professional terms; establish retrieval database based on training data of question and answer, the same phrase and corresponding standard expression terms; and determine medical answers based on the medical questions inputted by users. In order to improve the accuracy and rapidity of medical questions and answers.

【技术实现步骤摘要】
口语化医疗问答方法及系统
本专利技术涉及医疗及计算机处理
,特别涉及一种口语化医疗问答方法及系统。
技术介绍
随着人口老龄化的来临,我国的医疗资源日益紧张,而医疗需求不断增长。利用人工智能辅助医生、提高医疗系统运转效率是发展的必由之路。医疗问答的具体定义是:用户(患者)提出具体的问题,系统通过人工智能技术向用户提供相应答案。例如:Q:宝宝发烧了怎么办?A:如果不超过38.5度可以先考虑物理降温,超过38.5度则需要及时到医院就诊。医疗问答是辅助医患沟通的重要工具,可以嵌入在医生随访系统中,帮助医生及时回复患者的问题,也可作为参考知识供患者及家属学习。医疗问答同时也能满足用户的泛医疗需求,即用户对医疗知识、日常保健等医疗健康知识的获取。医疗问答可以更加精准地满足用户的需求,而不需要用户从大量信息中进行筛选。现有的医疗问答技术方案主要有以下三种:1)基于信息抽取。通过信息抽取获取关键词,再进行排序。2)基于知识图谱。通过通过构建实体及其关系的知识图谱,在图谱上进行推理回答问题。3)基于深度学习。基于深度神经网络建模,计算问答匹配程度。上述方法均存在一些缺陷:1)基于信息抽取方式:基于信息抽取的方式只能匹配一些关键词,无法有效处理同义词、近义词,以及医疗术语的口语化表达。2)基于知识图谱方式:基于知识图谱的问答只能回答答案为一个实体的问题,而不能面向开放问题进行回答。例如前述问题“宝宝发烧了怎么办?”,基于知识图谱的方法无法通过描述性的语句进行回答。3)基于深度学习方式:已有方法没有针对医疗领域的特殊性进行优化。例如医疗领域涉及大量的医疗实体(疾病、症状、药品),因此需要构建专门的医疗字典;医疗领域还常常涉及医用名词及口语表示的同义关系,因此需要构建同义词词典;此外医疗实体间还往往存在从属关系,例如细菌性肺炎、病毒性肺炎都是肺炎的一种,直接学习的词向量往往无法充分表征其中的关联与区别,因此需要通过字符级别的向量进行表示。综上所述,由于无法准确区分医疗口语,导致医疗问答的错误理解、医疗问答的效率低、速度慢。
技术实现思路
为了解决现有技术中的上述问题,即为了解决医疗口语化问题,本专利技术的目的在于提供一种口语化医疗问答方法及系统,可准确将医疗口语化准换为标准术语。为解决上述技术问题,本专利技术提供了如下方案:一种口语化医疗问答方法,所述口语化医疗问答方法包括:根据历史数据,构建医疗实体字典;基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;通过词向量表达方法,对训练数据进行同义词处理,得到同义词组;对同义词组进行归一化处理,得到标准表达术语,以使医学专业术语统一;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;根据用户输入的医疗问题,基于所述检索库,确定医疗答案。可选的,所述口语化医疗问答方法还包括:将所述训练数据添加到所述医疗实体字典中,以更新医疗实体字典。可选的,所述根据历史数据,构建医疗实体字典,具体包括:通过网络爬虫技术获取医疗百科、知识库和教材至少一者中公开的医疗数据;基于规则、命名实体识别方法,对公开的医疗数据进行处理,获取医疗实体字典。可选的,所述基于医疗实体字典,从口语化的医疗语料中确定训练数据,具体包括:根据医疗实体字典,对所述医疗语料进行分词,得到训练数据。可选的,所述通过词向量表达方法,对训练数据进行同义词处理,得到同义词组,具体包括:针对每一训练数据,计算所述训练数据分别与其他训练数据之间的余弦距离;将各余弦距离与设定的距离阈值进行比较,得到同义词组,所述同义词组为余弦距离小于距离阈值的各个训练数据。可选的,所述口语化医疗问答方法还包括:根据用户输入的医疗问题,确定问题的标准表达术语。可选的,所述根据用户输入的医疗问题,基于所述检索库,确定医疗答案,具体包括:根据所述问题的标准表达术语,确定该问题表征的相似的同义词;根据该问题表征的相似的同义词,确定各同义词对应的答案的标准表达术语,得到多对分别对应问题和答案的标准表达术语;基于长短期记忆网络LSTM,分别确定每对标准表达术语的问题特征向量和答案特征向量;将每对的题特征向量和答案特征向量拼接,输入到两层全连接神经网络中,输出预测问答匹配程度的分值;比较各个分值,确定分值最大的答案标准表达术语。可选的,所述根据用户输入的医疗问题,基于所述检索库,确定医疗答案,具体包括:根据所述问题的标准表达术语,确定该问题表征的相似的同义词;根据该问题表征的相似的同义词,确定各同义词对应的答案的标准表达术语,得到多对分别对应问题和答案的标准表达术语;基于长短期记忆网络LSTM,分别确定每对标准表达术语的问题特征向量和答案特征向量;针对每对标准表达术语,分别计算问题特征向量和答案特征向量的余弦距离;确定其中最小余弦距离对应的答案的标准表达术语。为解决上述技术问题,本专利技术还提供了如下方案:一种口语化医疗问答系统,所述口语化医疗问答系统包括:字典构建单元,用于根据历史数据,构建医疗实体字典;数据确定单元,用于基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;同义词处理单元,用于通过词向量表达方法,对训练数据进行同义词处理,得到同义词组;归一化处理单元,用于对同义词组进行归一化处理,得到标准表达术语,以使医学专业术语统一;检索库建立单元,用于基于问、答的训练数据及对应的标准表达术语,建立检索库;答案确定单元,用于根据用户输入的医疗问题,基于所述检索库,确定医疗答案。可选的,所述口语化医疗问答系统还包括:字典更新单元,用于将所述训练数据添加到所述医疗实体字典中,以更新医疗实体字典。根据本专利技术的实施例,本专利技术公开了以下技术效果:本专利技术根据历史数据,构建医疗实体字典,进而从口语化的医疗语料中确定训练数据;通过对训练数据进行同义词处理,得到同义词组;再通过归一化处理,得到标准表达术语;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;从而可根据用户输入的医疗问题,确定医疗答案,提高医疗问答的准确性和快速性。附图说明图1是本专利技术口语化医疗问答方法的流程图;图2是本专利技术口语化医疗问答系统的模块结构示意图。符号说明:字典构建单元—1,数据确定单元—2,同义词处理单元—3,检索库建立单元—4,答案确定单元—5。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。本专利技术的目的是提供一种口语化医疗问答方法,根据历史数据,构建医疗实体字典,进而从口语化的医疗语料中确定训练数据;通过对训练数据进行同义词处理,得到同义词组;再通过归一化处理,得到标准表达术语;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;从而可根据用户输入的医疗问题,确定医疗答案,提高医疗问答的准确性和快速性。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术口语化医疗问答方法包括:步骤100:根据历史数据,构建医疗实体字典;步骤200:基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;步骤300:通过词向量表达本文档来自技高网
...

【技术保护点】
1.一种口语化医疗问答方法,其特征在于,所述口语化医疗问答方法包括:根据历史数据,构建医疗实体字典;基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;通过词向量表达方法,对训练数据进行同义词处理,得到同义词组;对同义词组进行归一化处理,得到标准表达术语,以使医学专业术语统一;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;根据用户输入的医疗问题,基于所述检索库,确定医疗答案。

【技术特征摘要】
1.一种口语化医疗问答方法,其特征在于,所述口语化医疗问答方法包括:根据历史数据,构建医疗实体字典;基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;通过词向量表达方法,对训练数据进行同义词处理,得到同义词组;对同义词组进行归一化处理,得到标准表达术语,以使医学专业术语统一;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;根据用户输入的医疗问题,基于所述检索库,确定医疗答案。2.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述口语化医疗问答方法还包括:将所述训练数据添加到所述医疗实体字典中,以更新医疗实体字典。3.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述根据历史数据,构建医疗实体字典,具体包括:通过网络爬虫技术获取医疗百科、知识库和教材至少一者中公开的医疗数据;基于规则、命名实体识别方法,对公开的医疗数据进行处理,获取医疗实体字典。4.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述基于医疗实体字典,从口语化的医疗语料中确定训练数据,具体包括:根据医疗实体字典,对所述医疗语料进行分词,得到训练数据。5.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述通过词向量表达方法,对训练数据进行同义词处理,得到同义词组,具体包括:针对每一训练数据,计算所述训练数据分别与其他训练数据之间的余弦距离;将各余弦距离与设定的距离阈值进行比较,得到同义词组,所述同义词组为余弦距离小于距离阈值的各个训练数据。6.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述口语化医疗问答方法还包括:根据用户输入的医疗问题,确定问题的标准表达术语。7.根据权利要求6所述的口语化医疗问答方法,其特征在于,所述根据用户输入的医疗问题,基于所述检索库,确定医疗答案,具体包括:根据所述问题...

【专利技术属性】
技术研发人员:汪天一孙正雅张文生
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1