The invention relates to a spoken medical question-and-answer method and system. The spoken medical question-and-answer method includes: constructing a medical entity dictionary based on historical data; determining training data from spoken medical corpus based on medical entity dictionary; the medical corpus includes question-and-answer data; and processing training data by word vector expression method to obtain synonyms. Synonym phrases; normalize synonym phrases to get standard expression terms so as to unify medical professional terms; establish retrieval database based on training data of question and answer, the same phrase and corresponding standard expression terms; and determine medical answers based on the medical questions inputted by users. In order to improve the accuracy and rapidity of medical questions and answers.
【技术实现步骤摘要】
口语化医疗问答方法及系统
本专利技术涉及医疗及计算机处理
,特别涉及一种口语化医疗问答方法及系统。
技术介绍
随着人口老龄化的来临,我国的医疗资源日益紧张,而医疗需求不断增长。利用人工智能辅助医生、提高医疗系统运转效率是发展的必由之路。医疗问答的具体定义是:用户(患者)提出具体的问题,系统通过人工智能技术向用户提供相应答案。例如:Q:宝宝发烧了怎么办?A:如果不超过38.5度可以先考虑物理降温,超过38.5度则需要及时到医院就诊。医疗问答是辅助医患沟通的重要工具,可以嵌入在医生随访系统中,帮助医生及时回复患者的问题,也可作为参考知识供患者及家属学习。医疗问答同时也能满足用户的泛医疗需求,即用户对医疗知识、日常保健等医疗健康知识的获取。医疗问答可以更加精准地满足用户的需求,而不需要用户从大量信息中进行筛选。现有的医疗问答技术方案主要有以下三种:1)基于信息抽取。通过信息抽取获取关键词,再进行排序。2)基于知识图谱。通过通过构建实体及其关系的知识图谱,在图谱上进行推理回答问题。3)基于深度学习。基于深度神经网络建模,计算问答匹配程度。上述方法均存在一些缺陷:1)基于信息抽取方式:基于信息抽取的方式只能匹配一些关键词,无法有效处理同义词、近义词,以及医疗术语的口语化表达。2)基于知识图谱方式:基于知识图谱的问答只能回答答案为一个实体的问题,而不能面向开放问题进行回答。例如前述问题“宝宝发烧了怎么办?”,基于知识图谱的方法无法通过描述性的语句进行回答。3)基于深度学习方式:已有方法没有针对医疗领域的特殊性进行优化。例如医疗领域涉及大量的医疗实体(疾病、症状、 ...
【技术保护点】
1.一种口语化医疗问答方法,其特征在于,所述口语化医疗问答方法包括:根据历史数据,构建医疗实体字典;基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;通过词向量表达方法,对训练数据进行同义词处理,得到同义词组;对同义词组进行归一化处理,得到标准表达术语,以使医学专业术语统一;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;根据用户输入的医疗问题,基于所述检索库,确定医疗答案。
【技术特征摘要】
1.一种口语化医疗问答方法,其特征在于,所述口语化医疗问答方法包括:根据历史数据,构建医疗实体字典;基于医疗实体字典,从口语化的医疗语料中确定训练数据;所述医疗语料包括问、答数据;通过词向量表达方法,对训练数据进行同义词处理,得到同义词组;对同义词组进行归一化处理,得到标准表达术语,以使医学专业术语统一;基于问、答的训练数据、同一词组及对应的标准表达术语,建立检索库;根据用户输入的医疗问题,基于所述检索库,确定医疗答案。2.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述口语化医疗问答方法还包括:将所述训练数据添加到所述医疗实体字典中,以更新医疗实体字典。3.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述根据历史数据,构建医疗实体字典,具体包括:通过网络爬虫技术获取医疗百科、知识库和教材至少一者中公开的医疗数据;基于规则、命名实体识别方法,对公开的医疗数据进行处理,获取医疗实体字典。4.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述基于医疗实体字典,从口语化的医疗语料中确定训练数据,具体包括:根据医疗实体字典,对所述医疗语料进行分词,得到训练数据。5.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述通过词向量表达方法,对训练数据进行同义词处理,得到同义词组,具体包括:针对每一训练数据,计算所述训练数据分别与其他训练数据之间的余弦距离;将各余弦距离与设定的距离阈值进行比较,得到同义词组,所述同义词组为余弦距离小于距离阈值的各个训练数据。6.根据权利要求1所述的口语化医疗问答方法,其特征在于,所述口语化医疗问答方法还包括:根据用户输入的医疗问题,确定问题的标准表达术语。7.根据权利要求6所述的口语化医疗问答方法,其特征在于,所述根据用户输入的医疗问题,基于所述检索库,确定医疗答案,具体包括:根据所述问题...
【专利技术属性】
技术研发人员:汪天一,孙正雅,张文生,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。