医疗自动问答方法及装置、存储介质、电子设备制造方法及图纸

技术编号:19647163 阅读:43 留言:0更新日期:2018-12-05 20:34
本发明专利技术公开了医疗自动问答方法及装置、存储介质、电子设备,属于自然语言处理技术领域及计算机人工智能领域,本发明专利技术要解决的技术问题为如何使用自然语言处理技术为患者在已有的问答结果中选择匹配的答案并将其推荐给用户,减少医生的工作量,提高问题解答的速度,采用的技术方案为:①一种医疗自动问答方法,该方法包括如下步骤:S1、构建医疗问答知识库;S2、构建问答模型训练数据集;S3、构建问答模型;S4、训练问答模型和答案选择。②一种医疗自动问答装置,该装置包括:医疗问答知识库构建单元、问答模型训练数据集生成单元、问答模型构建单元以及问答模型训练和答案选择单元。

Medical Automatic Question Answering Method and Device, Storage Medium and Electronic Equipment

The invention discloses medical automatic question answering method and device, storage medium and electronic equipment, belonging to the field of natural language processing technology and computer artificial intelligence. The technical problem to be solved by the invention is how to use natural language processing technology to select matching answers for patients in the existing question answering results and recommend them. To users, reduce the workload of doctors and improve the speed of question answering, the technical solutions adopted are as follows: 1. A medical automatic question answering method, which includes the following steps: S1, construction of medical question answering knowledge base; S2, construction of question answering model training data set; S3, construction of question answering model; S4, training question answering model and answer selection. Choose. (2) A medical automatic question answering device, which includes: building unit of medical question answering knowledge base, generating unit of training data set of question answering model, building unit of question answering model, training unit of question answering model and selecting unit of answer.

【技术实现步骤摘要】
医疗自动问答方法及装置、存储介质、电子设备
本专利技术涉及自然语言处理
及计算机人工智能领域,具体地说是医疗自动问答方法及装置、存储介质、电子设备。
技术介绍
随着当前互联网的快速发展,传统的医疗行业开始拥抱互联网,涌现了一大批方便患者的问答的网址,其中的在线医疗问答社区发展较为迅速,因为它极大地减少了患者向医生求助的环节,患者在互联网社区发布问题,由相关专业的医生解疑答惑,避免了传统就医环节中,前往医院、挂号、排队的流程。然而,随着在线提问的用户数量的增加,问题的增加速度远远大于解答的速度,主要包括两方面的原因:一方面是患者的数量远远高于专业医生的数量,并且在社区中解答问题的医生数量更少;另一方面是由于患者缺乏专业的医学知识,无法专业地描述问题,因此会对同样的问题提出不同的描述,这就造成了问答社区中存在着大量的重复问题。医生数量稀少的问题暂无解决办法,但是可以从问题重复现象出发进行处理,如何使用自然语言处理技术为患者在已有的问答结果中选择匹配的答案并将其推荐给用户,减少医生的工作量,提高问题解答的速度是目前现有技术中急需解决的技术问题。专利号为CN107516110A的专利文本文档来自技高网...

【技术保护点】
1.一种医疗自动问答方法,其特征在于,该方法包括如下步骤:S1、构建医疗问答知识库:从互联网的医疗问答社区爬取问答对,并对问答对进行预处理构建成医疗问答知识库;S2、构建问答模型训练数据集;对于每个医疗问题,在步骤S1中的医疗问答知识库中至少有一个正确答案,将正确答案与问题构建训练正例,将除正确答案以外的答案与问题构建训练负例;S3、构建问答模型:利用卷积神经网络构建问答模型;S4、训练问答模型和答案选择:在步骤S2所得到问答模型训练数据集中对步骤S3构建的问题模型进行训练。

【技术特征摘要】
1.一种医疗自动问答方法,其特征在于,该方法包括如下步骤:S1、构建医疗问答知识库:从互联网的医疗问答社区爬取问答对,并对问答对进行预处理构建成医疗问答知识库;S2、构建问答模型训练数据集;对于每个医疗问题,在步骤S1中的医疗问答知识库中至少有一个正确答案,将正确答案与问题构建训练正例,将除正确答案以外的答案与问题构建训练负例;S3、构建问答模型:利用卷积神经网络构建问答模型;S4、训练问答模型和答案选择:在步骤S2所得到问答模型训练数据集中对步骤S3构建的问题模型进行训练。2.根据权利要求1所述的医疗自动问答方法,其特征在于,所述步骤S1中构建医疗问答知识库的具体步骤如下:S101、利用爬虫技术,从互联网的医疗问答社区爬取问答对:医疗问答社区均采用Web形式进行展示,利用Scrapy工具获取问题和所对应的答案,构建问答知识库;S102、对步骤S101中从互联网的医疗问答社区爬取的问答对进行预处理,主要包括拆分有多个答案的问题以及对问题和答案进行断字处理;S10201、拆分有多个答案的问题就是将问题与答案拆分成一一对应的形式;S10202、对问题和答案进行断字处理就是对问题和答案的内容进行断字处理,具体来说:将医疗问答社区中每个问题和答案,以汉字字符为基本单位,将每个字之间用空格分开且保留数字和标点符号。3.根据权利要求1所述的医疗自动问答方法,其特征在于,所述步骤S2中构建问答模型训练数据集的具体步骤如下:S201、构建训练正例:将问题与其所对应的正确答案进行组合,构建训练正例,训练正例的形式为:(question,answer,1),其中,question指问题,answer指该问题所对应的正确答案,1表示正例;S202、构建训练负例:在医疗问答知识库中选中步骤S201的问题,再从医疗问答知识库中随机选择除步骤S201以外的问题及其该问题所对应的答案,将步骤S201的问题与随机选择的除步骤S201以外的问题所对应的答案组合,构建训练负例,训练负例的形式为:(question,bad-answer,0),其中,question指问题,bad-answer指随机选择的除步骤S201以外的问题所对应的答案,0表示负例;S203、构建训练数据集:将步骤S201和步骤S202所的的全部训练正例和训练负例的样本组合,并随机打乱训练正例和训练负例的样本构建最终的训练数据集。4.根据权利要求1所述的医疗自动问答方法,其特征在于,所述步骤S3中构建问答模型的具体步骤如下:S301、构建字符映射转换表:根据步骤S1中预处理以后构建的医疗问答知识库,构建字符表,并将字符表中的字符映射为唯一的数字表示;S302、构建输入层:输入层包括三个输入内容,从问题对应的训练正例中获取question和answer,从训练负例中获取bad-answer,输入层的形式为(question,answer,bad-answer);再根据步骤S301中得到的字符映射转换表将输入数据中的字符转化为数字表示;S303、构建字符向量映射层:指定字符向量的维度大小为embedding_dim,步骤S301中获取的字符表大小为vocab_num,使用[-1,1]的均匀分布定义(vocab_num+1)×embedding_dim的二维矩阵并将其作为模型的字符向量映射层的权重矩阵,其中,每一行对应医疗问答知识库中单个字符的向量表示;S304、构建多尺度卷积层和堆叠卷积层:多尺度卷积层是利用不同尺寸的卷积核与经过步骤S303处理后的数据做卷积操作,捕获问题或答案里的字符级别的n-gram特征作为输出;堆叠卷积层是将不同尺寸的卷积核堆叠起来,将经过步骤S303处理后的数据自下而上地与各个卷积核做卷积操作,捕获问题或答案里句子级别的语义特征作为输出;再将多尺度卷积层的输出与堆叠卷积层的输出联接起来,作为问题或答案的特征向量;S305、构建相似度计算层:使用余弦相似度公式计算得到问题和正确答案的相似度sim_pos以及问题与错误答案的相似度sim_neg;余弦相似度的计算公式如下所示:其中,‖·‖表示L2范数,Q和A分别指问题和正确答案或错误答案经过问答模型处理后获得的向量表示;Q表示vector_question的向量,A表示vector_answer或vector_bad-answer的向量。5.根据权利要求4所述的医疗自动问答方法,其特征在于,所述步骤S304中多尺度卷积层计算的具体步骤如下:(1)、定义卷积核的数量为n,卷积核的集合C={c1,c2,…,ci,…,cn},其中,ci表示卷积核的尺寸;(2)、根据步骤S303处理后的数据与卷积核的集合C内的卷积核分别做卷积运算得到结果O={o1,o2,…,oi,…,on};(3)、对每个oi依次使用ReLU激活函数,做基于字...

【专利技术属性】
技术研发人员:鹿文鹏张玉腾张若雨张旭岳书通成金勇
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1