当前位置: 首页 > 专利查询>汪礼君专利>正文

一种基于知识图谱的医疗自动问答系统构建方法技术方案

技术编号:26691916 阅读:33 留言:0更新日期:2020-12-12 02:45
本发明专利技术涉及一种自动问答的技术领域,揭露了一种基于知识图谱的医疗自动问答系统构建方法,包括:对医疗领域知识图谱中的实体、关系以及属性进行预定义;获取医疗领域数据,根据所预定义的医疗领域知识图谱,利用数据自动标注算法对医疗领域数据进行标注;利用知识图谱构建模型对所述标注数据进行知识图谱的构建,得到医疗领域知识图谱;利用对话编码器将用户的对话文本进行编码,得到对话文本编码数据;利用基于知识图谱的强化学习网络对文本编码数据进行路径推断,得到用户的意图路径,意图路径所指向的知识图谱结果即为自动问答结果。本发明专利技术还构建了一种基于知识图谱的医疗自动问答系统。本发明专利技术实现了医疗领域的自动问答。

【技术实现步骤摘要】
一种基于知识图谱的医疗自动问答系统构建方法
本专利技术涉及自动问答的
,尤其涉及一种基于知识图谱的医疗自动问答系统构建方法。
技术介绍
互联网的极速发展带来了信息的爆炸式增长。而且信息的来源多种多样,没有统一的结构也带来了信息的杂乱无章,导致人们无法快速去查找有用的信息。随着人工智能技术不断地更新迭代,人们非常期望计算机能够像人一样理解他们的需求并快速、准确地帮助找到对人们有用的信息,从而引发人们对新的数据表示存储方式——知识图谱的研究热潮。现有基于知识存储的技术探索了以不同语义、句法特征为基础的特征工程方法,这些方法的优势在于具有较强的可解释性,但通常需要大量人工特征选择,特征设计的不足和底层语法工具的错误都可能导致知识存储效果较差;基于深度学习的知识存储模型将知识存储的效果提升到了新的水平,但这些模型通常只关注数据集中包含的信息,对于医疗等专业知识信息缺乏考虑。同时针对自动问答系统中的意图识别,现有技术经常将意图识别视为分类任务,即将用户的对话文本标记为相应的意图,并使用该数据训练分类器。尽管这种意图分类模型在学术界和行业中都被证明是有效的,但它们也有明显的缺点。当前很多研究使用的是深度神经网络作为分类器,但这种分类器是一个“黑匣子”,缺少充分的可解释性。鉴于此,如何构建医疗领域的知识图谱,并基于知识图谱进行用户意图的识别,实现医疗领域的自动问答,成为本领域技术人员亟待解决的问题。
技术实现思路
本专利技术提供一种基于知识图谱的医疗自动问答系统构建方法,通过定义医疗领域知识图谱中的实体、关系和属性,并利用数据自动标注算法对医疗领域数据进行标注,同时基于神经网络模型进行知识图谱的补全和构建,根据所构建的知识图谱进行基于强化学习的医疗领域自动问答。为实现上述目的,本专利技术提供的一种基于知识图谱的医疗自动问答系统构建方法,包括:对医疗领域知识图谱中的实体、关系以及属性进行预定义;获取医疗领域数据,根据所预定义的医疗领域知识图谱,利用数据自动标注算法对医疗领域数据进行标注;利用知识图谱构建模型对所述标注数据进行知识图谱的构建,得到医疗领域知识图谱;利用对话编码器将用户的对话文本进行编码,得到对话文本编码数据;利用基于知识图谱的强化学习网络对文本编码数据进行路径推断,得到用户的意图路径,意图路径所指向的知识图谱结果即为自动问答结果。可选地,所述定义医疗领域知识图谱中的实体、关系以及属性,包括:构建11种知识图谱实体类型以及8种知识图谱属性类型以完成医疗知识图谱实体关系的设计,所述知识图谱实体类型包括:疾病、症状、部位、患者、诊断项目、医疗科室、医生、医院、治疗、饮食以及运动,其中疾病、症状、部位、患者属于确定病情关系,诊断项目、医疗科室、医生、医院、治疗属于诊断治疗关系,治疗、饮食以及运动属于日常护理关系;所述知识图谱属性类型包括:疾病名称、疾病介绍、病因、治疗方式、治疗概率、预防措施、治愈概率、易感人群以及日常护理。可选地,所述利用数据自动标注算法对医疗领域数据进行标注利用数据自动标注算法对医疗领域数据进行标注,包括:1)将预定义的医疗领域知识图谱与医疗领域数据对齐,对于医疗领域数据中含有知识图谱实体的数据,将该数据归类到对应的实体对中,得到共实体的数据集;2)对于共实体数据集,在知识图谱中筛选对应的关系作为关系特征词,人工构建这些关系特征词的同义扩展词表;3)依次将共实体的数据集中的数据与相应的关系特征词及扩展词进行匹配,如果数据集中的数据存在相应的关系特征词或者同义扩展词,则标注该数据,同时将该数据加入到标注数据集M1中,否则不标注该数据,同时将该数据加入到未标注数据集U1中;4)将共实体的数据集对应的实体关系三元组(E1,R,E2)按照格式“E1的R是E2”拼接成标准句子S;5)利用余弦相似度算法分别计算标注数据集M1中的句子与标准句子S的相似度,选择第二小的相似度值作为相似度阈值;6)分别将未标注数据集U1中的句子与标准句子S计算句子相似度,如果该句子相似度达到了相似度阈值,则标注该句子,同时将该句子加入到标注数据集M2中,否则不标注该句子,同时将该句子加入到未标注数据集U2中;7)将未标注数据集U2作为未标注数据,将标注数据集M1与标注数据集M2的并集作为标注数据,最终输出标注数据。可选地,所述利用知识图谱构建模型对所述标注数据进行知识图谱的构建,包括:1)将标注了实体的数据作为知识图谱构建模型的输入;2)在表示层中将标注数据转换为低维向量,每个单词可以通过查看词向量库得到其对应的向量表示,其中标注数据中的每个实体都有一个相对于实体1的距离值和一个相对于实体2的距离值,两个距离值通过查看位置向量矩阵来得到其向量表示,位置向量矩阵中的参数在训练过程中不断优化;3)使用孪生网络结构将两个标注数据作为输入,两个标注数据分别通过表示层和双向长短时记忆网络层得到其对应的向量,标注数据Si的输出向量为oi,标注数据Sj的输出向量为oj,并使用欧式距离来衡量两个输出向量之间的距离,记为dist(oi,oj);4)利用两向量之间的距离值来衡量两个标注数据中所包含的实体间的关系是否是同一种关系,将同属于一种关系的实体所对应的标注数据归为一类,以将标注数据划分为若干类,从而构成知识图谱。可选地,所述知识图谱构建模型的训练过程为:对于训练集中关系类型为ri的句子Si,需要在训练集中选择一个关系类型为rj的句子Sj与之组成一对,若两个句子的关系类型相同,即ri=rj,则构成一个正例对,否则则构成一个负例对,并用标签label来表示两者是否属于同一种关系,对于正例对则label为0,对于负例对则label为1,且正例对和负例对的数量比例为1比1;所述训练模型的损失函数为:其中:dist(oi,oj)为两个输出向量之间的欧式距离;在训练过程中,通过不断调整模型的参数使得如果两个句子属于同一种关系,它们的输出向量之间的距离就较小,反之则较大。可选地,所述利用对话编码器将用户的对话文本进行编码,包括:1)提取出用户对话文本中所有词的集合,然后对这些词构建索引,并随机初始化这些词的嵌入矩阵使得每一个词都对应着一个嵌入向量,其中,nω为词的数量,eω为词嵌入向量的长度,依据词嵌入矩阵Eω将用户的对话文本中所有的词转换为对应的词嵌入向量,其中词向量转换后的第i个用户对话文本表示为{ωi1,...,ωin},ωih为第i个用户对话文本中第h个词对应的词向量;2)将词嵌入向量通过双向GRU模型中,生成每个词对应的向量,将两个双向单元对应的向量进行串接,生成第i轮句子的编码ui:ui=Bi-GRU(ωi1,...,ωin)3)利用上下文编码器将第i轮对话的编码ui及其前面所有轮的对话文本编码进行整合,生成每一轮对话对应的上下文嵌入向量ci,即对话文本编码数据。可选地,所述本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的医疗自动问答系统构建方法,其特征在于,所述方法包括:/n对医疗领域知识图谱中的实体、关系以及属性进行预定义;/n获取医疗领域数据,根据所预定义的医疗领域知识图谱,利用数据自动标注算法对医疗领域数据进行标注;/n利用知识图谱构建模型对所述标注数据进行知识图谱的构建,得到医疗领域知识图谱;/n利用对话编码器将用户的对话文本进行编码,得到对话文本编码数据;/n利用基于知识图谱的强化学习网络对文本编码数据进行路径推断,得到用户的意图路径,意图路径所指向的知识图谱结果即为自动问答结果。/n

【技术特征摘要】
1.一种基于知识图谱的医疗自动问答系统构建方法,其特征在于,所述方法包括:
对医疗领域知识图谱中的实体、关系以及属性进行预定义;
获取医疗领域数据,根据所预定义的医疗领域知识图谱,利用数据自动标注算法对医疗领域数据进行标注;
利用知识图谱构建模型对所述标注数据进行知识图谱的构建,得到医疗领域知识图谱;
利用对话编码器将用户的对话文本进行编码,得到对话文本编码数据;
利用基于知识图谱的强化学习网络对文本编码数据进行路径推断,得到用户的意图路径,意图路径所指向的知识图谱结果即为自动问答结果。


2.如权利要求1所述的一种基于知识图谱的医疗自动问答系统构建方法,其特征在于,所述定义医疗领域知识图谱中的实体、关系以及属性,包括:
构建11种知识图谱实体类型以及8种知识图谱属性类型以完成医疗知识图谱实体关系的设计,所述知识图谱实体类型包括:疾病、症状、部位、患者、诊断项目、医疗科室、医生、医院、治疗、饮食以及运动,其中疾病、症状、部位、患者属于确定病情关系,诊断项目、医疗科室、医生、医院、治疗属于诊断治疗关系,治疗、饮食以及运动属于日常护理关系;
所述知识图谱属性类型包括:疾病名称、疾病介绍、病因、治疗方式、治疗概率、预防措施、治愈概率、易感人群以及日常护理。


3.如权利要求2所述的一种基于知识图谱的医疗自动问答系统构建方法,其特征在于,所述利用数据自动标注算法对医疗领域数据进行标注利用数据自动标注算法对医疗领域数据进行标注,包括:
1)将预定义的医疗领域知识图谱与医疗领域数据对齐,对于医疗领域数据中含有知识图谱实体的数据,将该数据归类到对应的实体对中,得到共实体的数据集;
2)对于共实体数据集,在知识图谱中筛选对应的关系作为关系特征词,人工构建这些关系特征词的同义扩展词表;
3)依次将共实体的数据集中的数据与相应的关系特征词及扩展词进行匹配,如果数据集中的数据存在相应的关系特征词或者同义扩展词,则标注该数据,同时将该数据加入到标注数据集M1中,否则不标注该数据,同时将该数据加入到未标注数据集U1中;
4)将共实体的数据集对应的实体关系三元组(E1,R,E2)按照格式“E1的R是E2”拼接成标准句子S;
5)利用余弦相似度算法分别计算标注数据集M1中的句子与标准句子S的相似度,选择第二小的相似度值作为相似度阈值;
6)分别将未标注数据集U1中的句子与标准句子S计算句子相似度,如果该句子相似度达到了相似度阈值,则标注该句子,同时将该句子加入到标注数据集M2中,否则不标注该句子,同时将该句子加入到未标注数据集U2中;
7)将未标注数据集U2作为未标注数据,将标注数据集M1与标注数据集M2的并集作为标注数据,最终输出标注数据。


4.如权利要求3所述的一种基于知识图谱的医疗自动问答系统构建方法,其特征在于,所述利用知识图谱构建模型对所述标注数据进行知识图谱的构建,包括:
1)将标注了实体的数据作为知识图谱构建模型的输入;
2)在表示层中将标注数据转换为低维向量,每个单词可以通过查看词向量库得到其对应的向量表示,其中标注数据中的每个实体都有一个相对于实体1的距离值和一个相对于实体2的距离值,两个距离值通过查看位置向量矩阵来得到其向量表示,位置向量矩阵中的参数在训练过程中不断优化;
3)使用孪生网络结构将两个标注数据作为输入,两个标注数据分别通过表示层和双向长短时记忆网络层得到其对应的向量,标注数据Si的输出向量为oi,标注数据Sj的输出向量为oj,并使用欧式距离来衡量两个输出向量之间的距离,记为dist(oi,oj);
4)利用两向量之间的距离值来衡量两个标注数据中所包含的实体间的关系是否是同一种关系,将同属于一种关系的实体所对应的标注数据归为一类,以将标注数据划分为若干类,从而构成知识图谱。


5.如权利要求4所述的一种基于知识图谱的...

【专利技术属性】
技术研发人员:汪礼君
申请(专利权)人:汪礼君
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1