一种基于BERT和特征融合的智能导诊方法技术

技术编号:37450797 阅读:10 留言:0更新日期:2023-05-06 09:22
本发明专利技术提供一种基于BERT和特征融合的智能导诊方法,涉及自然语言处理领域。该基于BERT和特征融合的智能导诊方法,所述方法包括以下步骤:S1、以历史问诊数据集作为训练数据,采用Pytorch训练得到导诊模型;S2、导诊系统管理员根据医院科室就医规定,在导诊管理后台配置各科室导诊规则;S3、用户通过导诊前端应用发送导诊请求到导诊应用服务进行处理。基于本发明专利技术的智能导诊系统在四川口腔医院等医院投入使用,导诊的准确率患者比较满意;以及可以根据各个医院和科室不同实际情况灵活配置前置导诊规则的和导诊模型可以根据用户反馈持续进行优化的特点也受到了医院各科室人员的好评。好评。好评。

【技术实现步骤摘要】
一种基于BERT和特征融合的智能导诊方法


[0001]本专利技术涉及自然语言处理领域中的文本多分类
,具体为一种基于BERT和特征融合的智能导诊方法。

技术介绍

[0002]传统的人工导诊很难在短时间内为大量的患者推荐准确的就诊科室,也难以达到医疗资源的高效利用。随着互联网技术的发展以及“互联网+医疗健康”服务体系的完善,智能导诊正在逐步取代传统的线下人工导诊服务,已经成为医疗领域未来发展的新方向。
[0003]目前常见的智能导诊系统使用方式有以下几种:一种是人体部位和症状列表相结合,患者需要点击人体图中不舒服的部位并选择身体出现的症状,如尉建锋等人申请了“一种智能导诊系统和方法”;第二种是疾病搜索,即患者在设定的疾病名称目录里找到自己所患有的疾病从而为其推荐相应的科室;第三种就是通过文本分类算法来实现,包括人工制定规则、基于机器学习和深度学习等算法,如周杨等人申请了“一种基于卷积神经网络的诊疗科室推荐方法与系统”;第四种为构建标准的医疗知识图谱,在构建好的医疗知识图谱中查找从患者主诉中识别到的症状、疾病等医疗实体,从而得到相应的科室,如张莹莹申请了“一种基于多模态知识图谱的智能导诊方法”。
[0004]上述智能导诊系统在一定程度上缓解了线下导诊人员的工作压力,缓解了患者“挂号难”的问题。但是,其设计模式仍有以下几点不足:首先是人体部位与症状列表相结合的方式能够提供的症状范围很有限;其次通过疾病搜索方式对患者的学习要求太高,因为存在大量的专业术语然而绝大多数患者自身所储备的医疗知识较少;基于医疗知识图谱的导诊方式需要投入大量的人力和物力,开发成本大幅增加;基于文本分类算法的智能导诊难点在于如何高效准确的表征患者主诉文本信息,患者主诉文本的口语化、多样化和稀疏化给科室分类效果带来了较大的影响。
[0005]2018年Googl e团队推出的BERT模型在许多自然语言处理任务中取得了领先的结果,随后国内外的许多研究开始将该模型应用到实际生活中的文本多分类任务中。
[0006]应用于中文的BERT模型采用了基于字符级别的分词机制,而现代汉语表达的语素单位是词语而不是字。因此,BERT原始的分词机制强行将医疗术语拆开会导致医疗术语信息的缺失,影响患者主诉文本的表征效果。比如“发烧”这个词语拆成字的话就变成了“发”和“烧”,将这两个字单独用字向量表示很难表征出“发烧”这个词语原有的语义。另外,科室分诊问题的研究对象是患者主诉文本,而患者主诉文本存在稀疏性问题。因此。解决BERT分词机制和患者主诉文本稀疏问题变得非常重要。

技术实现思路

[0007](一)解决的技术问题
[0008]针对现有技术的不足,本专利技术提供了一种基于BERT和特征融合的智能导诊方法,解决了现有技术中存在的缺陷与不足。
[0009](二)技术方案
[0010]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于BERT和特征融合的智能导诊方法,所述方法包括以下步骤:
[0011]S1、以历史问诊数据集作为训练数据,采用Pytorch训练得到导诊模型;
[0012]S2、导诊系统管理员根据医院科室就医规定,在导诊管理后台配置各科室导诊规则;
[0013]S3、用户通过导诊前端应用发送导诊请求到导诊应用服务进行处理;
[0014]S4、导诊应用服务将用户主诉文本发送到导诊模型,导诊模型执行文本分类任务并返回建议科室列表;
[0015]S5、导诊应用服务根据用户请求关键字和导诊规则,对科室列表进行过滤和排序,如果导诊科室列表不够明确,使用患者主诉问题和追问规则进行进一步追问,得出准确度较高的导诊科室列表,将处理后的科室列表返回给导诊前端应用并展示给用户。
[0016]优选的,所述步骤1中采用大量历史问诊数据作为训练/测试数据集和FCW

BERT模型进行训练,得到的导诊模型,可以准确地对比较口语化的用户输入的主诉文本(含症状类别、症状时长、严重程度描述和就医意图)进行识别,并结合患者人口学信息和导诊前置规则配置向患者推荐对应的就医科室,如果模型推荐的科室不够明确和准确,导诊服务可以基于患者主诉文本关联相关症状和规则进行进一步向患者追问,以进一步确定和推荐准确的就诊科室列表。
[0017]优选的,所述导诊系统包含三个部分:即应用层、服务层和模型层;
[0018]1)应用层是以微信小程序/公众号、web浏览器和导诊机器人等应用形式为用户提供主诉文本录入,导诊结果反馈等功能使用;
[0019]2)服务层是接收用户请求,调用导诊模型对用户输入的主诉文本进行预测分类得到候选科室列表,并根据患者人口学信息(如性别、年龄等)和预先配置的导诊规则对候选科室列表进行过滤,以及在导诊科室不明确情况下进行进一步追问;将最终导诊结果返回给应用层;
[0020]3)导诊模型层是对训练数据集进行整理、清洗等预处理,采用Pytorch框架训练得到导诊模型,并持久化供系统调用。
[0021]优选的,所述FCW

BERT模型由两部分组成:第一部分是通过改进的BERT从患者主诉文本信息中提取丰富的上下文语义信息,另一部分是基于注意力机制和多尺度CNN从人工特征中挖掘局部特征来缓解患者主诉文本稀疏问题,将上述两部分的输出向量进行拼接实现特征融合,随后将融合后的特征向量送到全连接层中并选取Softmax作为激活函数来获得样本属于各个科室的概率分布。
[0022]优选的,还包括多头注意力的工作原理。
[0023]计算自注意力时一般分为三步,首先是将query与每个key进行相似度计算来得到权重,最常用的计算相似度的方法是缩放的点积;然后使用Softmax函数对求得的权重进行归一化;最后将归一化后的权重与相应的value进行加权求和即可,为了提高计算效率,往往会把所有查询queries压缩成一个大的矩阵Q,同理可以得到矩阵K和V,目前矩阵Q、K和V常常是由输入矩阵A通过三个不同的线性变换W
Q
、W
K
和W
V
得到,如式(1)所示,注意力函数的计算表达式如式(2)所示,其中,缩放系数d
m
为词向量的维度。
[0024](Q,K,V)=(AW
Q
,AW
K
,AW
V
)
ꢀꢀꢀꢀꢀꢀ
(1)
[0025][0026]多头注意力是由多个自注意力堆叠而成,即将输入向量A平均分为多个部分然后分别使用缩放的自注意力计算并将计算结果进行拼接,最后通过线性变换W
O
将词向量维度转换到原始大小,假设将输入词向量A平均划分成n个部分,则计算方式如式(3)和式(4)所示:
[0027]head
i
=Attention(A
i
W
iQ
,A
i
W
iK
,A
i
W<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT和特征融合的智能导诊方法,其特征在于:所述方法包括以下步骤:S1、以历史问诊数据集作为训练数据,采用Pytorch训练得到导诊模型;S2、导诊系统管理员根据医院科室就医规定,在导诊管理后台配置各科室导诊规则;S3、用户通过导诊前端应用发送导诊请求到导诊应用服务进行处理;S4、导诊应用服务将用户主诉文本发送到导诊模型,导诊模型执行文本分类任务并返回建议科室列表;S5、导诊应用服务根据用户请求关键字和导诊规则,对科室列表进行过滤和排序,如果导诊科室列表不够明确,使用患者主诉问题和追问规则进行进一步追问,得出准确度较高的导诊科室列表,将处理后的科室列表返回给导诊前端应用并展示给用户。2.根据权利要求1所述的一种基于BERT和特征融合的智能导诊方法,其特征在于:所述步骤1中采用大量历史问诊数据作为训练/测试数据集和FCW

BERT模型进行训练,得到的导诊模型,可以准确地对比较口语化的用户输入的主诉文本(含症状类别、症状时长、严重程度描述和就医意图)进行识别,并结合患者人口学信息和导诊前置规则配置向患者推荐对应的就医科室,如果模型推荐的科室不够明确和准确,导诊服务可以基于患者主诉文本关联相关症状和规则进行进一步向患者追问,以进一步确定和推荐准确的就诊科室列表。3.根据权利要求2所述的一种基于BERT和特征融合的智能导诊方法,其特征在于:所述导诊系统包含三个部分:即应用层、服务层和模型层;1)应用层是以微信小程序/公众号、web浏览器和导诊机器人等应用形式为用户提供主诉文本录入,导诊结果反馈等功能使用;2)服务层是接收用户请求,调用导诊模型对用户输入的主诉文本进行预测分类得到候选科室列表,并根据患者人口学信息(如性别、年龄等)和预先配置的导诊规则对候选科室列表进行过滤,以及在导诊科室不明确情况下进行进一步追问;将最终导诊结果返回给应用层;3)导诊模型层是对训练数据集进行整理、清洗等预处理,采用Pytorch框架训练得到导诊模型,并持久化供系统调用。4.根据权利要求3所述的一种基于BERT和特征融合的智能导诊方法,其特征在于:所述FCW

BERT模型由两部分组成:第一部分是通过改进的BERT从患者主诉文本信息中提取丰富的上下文语义信息,另一部分是基于注意力机制和多尺度CNN从人工特征中挖掘局部特征来缓解患者主诉文本稀疏问题,将上述两部分的输出向量进行拼接实现特征融合,随后将融合后的特征向量送到全连接层中并选取Softmax作为激活函数来获得样本属于各个科室的概率分布。5.根据权利要求4所述的一种基于BERT和特征融合的智能导诊方法,其特征在于:还包括多头注意力的工作原理。计算自注意力时一般分为三步,首先是将query与每个key进行相似度计算来得到权重,最常用的计算相似度的...

【专利技术属性】
技术研发人员:张庆沈正飞张威张少华黄文胜王永安
申请(专利权)人:江苏睿博信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1