一种医患多轮对话中患者症状阴阳性的识别方法技术

技术编号:37240194 阅读:16 留言:0更新日期:2023-04-20 23:21
本发明专利技术公开了一种医患多轮对话中患者症状阴阳性的识别方法,涉及到深度学习领域,包括以下步骤:S1:对医患对话进行症状的命名实体识别,然后对抽取到的实体进行标准化处理,将症状实体与预定义的症状列表进行映射得到唯一的标准化术语;S2:在考虑医患对话的上下文的情况下,对患者的该标准化后的症状进行全局性阴阳性识别。将医患对话中的症状阴阳性识别分解为三个子任务,并按照流水线方式进行,最终得到识别结果,该种方式首先采用命名实体识别模型进行症状的实体识别,解决了以往症状识别问题中难以发现新词、罕见词等训练集中不曾出现的命名实体的现象,使得命名实体的识别查全率得到明显提升。查全率得到明显提升。

【技术实现步骤摘要】
一种医患多轮对话中患者症状阴阳性的识别方法


[0001]本专利技术涉及深度学习领域,特别涉及一种医患多轮对话中患者症状阴阳性的识别方法。

技术介绍

[0002]症状是医患对话中主要讨论的话题之一,患者的症状信息也是对话策略和疾病诊断的关键特征,医生往往会从医患对话中获取患者信息,完成患者疾病的诊断并且提供相关的医疗建议。为了尽可能全面和精准的对患者的症状进行客观描述,需要利用严谨的临床发现的概念对患者状态进行表达,其中最基本的状态就是阴性和阳性,也就是患者是否出现某一症状(如发烧、腹泻等)。
[0003]对于现有技术方案,系统通常在获取患者主诉内容后,将主诉内容与数据库中已进行症状标记的文本进行相似度比对,将匹配度最高的文本对应的症状视为该患者可能出现的症状。但是在实际应用场景中往往存在着以下几种问题,首先,当患者口头描述症状时,由于其并非专业人员,并不能使用较为统一的医学术语,这将导致同一症状的不同表述,给文本比对时造成困难。其次,基于相似度匹配的症状抽取并不能较好的解决在数据库中并不存在的症状的识别问题,使得对症状的识别产生遗漏。
[0004]随着"互联网+医疗"的迅速发展,在线问诊平台逐渐兴起,在线问诊是指医生通过对话和患者进行病情的交流、疾病的诊断并且提供相关的医疗建议。基于人工智能的辅助诊断已经开始服务于医疗行业。在临床诊断中,为了提高医生工作效率,提升问诊准确率,需要更加精准的识别患者症状。然而,在患者症状识别的实际使用中往往存在着以下几个问题:
[0005]首先,由于医学领域需要使用正式医学术语,而患者由于没有经过专业化培训,这使得其在症状表述上往往更加接近口语化,缺少较为统一的描述方式。这使得常见的解决方案在症状识别时容易产生遗漏。
[0006]其次,现有的症状识别模型并不能很好的解决训练集中并没有出现过的专有名词的识别,这使得模型的泛化性以及可扩展性难以得到保证。
[0007]最后,在医患对话中,医生也会通过有针对性的问诊,来进行一些主诉的细化和补充。在细化与补充的过程中,医生与患者提及的症状可能是患者本身并不具备的。常见的症状抽取的方法并不能很好的依据上下文对症状的阴阳性做出全局性的准确判断。
[0008]因此,提出一种医患多轮对话中患者症状阴阳性的识别方法来解决上述问题很有必要。

技术实现思路

[0009]本专利技术的目的在于提供一种医患多轮对话中患者症状阴阳性的识别方法,以解决上述
技术介绍
中提出的问题。
[0010]为实现上述目的,本专利技术提供如下技术方案:一种医患多轮对话中患者症状阴阳
性的识别方法,包括以下步骤:
[0011]S1:对医患对话进行症状的命名实体识别,采用命名实体识别技术获取对话中存在的症状实体,抽取症状实体,然后对抽取到的实体进行标准化处理,将症状实体与预定义的症状列表进行映射得到唯一的标准化术语;
[0012]S2:在考虑医患对话的上下文的情况下,对患者的该标准化后的症状进行全局性阴阳性识别,从而解决对医患对话中提到的若干问题。
[0013]优选的,S1中首先对数据进行基于BIO模式的数据标注,在该标注模式中,对每一个字进行一个单独的标注,其中“B”表示实体的开始字,“I”表示实体的中间字或结尾字,“O”表示该字不属于任何实体。
[0014]优选的,S1中利用基于BERT的预训练模型对症状命名实体进行抽取,对于每一轮对话,按照以下步骤进行训练:
[0015]对于每一轮对话,分别在该轮对话的前后分别添加“[CLS]”与“[SEP]”,同时也在对应标注标签的开始和结尾分别添加“[CLS]”与“[SEP]”,其中“[CLS]”表示句子开始,“[SEP]”表示句子结束,均为特殊保留字符,视为单个字,则该轮对话可以表示为X=[x
CLS
,x0,x1,

,x
m
,

,x
n
,x
SEP
],其中x
m
表示第m个字;
[0016]将该轮对话送入BERT模型,对于输入X,得到每个字的输出向量E=[E
CLS
,E0,E1,

,E
m
,

,E
n
,E
SEP
],其中E
m
表示x
m
的输出向量表示,并将每一个输出向量接入全连接网络,通过softmax层后得到每一个字在BIO上的概率分布P
m
=[p
B
,p
I
,p
O
];
[0017]依据标注的标签和模型预测值计算损失函数;
[0018]依据损失函数计算梯度,并更新模型参数。
[0019]优选的,S1中采用ElasticSearch与深度学习相结合的方式来对识别到的症状命名实体进行标准化操作,对于医学术语标准化技术,采用先召回后排序的整体结构,其中,召回模块负责大幅度缩小候选标准化术语的范围,排序模块负责将召回模块召回的候选标准化术语进行排序,保证识别到的症状实体的标准化术语排名更加靠前。
[0020]优选的,在召回模块部分,采用ES作为召回引擎。
[0021]优选的,在排序模块,采用基于BERT预训练模型的排序算法。
[0022]优选的,在排序模型的训练阶段,按照以下步骤进行训练:
[0023]将扩充后的正负样本经随机打乱后作为BERT模型的输入,输入格式为:“[CLS]原词[SEP]标准词[SEP]”,其中[CLS]意义仍如上,第一个[SEP]表示原词与标准词的分割,第二个[SEP]表示输入结束;
[0024]在BERT模型[CLS]对应的输出向量E后添加全连接层和softmax层,以用来进行二分类得到概率分布P=[prob0,prob1],分别表示该样本是负样本与正样本的概率;
[0025]根据概率分布与真实标签分布计算损失函数;
[0026]依据损失函数计算梯度,并更新模型参数。
[0027]优选的,S2中基于BERT的“预训练+微调”的解决策略对症状阴阳性识别。
[0028]优选的,S2中利用流水线式调度模块推理阶段串联S1和S2二个流程,从而得到一整段对话下的患者症状阴阳性识别结果,推理流程如下:
[0029]a.对于对话中的每一轮,利用命名实体识别模型得到该轮对话的症状实体;
[0030]b.利用ES搜索引擎在候选标准词中找到一定数量的候选标准词;
[0031]c.对于每一个候选标准词,原词会与按照“[CLS]原词[SEP]候选标准词[SEP]”的格式与其进行拼接,输入到BERT后,得到经过softmax层的最后得分分布P=[prob0,prob1],其中prob0表示对应标准词并不是该原词的标准词的概率,prob1表示的是对应标准词就是该原词的标准词的概率;
[0032]d.对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医患多轮对话中患者症状阴阳性的识别方法,其特征在于:包括以下步骤:S1:对医患对话进行症状的命名实体识别,采用命名实体识别技术获取对话中存在的症状实体,抽取症状实体,然后对抽取到的实体进行标准化处理,将症状实体与预定义的症状列表进行映射得到唯一的标准化术语;S2:在考虑医患对话的上下文的情况下,对患者的该标准化后的症状进行全局性阴阳性识别,从而解决对医患对话中提到的问题。2.根据权利要求1所述的一种医患多轮对话中患者症状阴阳性的识别方法,其特征在于:所述S1中首先对数据进行基于BIO模式的数据标注,在该标注模式中,对每一个字进行一个单独的标注,其中“B”表示实体的开始字,“I”表示实体的中间字或结尾字,“O”表示该字不属于任何实体。3.根据权利要求1所述的一种医患多轮对话中患者症状阴阳性的识别方法,其特征在于:所述S1中利用基于BERT的预训练模型对症状命名实体进行抽取,对于每一轮对话,按照以下步骤进行训练:对于每一轮对话,分别在该轮对话的前后分别添加“[CLS]”与“[SEP]”,同时也在对应标注标签的开始和结尾分别添加“[CLS]”与“[SEP]”,其中“[CLS]”表示句子开始,“[SEP]”表示句子结束,均为特殊保留字符,视为单个字,则该轮对话可以表示为X=[x
CLS
,x0,x1,

,x
m
,

,x
n
,x
SEP
],其中x
m
表示第m个字;将该轮对话送入BERT模型,对于输入X,得到每个字的输出向量E=[E
CLS
,E0,E1,

,E
m
,

,E
n
,E
SEP
],其中E
m
表示x
m
的输出向量表示,并将每一个输出向量接入全连接网络,通过softmax层后得到每一个字在BIO上的概率分布P
m
=[p
B
,p
I
,p
O
];依据标注的标签和模型预测值计算损失函数;依据损失函数计算梯度,并更新模型参数。4.根据权利要求1所述的一种医患多轮对话中患者症状阴阳性的识别方法,其特征在于:所述S1中采用ElasticSearch与深度学习相结合的方式来对识别到的症状命名实体进行标准化操作,对于医学术语标准化技术,采用先召回后排序的整体结...

【专利技术属性】
技术研发人员:程龙龙曹琉崔丙剑
申请(专利权)人:中电云脑天津科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1