利用半监督深度学习理解对医学人工智能系统的查询意图技术方案

技术编号:31821375 阅读:16 留言:0更新日期:2022-01-12 12:33
提供一种用于接收包括多个词的序列的查询的方法和装置。多个词的序列转换成多个特征向量的序列。使用双向长短时记忆(LSTM)生成多个词的序列的语义含义。使用高斯混合模型(GMM),基于多个特征向量的序列的所生成的语义含义来使LSTM正则化。义含义来使LSTM正则化。义含义来使LSTM正则化。

【技术实现步骤摘要】
【国外来华专利技术】利用半监督深度学习理解对医学人工智能系统的查询意图
[0001]相关申请的交叉引用
[0002]本申请要求于2019年9月4日在美国专利商标局提交的第16/560,440号美国专利申请的优先权,该美国专利申请的公开内容通过引用整体并入本文。

技术介绍

[0003]与其他领域不同,且由于患者的隐私和保护,医疗数据更受限制且更难以获得。在医疗聊天机器人系统中,理解顾客的问题或意图非常重要。通过有限数量的标记数据样本,直接训练深度学习模型以进行精确的查询分类,是不切实际的。本公开利用深度学习和半监督学习来改进在有限标记数据的场景下对受监督任务的概括。
[0004]半监督学习方法多种多样。通常的解决方案是使用生成方法来对数据示例和标签之间的联合分布进行建模。由于汉语表达的多样性,导致需要对汉语句子进行深刻的语义理解。深度学习模型擅长获取语义上有意义的特征。因此,本公开使用深度学习模型和高斯混合模型(GMM)作为正则器来实现有限标签下的医疗查询分类。同时,考虑到大量未标记数据,本公开有助于改进对受监督任务的概括。

技术实现思路

[0005]根据一些可能的实现方式,一种方法包括:通过设备接收包括多个词的序列的查询;通过设备将多个词的序列转换成多个特征向量的序列;通过设备并使用双向长短时记忆(LSTM)生成多个特征向量的序列的语义含义;以及通过设备并使用高斯混合模型(GMM),基于所生成的多个特征向量的序列的语义含义来使LSTM正则化。
[0006]根据一些可能的实现方式,一种设备包括:至少一个存储器,配置成存储程序代码;至少一个处理器,配置成读取程序代码并按照程序代码的指令进行操作,程序代码包括:接收代码,配置成使得至少一个处理器接收包括多个词的序列的查询;转换代码,配置成使得至少一个处理器将多个词的序列转换成多个特征向量的序列;生成代码,配置成使得至少一个处理器使用双向长短时记忆(LSTM)生成多个特征向量的序列的语义含义;以及正则化代码,配置成使得至少一个处理器使用高斯混合模型(GMM),基于所生成的多个特征向量的序列的语义含义来使LSTM正则化。
[0007]根据一些可能的实现方式,一种非暂时性计算机可读介质存储指令,该指令包括一个或多个指令,一个或多个指令在由设备的一个或多个处理器运行时,使得一个或多个处理器:接收包括多个词的序列的查询;将多个词的序列转换成多个特征向量的序列;使用双向长短时记忆(LSTM)生成多个特征向量的序列的语义含义;以及使用高斯混合模型(GMM),基于所生成的多个特征向量的序列的语义含义来使LSTM正则化。
附图说明
[0008]图1A和图1B是本文描述的示例实现方式的概略图;
[0009]图2是可实现本文描述的系统和/或方法的示例环境的图;
[0010]图3是图2的一个或多个设备的示例组件的图;以及
[0011]图4是用于使用高斯混合模型(GMM)训练双向长短时记忆(LSTM)来识别查询的示例过程的流程图。
具体实施方式
[0012]在医疗聊天机器人系统中,理解查询意图是持续聊天的主要步骤。训练精确的查询分类器,需要领域内的知识和耗时的标记过程,特别是对于基于知识图的问答(QA)系统而言。此外,理解查询的语句的不同部分之间的关系,对于获得意图而言比较重要。例如,查询“肺癌的症状是什么?”是询问疾病的特性,其通过特性关系将症状与疾病相关联。查询“什么疾病会引起发热?”是询问引起症状的疾病,其通过因果关系将症状与疾病相关联。上述两个查询均涉及症状和疾病,但是查询意图完全不同。确定查询意图有利于从知识图中获得准确的答案。因此,在基于知识图的QA聊天机器人中获得查询的深度表示并准确地对查询进行分类,比较重要。
[0013]对涉及医学的查询进行分类的方法分成如下两类:在基于规则的类别中,分类器仅考虑查询中是否存在关键词(或类似词)的特定集合。例如,“发热的症状是什么?”被分类成包含疾病命名实体的疾病

症状查询,且症状词被视为关键词。句子级分类器(例如,RNN或LSTM)用于对语句特征进行建模并将多个词的序列转换成类别标签。
[0014]对于上述两类方法,其缺点是基于规则的系统通常不能处理词汇表之外的关键词。第二,基于规则的方法通常仅依赖于一组关键词,该组关键词可无法概括且不考虑整个语句的语义含义。因此,常常导致性能差。对于句子级分类器,使用RNN/LSTM模型可提高性能,但是通常需要大量训练数据。即使可通过众包获得纯文本查询数据,准确地标记此类数据,是价格高昂且耗时的。
[0015]本公开将深度学习方法与半监督学习方法结合起来,半监督学习方法处理与缺乏标记数据相关联的困难的。因此,本文的一些实现方式提高了分类器的性能。
[0016]本公开可用于在基于知识图的QA聊天机器人系统中对不同类型的查询进行分类。本公开还可用作在构建知识图之前分离不同类型的短语或语句以用于事件提取的预处理步骤。
[0017]本公开提供一种系统,该系统通过有限的标记数据集和可从多个资源获得的大的未标记数据集进行训练,而提供上述功能。为了获取查询的深度表示,本公开提供一种使用双向长短时记忆(LSTM)和跟随的注意力机制的深度学习模型。为了使用有限的标记数据和大的未标记数据来概括受监督模型,本公开包括用于对数据分布进行建模的高斯混合模型(GMM)。
[0018]参照图1A,本公开使

[log(p(y|x))+log(p(x))]最小化,分类器p(y|x)由双向LSTM(Bi

LSTM)、跟随的注意力机制和softmax层建模。数据p(x)由高斯混合模型建模。
[0019]在预处理步骤中,如图1所示,查询语句被视为词序列,且通过使词嵌入和位置嵌入级联来将每个词转换成向量。
[0020]进一步如图1A所示,词嵌入和位置嵌入层将词序列转换成多个特征向量的序列,其中每个特征向量是词特征和位置特征的级联。词特征由权重矩阵参数化,其中权重矩阵的行由词典中的词位置索引。位置特征是词在序列中的相对位置。
[0021]进一步如图1A所示,Bi

LSTM层将输入特征序列转换成输出特征序列,其中输出特征序列通过获取当前词与其前面的词或后面的词之间的依赖关系来对语句的语义含义进行编码。
[0022]进一步如图1A所示,注意力机制层允许系统关注源语句的特定部分。每个注意节点获取语句的不同部分,而语句的每个部分被视为目标命名实体(知识图中的节点)。
[0023]进一步如图1A所示,语句的特征向量由GMM聚集起来。基于使预测概率和真实标签之间的softmax交叉熵损失最小化来对特征的标记部分进行分类。
[0024]进一步如图1B所示,在训练步骤中,首先使用深度学习模型(BERT)将查询转换成语句特征,然后这些特征被视为直推式支持向量机(SVM)模型的输入,以训练分类器。在测试步骤中,查询转换成特征并使用所学习的分类器来获得其预测标签。
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:通过设备接收包括多个词的序列的查询;通过所述设备将所述多个词的序列转换成多个特征向量的序列;通过所述设备并使用双向长短时记忆LSTM生成所述多个特征向量的序列的语义含义;以及通过所述设备并使用高斯混合模型GMM,基于所生成的所述多个特征向量的序列的语义含义来使所述LSTM正则化。2.根据权利要求1所述的方法,其中,所述转换包括级联技术、词嵌入技术和位置嵌入技术中的至少一个。3.根据权利要求1所述的方法,其中,所述多个特征向量的序列中的每个特征向量是词特征和位置特征的级联。4.根据权利要求3所述的方法,其中,所述词特征对应于词在词典中的位置,并且其中,所述位置特征对应于所述词在所述多个词的序列中的位置。5.根据权利要求1所述的方法,其中,所述生成包括基于所述多个词的序列中多个词之间的关系来生成所述语义含义。6.根据权利要求1所述的方法,进一步包括:通过使用注意力机制层来训练所述GMM。7.根据权利要求1所述的方法,进一步包括:使所述GMM的负对数似然值最小化。8.一种设备,包括:至少一个存储器,配置成存储程序代码;至少一个处理器,配置成读取所述程序代码并按照所述程序代码的指令进行操作,所述程序代码包括:接收代码,配置成使得所述至少一个处理器接收包括多个词的序列的查询;转换代码,配置成使得所述至少一个处理器将所述多个词的序列转换成多个特征向量的序列;生成代码,配置成使得所述至少一个处理器使用双向长短时记忆LSTM生成所述多个特征向量的序列的语义含义;以及正则化代码,配置成使得所述至少一个处理器使用高斯混合模型GMM,基于所生成的所述多个特征向量的序列的语义含义来使所述LSTM正则化。9.根据权利要求8所述的设备,其中,所述转换代码进一步配置成使得所述至少一个处理器使用级联技术、词嵌入技术和位置嵌入技术中的至少一个来转换所述多个词的序列。10.根据权利要求8所述的设备,其中,所述多个特征向量的序列中的每个特征向量是词特征...

【专利技术属性】
技术研发人员:游泽宇杨陶谢于晟张尚卿涂旻范伟
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1