一种融合领域知识的医疗对话意图识别方法技术

技术编号：29703335 阅读：22 留言：0更新日期：2021-08-17 14:31

一种融合领域知识的医疗对话意图识别方法，属于医疗对话和意图识别技术领域，该方法包括以下步骤：S1、语料采集和预处理，划分对话数据；S2、领域知识检索：采用检索方法获取相关的问题，以及相应问题的答案，检索模型将用户提问u和待检索的问题基于意图词的频率计算二者相似度，进而根据相似度由高到低进行排序；S3、输入单词的序列，通过领域知识问答对向量计算注意力权重，融合领域知识的对话问句表示：S4、基于组排序损失的意图识别采用面向多样化意图的组排序损失函数，训练意图识别模型，实现意图词的识别和分类。本方法可以显著提升医疗对话中用户意图识别的效果，有助于医疗对话系统的整体优化。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合领域知识的医疗对话意图识别方法
本专利技术属于医疗对话和意图识别
，具体涉及一种融合领域知识的医疗对话意图识别方法。
技术介绍
近年来人机对话技术成为自然语言处理领域的热点研究方向，面向垂直领域尤其是医学领域的人机对话应用受到业界广泛关注。医疗人机对话技术旨在通过自然语言理解和自然语言生成等手段，根据用户提问自动生成专业的答复，为用户提供便捷而有效的医疗问答服务，促进医学知识的传播和医疗文本处理技术的进步，通过医疗辅助的方式保障人们的健康。医疗人机对话中用户意图的识别至关重要，其目的在于识别用户提问中所涉及的疾病名称、症状和身体部位等信息，这些信息能够辅助人机对话系统生成有效而专业的医疗答复，提高医疗对话系统的整体性能。然而医疗对话中的用户意图常常具有模糊性，用户往往采用口语化的词语描述自身的状况，从而为意图的识别带来巨大挑战，如何将口语化词语与专业化的词语相匹配是医疗对话中意图识别所需要解决的重要问题，现有技术往往直接将通用的意图检测模型应用于该任务，缺少对于医疗文本的深度理解，因此很难获得理想的意图检测效果。
技术实现思路
为了解决依存分析的精度较低的问题，本专利技术提出：一种基于多任务学习的依存句法分析方法，技术方案如下：该方法包括以下步骤：S1、语料采集和预处理，划分对话数据；S2、领域知识检索：采用检索方法获取医疗问题，以及相应问题的答案，检索模型将用户提问u和待检索的问题基于意图词的频率计算二者相似度，进而根据相似度由高到低进行排序；S3、...

【技术保护点】
1.一种融合领域知识的医疗对话意图识别方法，其特征在于，该方法包括以下步骤：/nS1、对语料进行采集和预处理，划分对话数据；/nS2、领域知识检索：采用检索方法获取医疗问题，以及相应问题的答案，检索模型将用户提问u和待检索的问题基于意图词的频率计算二者相似度，进而根据相似度由高到低进行排序；/nS3、输入单词的序列，通过领域知识问答对向量计算注意力权重，融合领域知识的对话问句表示，一个问答对包括一个医疗问题及其答案所构成的全部文本内容；/nS4、采用面向多样化意图的组排序损失函数，训练意图识别模型，实现意图词的识别和分类。/n

【技术特征摘要】
1.一种融合领域知识的医疗对话意图识别方法，其特征在于，该方法包括以下步骤：
S1、对语料进行采集和预处理，划分对话数据；
S2、领域知识检索：采用检索方法获取医疗问题，以及相应问题的答案，检索模型将用户提问u和待检索的问题基于意图词的频率计算二者相似度，进而根据相似度由高到低进行排序；
S3、输入单词的序列，通过领域知识问答对向量计算注意力权重，融合领域知识的对话问句表示，一个问答对包括一个医疗问题及其答案所构成的全部文本内容；
S4、采用面向多样化意图的组排序损失函数，训练意图识别模型，实现意图词的识别和分类。

2.如权利要求1所述的融合领域知识的医疗对话意图识别方法，其特征在于，步骤S1中：
采集医学社区问答网站医生与患者之间的对话数据，将其作为人机对话模型训练的数据基础，按照医患多轮问答的句子进行数据存储，判断每轮次患者提问所涉及的具体疾病名、症状名和身体部位来进行意图识别，对话数据划分为两部分：一部分数据进行意图词的标注，并将其用于人机对话模型训练，训练数据包含医疗人机对话的文本和每个对话句子中所涉及的意图词的标签，医疗人机对话的文本来源于医疗社区问答网站，标签通过网站上的标签自动获取，并将其用于模型训练；另一部分数据不进行标注，将其作为领域知识，为标注数据提供更多有效的信息，训练数据集与领域知识数据集的划分比例为1:N，N的取值范围为1～10。

3.如权利要求1所述的融合领域知识的医疗对话意图识别方法，其特征在于，步骤S2中：
对于对话中的用户提问u，u是指人机对话中的每一轮次的提问或者回答,在未标注数据中采用检索方法获取相关的问题，以及相应问题的答案，检索模型将用户提问u和领域知识数据集的提问问题基于意图词的频率计算二者相似度，进而根据相似度由高到低进行排序；
S21、分别计算用户提问与相关问题中意图词出现的频率，分别记作TFu和TFq；
S22、计算意图词在所有问答对中出现的次数的倒数，分别记作IDFu和IDFq；
S23、通过计算TFu*IDFu和TFq*IDFq作为用户提问u与待检索问题q的表示向量，计算二者相似度，获得u与q的相似度；
S24、基于相似度对所有问题q进行排序，并将其作为领域知识问答对，表示为N＝{Q,A}＝{(Q1,A1),(Q2,A2),…,(Qn,An)}；Q表示所有医疗问题的集合；A表示所有答案的集合；
S25、领域知识问答对集合按照与用户提问的相关性进行排序，作为后续问句表示的输入，为问句表示提供领域知识。

4.如权利要求1所述的融合领域知识的医疗对话意图识别方法，其特征在于，步骤S3中：
融合领域知识的对话问句表示采用长短时记忆网络模型...

【专利技术属性】
技术研发人员：徐博，宗林林，林鸿飞，王健，林原，许侃，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人