多轮交互概率模型训练方法及自动应答方法技术

技术编号：17007761 阅读：49 留言：0更新日期：2018-01-11 04:01

本发明专利技术公开了一种多轮交互概率模型训练方法及自动应答方法，基于多轮对话语料库训练得到N元多轮交互概率模型，在N元多轮交互概率模型包含有各单轮对话中的问题和回答的二元至N元交互概率，在进行自动应答的过程中，选择选择针对提问方实时提出的问题概率最大的回答作为实时提出的问题的回答，能够得到较高的精度，并且有效解决了现有交互式自动问答技术不具有广泛适用性以及交互规则需要人工指定，耗时耗力的问题，无需人工配置规则，能够广泛适应于各种交互场景。

全部详细技术资料下载

【技术实现步骤摘要】
多轮交互概率模型训练方法及自动应答方法
本专利技术涉及自然语言处理技术，尤其涉及一种多轮交互概率模型训练方法及自动应答方法。
技术介绍
多轮次、交互式自动问答是人工智能领域中的一个难题，要解决的问题是，如何实现计算机与人的对话式问答，具体来说需要完成以下功能：(1)当要回答提问方所问询的事情需要多个条件，而提问方未充分提供这些条件时，计算机将引导提问方提供这些条件。例如，在航班预定中，需要出发日期、出发城市、达到城市等多个条件，如果提问方未能提供，则计算机需要主动问询提问方如“您去哪儿？”之类的问题，从提问方处获取到这些必要条件。(2)当提问方所问询的事情需要按步骤引导完成时，计算机将引导提问方不断按步骤完成整个对话。例如，在医疗自动诊断中，为了完成对提问方是否具有糖尿病的诊断，可能需要逐步诊断，首先问询提问方是否有家族病史，如果有则进一步询问提问方是否有相应病症，否则需要询问提问方是否有检查记录等。在这个过程中，需要计算机根据提问方的问题，以及所问询事情的步骤，不断与提问方进行交互，完成对话。目前，相关的解决方法是基于交互规则的方法。该方法的基本思路是，人工设定...
多轮交互概率模型训练方法及自动应答方法

【技术保护点】
一种多轮交互概率模型训练方法，基于多轮对话语料库，所述多轮对话语料库包括若干个多轮对话，每个多轮对话包括若干个单轮对话，每个单轮对话包括提问方提出的一个问题和应答方做出的一个回答，所述问题和所述回答均包括至少一个词汇，其特征在于，所述方法包括：步骤A：对每个单轮对话进行信息压缩；步骤B：对信息压缩后的每个单轮对话中的问题和回答进行信息泛化；步骤C：对信息泛化后的每个单轮对话中的问题和回答进行词向量化；步骤D：计算词向量化后的每个单轮对话中的问题和回答的二元至N元交互概率，得到基于所述多轮对话语料库的N元多轮交互概率模型。

【技术特征摘要】
1.一种多轮交互概率模型训练方法，基于多轮对话语料库，所述多轮对话语料库包括若干个多轮对话，每个多轮对话包括若干个单轮对话，每个单轮对话包括提问方提出的一个问题和应答方做出的一个回答，所述问题和所述回答均包括至少一个词汇，其特征在于，所述方法包括：步骤A：对每个单轮对话进行信息压缩；步骤B：对信息压缩后的每个单轮对话中的问题和回答进行信息泛化；步骤C：对信息泛化后的每个单轮对话中的问题和回答进行词向量化；步骤D：计算词向量化后的每个单轮对话中的问题和回答的二元至N元交互概率，得到基于所述多轮对话语料库的N元多轮交互概率模型。2.如权利要求1所述的多轮交互概率模型训练方法，其特征在于，所述步骤A包括：步骤A1：对每个单轮对话中的问题和回答分别进行依存句法分析，以提取出每个单轮对话中的问题和回答中作为核心句法成分的词汇，所述核心句法成分包括谓语、主语、宾语和状语；步骤A2：计算每个单轮对话中的每个词汇对应该词汇所属单轮对话的tf-idf值；步骤A3：删除每个单轮对话中的问题和回答中tf-idf值小于预设阈值且不作为核心句法成分的词汇。3.如权利要求2所述的多轮交互概率模型训练方法，其特征在于，所述步骤B包括：对信息压缩后的每个单轮对话中的问题和回答中的各词汇进行命名实体识别，并将每个单轮对话中的问题和回答中属于命名实体的词汇泛化为该词汇对应的命名实体类型。4.如权利要求1所述的多轮交互概率模型训练方法，其特征在于，将所述多轮对话语料库中的第i个多轮对话记为mrdi，所述第i个多轮对话中的第j个单轮对话记为srdj...

【专利技术属性】
技术研发人员：王晓晖，
申请(专利权)人：北京首科长昊医疗科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人