一种基于集成学习的问答方法及系统技术方案

技术编号:27205992 阅读:18 留言:0更新日期:2021-01-31 12:29
本发明专利技术公开了一种基于集成学习的问答方法及系统。方法包括:将用户问题输入预先训练好的集成学习模型,所述集成学习模型包含多个机器学习模型,每个机器学习模型输出该用户问题应由哪一个子问答模块来回答的分类结果;对所述多个机器学习模型的分类结果进行投票集成,根据投票集成结果确定最终调用的子问答模块。本发明专利技术借助深度学习技术、集成学习技术,调用合适的子问答模块来回答问题,不依赖于子问答模块的排序,问答效果好,且能够支持使用用户反馈数据对系统再次进行优化。户反馈数据对系统再次进行优化。户反馈数据对系统再次进行优化。

【技术实现步骤摘要】
一种基于集成学习的问答方法及系统


[0001]本专利技术涉及一种基于集成学习的问答方法及系统,属于电力智能客服机器人领域。

技术介绍

[0002]电力智能客服是在传统的客服系统基础上,集成了语义理解、知识图谱、深度学习等多项智能交互技术,能准确理解用户的意图或提问,再根据电力知识库和电力知识图谱,给予用户满意的回答。
[0003]电力智能客服机器人中包含常见问答模块(简称FAQ问答模块,Frequently Asked Questions)和知识图谱问答模块(简称KBQA模块,Knowledge Base Question Answering)。FAQ问答模块用于回答常见用户问题,KBQA模块多用于回答知识查询、推理类问题。两个问答模块结合可以回答绝大多数用户问题。
[0004]电力智能客服机器人的核心是中控系统,它的主要功能是分析用户问题,选择合适的问答模块来回答用户问题。
[0005]当前基于KBQA和FAQ问答模块的智能客服中,中控逻辑较为简单,是基于规则的、串行的,中控系统会尝试调用子问答模块(即KBQA模块和FAQ模块),并根据子问答模块的返回结果来判断是否调用下一个问答模块。
[0006]但是,当前中控调度依赖于被调用问答模块的返回结果,中控系统需要根据被调用模块的返回结果判断是否继续调用下一个问答模块。这种工作方式由如下几个不足:
[0007]1)问答模块调用方式不合理,问答效果依赖于子模块的排序,排在前面模块的返回结果有更大的几率被作为最终答案。这是不合理的,如果答案质量较高的模块排在后面,那么就很有可能不被调用;
[0008]2)用户问题语义感知能力缺失,用户问题交由FAQ问答模块回答还是KBQA问答模块回答需要根据用户问题的语义、意图来确定,而当前基于规则是无法做到这一点的;
[0009]3)无法根据用户反馈做进一步优化,用户在使用过程中会留下大量的反馈信息,这些数据可以用于中控系统的优化,但是基于规则的中控系统是无法用到这些标注信息的。

技术实现思路

[0010]本专利技术的目的在于提供一种基于集成学习的问答方法及系统,以解决现有技术中存在的问答模块调用方式不合理、不能根据用户问题的语义、意图来确定调用问答模块等问题。
[0011]为解决上述技术问题,本专利技术采用如下技术方案:
[0012]一方面,本专利技术提供了一种基于集成学习的问答方法,包括如下步骤:
[0013]将用户问题输入预先训练好的集成学习模型,所述集成学习模型包含多个机器学习模型,每个机器学习模型输出该用户问题应由哪一个子问答模块来回答的分类结果;
[0014]对所述多个机器学习模型的分类结果进行投票集成,根据投票集成结果确定最终调用的子问答模块。
[0015]进一步地,所述问答方法,还包括:在输入集成学习模型之前,对用户问题进行预处理。
[0016]进一步地,所述预处理,包括:
[0017]对用户问题进行统一编码;
[0018]对编码后的用户问题进行简繁转换;
[0019]对简繁转换后用户问题进行停用词移除。
[0020]进一步地,所述集成学习模型的训练方法,包括:
[0021]获取用户问题训练集;
[0022]对训练集中的每个用户问题标注该问题应由哪一个子问答模块来回答;
[0023]将标注好的训练集输入所述集成学习模型中的每个机器学习模型,以对每个机器学习模型进行训练。
[0024]进一步地,所述训练方法,还包括:对训练后的每个机器学习模型的训练效果进行评价。
[0025]进一步地,对每个机器学习模型的训练效果进行评价的方法,包括:
[0026]将包含用户问题和对应标注结果的测试集输入所述集成学习模型中的每个机器学习模型,每个机器学习模型输出对应的预测结果;
[0027]根据所述预测结果和所述对应标注结果,计算F1指标;
[0028]根据F1指标评价所述集成学习模型的训练效果。
[0029]进一步地,所述训练方法,还包括:使用用户反馈的数据对所述集成学习模型中的每个机器学习模型进行训练。
[0030]另一方面,本专利技术提供了一种基于集成学习的问答系统,包括:
[0031]分类结果预测模块,配置为将用户问题输入预先训练好的集成学习模型,所述集成学习模型包含多个机器学习模型,每个机器学习模型输出该用户问题应由哪一个子问答模块来回答的分类结果;
[0032]投票模块,用于对所述多个机器学习模型的分类结果进行投票集成,根据投票集成结果确定最终调用的子问答模块。
[0033]进一步地,所述问答系统,还包括:数据预处理模块,配置为在将用户问题输入集成学习模型之前,对用户问题进行预处理。
[0034]进一步地,所述问答系统,还包括:问答日志数据库,配置为存储用户问题和对应的子问答模块调用结果,以及用户反馈的用户问题应由哪个子问答模块回答的数据。
[0035]相比于现有技术,本专利技术所达到的有益技术效果:
[0036]1)问答效果好,本专利技术借助深度学习技术、集成学习技术,使得中控系统可根据用户语义选择合适的子问答模块来回答问题,问答效果不依赖于子问答模块的排序,避免了按顺序调用子问答模块带来的性能下降的问题;
[0037]2)支持反馈优化,当系统运行一段时间后会积累大量的用户问题反馈数据,该反馈数据可用于对系统再次进行训练,从而获得更好的效果;
[0038]3)可扩展性强,本专利技术可快速增加新的子问答模块,比如任务型问答模块、百科问
答模块、天气查询问答模块等,只需要增加新的标注数据重新训练集成学习模型即可。
附图说明
[0039]图1是本专利技术实施例的一种基于集成学习的问答方法的流程图;
[0040]图2是本专利技术另一实施例的一种基于集成学习的问答方法的流程图;
[0041]图3是移除停用词的方法流程图。
[0042]图4是本专利技术实施例的一种基于集成学习的问答系统的结构模块图。
具体实施方式
[0043]下面结合具体实施例对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。
[0044]针对前述存在的问答模块调用方式不合理、用户问题语义感知能力缺失、无法根据用户反馈做进一步优化的问题,本专利技术借助深度神经网络、决策树、SVM等多个机器学习模型对用户问题做语义分析,判断用户问题应由何种问答模块来回答,然后使用投票策略将多个机器学习模型的结果结合并返回最终需要被调用的模块。
[0045]如图1所示,本专利技术实施例提供了一种基于集成学习的问答方法,包括如下步骤:
[0046]步骤11,对用户问题进行预处理;
[0047]步骤12,将预处理后的用户问题输入预先训练好的集成学习模型,所述集成学习模型包含多个机器学习模型,每个机器学习模型输出该用户问题应由哪一个子问答模块来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的问答方法,其特征在于,包括如下步骤:将用户问题输入预先训练好的集成学习模型,所述集成学习模型包含多个机器学习模型,每个机器学习模型输出该用户问题应由哪一个子问答模块来回答的分类结果;对所述多个机器学习模型的分类结果进行投票集成,根据投票集成结果确定最终调用的子问答模块。2.根据权利要求1所述的方法,其特征在于,还包括:在输入集成学习模型之前,对用户问题进行预处理。3.根据权利要求2所述的方法,其特征在于,所述预处理,包括:对用户问题进行统一编码;对编码后的用户问题进行简繁转换;对简繁转换后用户问题进行停用词移除。4.根据权利要求1所述的方法,其特征在于,所述集成学习模型的训练方法,包括:获取用户问题训练集;对训练集中的每个用户问题标注该问题应由哪一个子问答模块来回答;将标注好的训练集输入所述集成学习模型中的每个机器学习模型,以对每个机器学习模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述训练方法,还包括:对训练后的每个机器学习模型的预测性能进行评价。6.根据权利要求5所述的方法,其特征在于,对每个机器学习模型的预测性能进行评价的方...

【专利技术属性】
技术研发人员:吴宁嵇友浪孙少辰赵洪莹俞阳邹云峰
申请(专利权)人:国网江苏省电力有限公司营销服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1