一种基于深度学习的智能问答方法技术

技术编号:37681936 阅读:8 留言:0更新日期:2023-05-28 09:35
本发明专利技术公开了一种基于深度学习的智能问答方法,属于人工智能及自然语言处理技术领域,该方法的实现包括以下步骤:构建问答知识数据库,进行数据预处理,相似语句自动生成丰富文本问答数据集;搭建问答系统网络,基于问答数据集训练模型;获取用户输入的问题,进行数据预处理;语义识别对比问题的相似度,检索问答知识数据库,搜索匹配答案;问答知识数据库在线实时更新,记录用户问题到知识数据库库,完成自我学习;使用Sentence

【技术实现步骤摘要】
一种基于深度学习的智能问答方法


[0001]本专利技术涉及人工智能及自然语言处理
,具体地说是一种基于深度学习的智能问答方法。

技术介绍

[0002]随着互联网时代的快速发展,越来越多的人们习惯于在网络上寻求问题解答,体现在生活中的各行各业中,用户每天提出的问题不仅数量多,还会出现很多描述方式不同但语义相同的问题,对这类问题重复进行解答会耗费大量的人力和物力。智能问答技术应运而生,它以准确、简洁的自然语言回答用户提出的复杂问题,被大家熟知的有解决人们线上购物需求的阿里的小蜜,满足人的陪伴需求的小爱同学等。
[0003]现有智能问答技术多以文本信息、语音信息交互,形式比较单一,无法准确获取用户意图,对于复杂的语句环境问答准确率低,影响用户体验感。传统的模型训练速度慢、计算量大、匹配精准度低,目前广泛使用深度神经网络来提取文本特征,常用的如RNN、CNN和Transformer等模型,其中Transformer具有更好的泛化性能,BERT等大型预训练神经网络模型被用于对话系统中的检索任务,但在生成任务上表现较差,而实现检索和生成模式的相结合更有助于提升问题答复的质量和效率,问答系统应该进一步提升对话生成的质量,提升数据利用率及加深对文本语义的理解。

技术实现思路

[0004]本专利技术的技术任务是针对以上不足之处,提供一种基于深度学习的智能问答方法,能够实现高效准确的语义匹配,提高问答准确率和用户体验感。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种基于深度学习的智能问答方法,该方法的实现包括以下步骤:
[0007]1)、构建问答知识数据库,进行数据预处理,相似语句自动生成丰富文本问答数据集;
[0008]2)、搭建问答系统网络,基于问答数据集训练模型;
[0009]3)、获取用户输入的问题,进行数据预处理;
[0010]4)、语义识别对比问题的相似度,检索问答知识数据库,搜索匹配答案;
[0011]5)、问答知识数据库在线实时更新,记录用户问题到知识数据库库,完成自我学习;
[0012]其中,使用Sentence

BERT模型对文本数据进行句向量化处理,通过Faiss建立向量索引,使用IndexIVFFlat倒排文件索引方法提高检索速度。
[0013]该方法能够精准地理解用户的意图,解决多义词在不同语境下具有不同含义的问题,实现快速及准确的文本相似度匹配,显著提高了文本匹配准确度及问答效率。
[0014]优选的,所述构建问答知识数据库,相似语句自动生成丰富文本问答数据集,
[0015]利用用户与客服的问答对数据构建问答文档;并进行数据预处理操作包括分词、
去除停用词和分配id号操作,从而得到数据集;采集到的问题和答案对应id号存储于问答知识数据库中。
[0016]优选的,所述数据预处理操作具体包括:
[0017]去除标点符号等特殊符号;
[0018]采用jieba全模式分词,把句子中所有的可以成词的词语快速扫描出来;
[0019]采用哈工大停用词表,去除掉会影响分类结果的停用词。
[0020]优选的,所述搭建问答系统网络,基于问答数据集训练模型,
[0021]将问答数据集作为模型的输入,对深度学习网络模型进行训练,使用Sentence

BERT模型对文本数据进行句向量化处理,然后通过Faiss对这些特征向量进行计算并建立向量索引,最后利用倒排文件索引方法提高对数据的检索速度与准确度;
[0022]训练过程中,用预训练的Sentence

BERT模型参数,微调后获取最优参数,模型中引入双向自注意力机制,在训练过程中自动融入上下文信息,动态更新词、字向量,解决一词多义问题。
[0023]优选的,所述获取用户输入的问题并进行数据预处理,
[0024]对用户输入的问题进行语义特征向量提取,首先进行数据预处理包括分词、去除停用词;然后调用Sentence

BERT模型将预处理的数据转换为特征向量,即将分词映射成向量来表示。
[0025]优选的,所述语义识别对比问题的相似度,检索问答知识数据库,搜索匹配答案;
[0026]调用Faiss对步骤3)中转换得到的特征向量进行计算并建立向量索引;与问答知识数据库中问题进行相似度计算,具体计算方法为:使用余弦函数计算句向量之间的相似度,即两个向量的积除以模长的积来计算夹角的余弦值,从候选相似句中选择与用户问题最相似的答案,即取余弦值最大的。
[0027]进一步的,所述语义识别对比问题的相似度,检索问答知识数据库,搜索匹配答案,
[0028]首先基于原始的特征向量创建一个索引文件,首次创建包括Train和Add增加两个过程,之后索引文件中增加新的向量时,只需要依次执行Add操作;当增加向量数量过多时,可选择重新更新创建整个索引文件;
[0029]使用IndexIVFFlat倒排文件索引方法实现快速搜索:首先把问答知识数据库中所有向量通过K

means算法划分成多个聚类,查询时通过遍历全部聚类的中心向量,得到与输入向量最近邻的若干个聚类中心,最后在这些聚类中通过IndexFlatL2来计算向量间的距离,然后找出距离最接近的K个元素。
[0030]优选的,所述问答知识数据库在线实时更新,记录用户问题到知识数据库,完成自我学习;
[0031]当检索结果为空集或各个待定问句与输入问题的余弦相似度最高值低于匹配阈值时,则转人工回复,并将该问题增加进问答知识数据库中。
[0032]本专利技术还要求保护一种基于深度学习的智能问答系统,包括:至少一个存储器和至少一个处理器;
[0033]所述至少一个存储器,用于存储机器可读程序;
[0034]所述至少一个处理器,用于调用所述机器可读程序,执行上述的基于深度学习的
智能问答方法。
[0035]本专利技术还要求保护计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的基于深度学习的智能问答方法。
[0036]本专利技术的一种基于深度学习的智能问答方法与现有技术相比,具有以下有益效果:
[0037]解决了传统的模型训练速度慢、计算量大、匹配精准度低等问题,提高问答准确率和用户体验感;本智能问答方法使用Sentence

BERT模型对文本数据进行句向量化处理,通过Faiss建立向量索引,使用IndexIVFFlat倒排文件索引方法提高检索速度,有效解决多义词在不同语境下具有不同含义的问题,实现了高效准确的语义匹配,显著提高了文本匹配准确度及问答效率。
附图说明
[0038]图1是本专利技术一个实施例提供的基于深度学习的智能问答方法实现流程图。
具体实施方式
[0039]下面结合具体实施例对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的智能问答方法,其特征在于,该方法的实现包括以下步骤:1)、构建问答知识数据库,进行数据预处理,相似语句自动生成丰富文本问答数据集;2)、搭建问答系统网络,基于问答数据集训练模型;3)、获取用户输入的问题,进行数据预处理;4)、语义识别对比问题的相似度,检索问答知识数据库,搜索匹配答案;5)、问答知识数据库在线实时更新,记录用户问题到知识数据库库,完成自我学习;其中,使用Sentence

BERT模型对文本数据进行句向量化处理,通过Faiss建立向量索引,使用IndexIVFFlat倒排文件索引方法提高检索速度。2.根据权利要求1所述的一种基于深度学习的智能问答方法,其特征在于,所述构建问答知识数据库,相似语句自动生成丰富文本问答数据集,利用用户与客服的问答对数据构建问答文档;并进行数据预处理操作包括分词、去除停用词和分配id号操作,从而得到数据集;采集到的问题和答案对应id号存储于问答知识数据库中。3.根据权利要求2所述的一种基于深度学习的智能问答方法,其特征在于,所述数据预处理操作具体包括:去除标点符号等特殊符号;采用jieba全模式分词,把句子中所有的可以成词的词语快速扫描出来;采用哈工大停用词表,去除掉会影响分类结果的停用词。4.根据权利要求1或2所述的一种基于深度学习的智能问答方法,其特征在于,所述搭建问答系统网络,基于问答数据集训练模型,将问答数据集作为模型的输入,对深度学习网络模型进行训练,使用Sentence

BERT模型对文本数据进行句向量化处理,然后通过Faiss对这些特征向量进行计算并建立向量索引,最后利用倒排文件索引方法提高对数据的检索速度与准确度;训练过程中,用预训练的Sentence

BERT模型参数,微调后获取最优参数,模型中引入双向自注意力机制,在训练过程中自动融入上下文信息,动态更新词、字向量,解决一词多义问题。5.根据权利要求4所述的一种基于深度学习的智能问答方法,其特征在于,所述获取用户输入的问题并进行数据预处理,对用户输入的问题进行语义特征向量提取,首先进行数据预...

【专利技术属性】
技术研发人员:杨彤李雪段强姜凯
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1