【技术实现步骤摘要】
一种基于深度学习的智能问答方法
[0001]本专利技术涉及人工智能及自然语言处理
,具体地说是一种基于深度学习的智能问答方法。
技术介绍
[0002]随着互联网时代的快速发展,越来越多的人们习惯于在网络上寻求问题解答,体现在生活中的各行各业中,用户每天提出的问题不仅数量多,还会出现很多描述方式不同但语义相同的问题,对这类问题重复进行解答会耗费大量的人力和物力。智能问答技术应运而生,它以准确、简洁的自然语言回答用户提出的复杂问题,被大家熟知的有解决人们线上购物需求的阿里的小蜜,满足人的陪伴需求的小爱同学等。
[0003]现有智能问答技术多以文本信息、语音信息交互,形式比较单一,无法准确获取用户意图,对于复杂的语句环境问答准确率低,影响用户体验感。传统的模型训练速度慢、计算量大、匹配精准度低,目前广泛使用深度神经网络来提取文本特征,常用的如RNN、CNN和Transformer等模型,其中Transformer具有更好的泛化性能,BERT等大型预训练神经网络模型被用于对话系统中的检索任务,但在生成任务上表现较差,而 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的智能问答方法,其特征在于,该方法的实现包括以下步骤:1)、构建问答知识数据库,进行数据预处理,相似语句自动生成丰富文本问答数据集;2)、搭建问答系统网络,基于问答数据集训练模型;3)、获取用户输入的问题,进行数据预处理;4)、语义识别对比问题的相似度,检索问答知识数据库,搜索匹配答案;5)、问答知识数据库在线实时更新,记录用户问题到知识数据库库,完成自我学习;其中,使用Sentence
‑
BERT模型对文本数据进行句向量化处理,通过Faiss建立向量索引,使用IndexIVFFlat倒排文件索引方法提高检索速度。2.根据权利要求1所述的一种基于深度学习的智能问答方法,其特征在于,所述构建问答知识数据库,相似语句自动生成丰富文本问答数据集,利用用户与客服的问答对数据构建问答文档;并进行数据预处理操作包括分词、去除停用词和分配id号操作,从而得到数据集;采集到的问题和答案对应id号存储于问答知识数据库中。3.根据权利要求2所述的一种基于深度学习的智能问答方法,其特征在于,所述数据预处理操作具体包括:去除标点符号等特殊符号;采用jieba全模式分词,把句子中所有的可以成词的词语快速扫描出来;采用哈工大停用词表,去除掉会影响分类结果的停用词。4.根据权利要求1或2所述的一种基于深度学习的智能问答方法,其特征在于,所述搭建问答系统网络,基于问答数据集训练模型,将问答数据集作为模型的输入,对深度学习网络模型进行训练,使用Sentence
‑
BERT模型对文本数据进行句向量化处理,然后通过Faiss对这些特征向量进行计算并建立向量索引,最后利用倒排文件索引方法提高对数据的检索速度与准确度;训练过程中,用预训练的Sentence
‑
BERT模型参数,微调后获取最优参数,模型中引入双向自注意力机制,在训练过程中自动融入上下文信息,动态更新词、字向量,解决一词多义问题。5.根据权利要求4所述的一种基于深度学习的智能问答方法,其特征在于,所述获取用户输入的问题并进行数据预处理,对用户输入的问题进行语义特征向量提取,首先进行数据预...
【专利技术属性】
技术研发人员:杨彤,李雪,段强,姜凯,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。