一种基于BERT的客服问答系统技术方案

技术编号:22166868 阅读:24 留言:0更新日期:2019-09-21 10:33
一种基于BERT的客服问答系统,属于数据计算技术领域,包括接收模块、预处理模块、意图模块和模板引擎模块;所述接收模块用于接收用户端提出的问题;所述预处理模块用于对接收到的问题进行处理;所述意图模块是用于对获取的问题的意图进行解析获取;所述模板引擎模块用于对获取的问题和标准问题进行匹配,获得问法;所述答案配置模块用于对系统提供的问法生成答案;本发明专利技术的系统采用BERT模型用于特征向量提取,并基于欧式距离的triplet loss函数进行监督,相比于采用二分类的cross entropy loss函数,这样产生的向量在计算相似度距离会更加自然合理,而对比常规的训练模型,triplet net同时训练正负样例,模型收敛更快;同时,系统中的数据为闭环状态,缩短修改周期,以及提高系统的准确性。

A Customer Service Question Answering System Based on BERT

【技术实现步骤摘要】
一种基于BERT的客服问答系统
本专利技术属于数据计算
,特别涉及一种基于BERT的客服问答系统。
技术介绍
自然语言处理(NatureLanguageProcessing,NLP)是语言学、计算机科学、以及人工智能相互作用的领域。NLP是数据科学的一个分支,以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取的过程。通过使用NLP及其组件,能够解决各式各样的文本问题,如文本相似度、自动摘要、机器翻译、命名实体识别、关系提取、情感分析以及主题分割等。客服是一种解答顾客疑问,满足顾客合理诉求的职业。其形式以文字客服为主,如淘宝客服、京东客服等。客服是一种机械重复性高,人力密集型的工作。客服人员每天需要接收大量顾客的不同情绪,难免会影响服务质量。基于NLP技术实现的客服问答系统,可以精准捕捉用户意图,理解用户自然语言提问,将答案直接返回给用户,能够有效减少客服的工作量。目前客服问答系统主要基于ConvolutionalNeuralNetworks(CNN)和RecurrentNeuralNetwork(RNN)实现,通过对字向量或者词向量进行特征提取来获取文本特征,难以对句子进行完整的语义表达,影响问答系统的准确性。
技术实现思路
本专利技术的目的在于克服上述提到的缺陷和不足,而提供一种基于BERT的客服问答系统。为了解决上述技术问题,采用如下技术方案:一种基于BERT的客服问答系统,包括接收模块(100)、预处理模块(101)、意图模块(110)和模板引擎模块(102);所述接收模块(100)用于接收用户端提出的问题;所述预处理模块(101)用于对接收到的问题进行处理,具体工作步骤内容如下:(1)、对获取到的用户问题数据字数进行比对,若字数≤5时,结合用户问题的上下文,便于意图模块(110)来对用户的意图进行理解;(2)、若字数>5时,对于句子中的噪点进行祛除,便于意图模块(110)来对用户的意图进行理解;(3)、其中,预处理模块(101)中设置有一个负面情绪识别的分类器,用于分类正向、负向情感,若判别为负面情绪时,启动人工服务;若判别为正向情绪时,则由本系统自动进行答疑。所述意图模块(110)是用于对获取的问题的意图进行解析获取;所述模板引擎模块(102)用于对获取的问题和标准问题进行匹配,获得问法;工作步骤具体内容如下:(1)、根据意图模块(110)获得意图匹配对应的问法,若匹配到相应的问法时,直接发送至答案配置模块(105),生成答案,进行解疑;(2)、若未匹配到相应的问法时,启动检索模块(103)检索相应的问法。所述排序模块(104)工作步骤的具体内容如下:(1)、获取检索模块(103)检索出的多个候选问法,通过对多个候选问法的字面得分、语义得分、关键词得分等多维度进行排序,确定排序第一的问法。所述答案配置模块(105)用于对系统提供的问法生成答案;其中,所述模板引擎模块(102)具体包括检索模块(103)、排序模块(104)、聚类模块(107)和知识库(106),所述知识库(106)用来存储问法以及该问法其他形式的描述数据,所述检索模块(103)根据获得的问法和知识库(106)中进行相似度计算,得到较为接近的多个候选问法,所述排序模块(104)用于对获得的多个候选问法进行排序,确定最优的候选问法,输送至答案配置模块(105),所述聚类模块(107)将筛选出的未匹配问法进行聚类,便于知识库(106)内部问法数据进一步的完善。所述检索模块(103)包括字面检索模块(109)和语义检索模块(108),所述字面检索模块(109)通过对获取的用户问题进行分词检索,结合知识库(106)中的数据,计算权重,快速检索相似的句子;所述语义检索模块(108)通过Bert模型提取用户问题的语义向量和知识库(106)中的语义特征向量进行相似度计算。所述Bert模型提取采用的是基于Bert模型改进的tripletnet模型,在计算loss采用的tripletloss,即扩大同义问题与不同义问题的距离。所述聚类模块(107)将筛选出的未匹配问法进行聚类,即系统内部设置有阀值,当分值低于阀值时,筛选出来的候选问法归类为未匹配问法。由于采用上述技术方案,具有以下有益效果:本专利技术的系统采用BERT模型用于特征向量提取,并基于欧式距离的tripletloss函数进行监督,相比于采用二分类的crossentropyloss函数,这样产生的向量在计算相似度距离会更加自然合理,而对比常规的训练模型,tripletnet同时训练正负样例,模型收敛更快;同时,系统中的数据为闭环状态,缩短修改周期,以及提高系统的准确性。附图说明图1是本专利技术的一种基于BERT的客服问答系统的系统架构图;图2是本专利技术中排序模块的结构示意图;图3是本专利技术一种基于BERT的客服问答系统的流程框图;图中:100-接收模块;101-预处理模块;102-模板引擎模块;103-检索模块;104-排序模块;105-答案配置模块;106-知识库;107-聚类模块;108-语义检索模块;109-字面检索模块;110-意图模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。如图1-3所示的一种基于BERT的客服问答系统,包括接收模块100、预处理模块101、意图模块110和模板引擎模块102,;所述接收模块100用于接收用户端提出的问题;所述预处理模块101用于对接收到的问题进行处理;所述意图模块110是用于对获取的问题的意图进行解析获取;所述模板引擎模块102用于对获取的问题和标准问题进行匹配,获得问法;工作步骤具体内容如下:(1)、根据意图模块110获得意图匹配对应的问法,若匹配到相应的问法时,直接发送至答案配置模块105,生成答案,进行解疑;(2)、若未匹配到相应的问法时,启动检索模块103检索相应的问法。所述答案配置模块105用于对系统提供的问法生成答案;其中,所述模板引擎模块102具体包括检索模块103、排序模块104、聚类模块107和知识库106,所述知识库106用来存储问法以及该问法其他形式的描述数据,所述检索模块103根据获得的问法和知识库106中进行相似度计算,得到较为接近的多个候选问法,所述排序模块104用于对获得的多个候选问法进行排序,确定最优的候选问法,输送至答案配置模块105,所述聚类模块107将筛选出的未匹配问法进行聚类,便于知识库106内部问法数据进一步的完善。进一步,所述预处理模块101的具体工作步骤内容如下:(1)、对获取到的用户问题数据字数进行比对,若字数≤5时,结合用户问题的上下文,便于意图模块110来对用户的意图进行理解;(2)、若字数>5时,对于句子中的噪点进行祛除,便于意图模块110来对用户的意图进行理解;(3)、其中,预处理模块101中设置有一个负面情绪识别的分类器,用于分类正向、负向情感,若判别为负面情绪时,启动人工服务;若判别为正向情绪时,则由本系统自动进行答疑。进一步,所述排序模块104工作步骤的具体内容如下:(1)、获取检索模块103检索出的多个候选问法,通过对多个候选问法的字面得分、语义得分、关键词得分等多维度进行排序,确定排序第一的问法。进一步,本文档来自技高网...

【技术保护点】
1.一种基于BERT的客服问答系统,其特征在于,包括接收模块(100)、预处理模块(101)、意图模块(110)和模板引擎模块(102);所述接收模块(100)用于接收用户端提出的问题;所述预处理模块(101)用于对接收到的问题进行处理;所述意图模块(110)是用于对获取的问题的意图进行解析获取;所述模板引擎模块(102)用于对获取的问题和标准问题进行匹配,获得问法;所述答案配置模块(105)用于对系统提供的问法生成答案;其中,所述模板引擎模块(102)具体包括检索模块(103)、排序模块(104)、聚类模块(107)和知识库(106),所述知识库(106)用来存储问法以及该问法其他形式的描述数据,所述检索模块(103)根据获得的问法和知识库(106)中进行相似度计算,得到较为接近的多个候选问法,所述排序模块(104)用于对获得的多个候选问法进行排序,确定最优的候选问法,输送至答案配置模块(105),所述聚类模块(107)将筛选出的未匹配问法进行聚类,便于知识库(106)内部问法数据进一步的完善。

【技术特征摘要】
1.一种基于BERT的客服问答系统,其特征在于,包括接收模块(100)、预处理模块(101)、意图模块(110)和模板引擎模块(102);所述接收模块(100)用于接收用户端提出的问题;所述预处理模块(101)用于对接收到的问题进行处理;所述意图模块(110)是用于对获取的问题的意图进行解析获取;所述模板引擎模块(102)用于对获取的问题和标准问题进行匹配,获得问法;所述答案配置模块(105)用于对系统提供的问法生成答案;其中,所述模板引擎模块(102)具体包括检索模块(103)、排序模块(104)、聚类模块(107)和知识库(106),所述知识库(106)用来存储问法以及该问法其他形式的描述数据,所述检索模块(103)根据获得的问法和知识库(106)中进行相似度计算,得到较为接近的多个候选问法,所述排序模块(104)用于对获得的多个候选问法进行排序,确定最优的候选问法,输送至答案配置模块(105),所述聚类模块(107)将筛选出的未匹配问法进行聚类,便于知识库(106)内部问法数据进一步的完善。2.根据权利要求1所述的一种基于BERT的客服问答系统,其特征在于,所述预处理模块(101)的具体工作步骤内容如下:(1)、对获取到的用户问题数据字数进行比对,若字数≤5时,结合用户问题的上下文,便于意图模块(110)来对用户的意图进行理解;(2)、若字数>5时,对于句子中的噪点进行祛除,便于意图模块(110)来对用户的意图进行理解;(3)、其中,预处理模块(101)中设置有一个负面情绪识别的分类器,用于分类正向、负向情感,若判别为负面情绪时,启动人工服务;若判别为正向情绪...

【专利技术属性】
技术研发人员:高凯
申请(专利权)人:杭州微洱网络科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1