一种构建家电维修问答库的方法、装置、存储介质及终端制造方法及图纸

技术编号:24353554 阅读:25 留言:0更新日期:2020-06-03 02:05
本公开涉及电子信息技术领域,具体涉及一种构建家电维修问答库的方法、装置、存储介质及终端,方法包括:获取维修问答数据集;基于语义相似度、句长相似度、字数相似度,对维修问答数据集中的维修问题进行聚类,得到问题组;从维修问答数据集中获取与每个问题组中维修问题对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;构建家电维修问答库,并将每个问题组和与该问题组对应的最优答案存储至该家电维修问答库,解决了现有技术中在构建问答知识库时难度大以及强度高的问题。

A method, device, storage medium and terminal for building household appliance maintenance Q & a database

【技术实现步骤摘要】
一种构建家电维修问答库的方法、装置、存储介质及终端
本公开涉及电子信息
,特别地涉及一种构建家电维修问答库的方法、装置、存储介质及终端。
技术介绍
问答知识库是一种问答知识库可以帮助用户在线解决80%的一般问题以及常见问题,不仅方便了用户,节省用户的时间,也大大减轻了工作人员的压力。目前常见的做法是将积累的常见问题解答、或者其他相关的文档整理成常见问题解答,运用传统的文本匹配模型添加到问答知识库中,传统的文本匹配模型需要基于大量的人工标注和整理,即人工对多种问题以及对应的答案进行归类整理,如空调制冷问题类、空调噪音问题类、空调清洁问题类、空调零部件问题类、空调保养问题类、空调安装问题类等。当问答越来越多时,会给后期维护人员带来较大的压力,进而增加维护人员的劳动强度。因此,如何降低构建问答知识库的难度和强度是亟待解决的问题。
技术实现思路
针对上述问题,本公开提供一种构建家电维修问答库的方法、装置、存储介质及终端,解决了现有技术中在构建问答知识库时难度大以及强度高的问题。第一方面,本公开提供了一种构建家电维修问答库的方法,所述方法包括:获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。根据本公开的实施例,可选的,上述方法中,在所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤之前,所述方法还包括:对所述维修问答数据集中包括的至少两个维修问题进行预处理,以更新所述维修问答数据集中包括的至少两个维修问题。根据本公开的实施例,可选的,上述方法中,在基于语义相似度、句长相似度、字数相似度中的任意一种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的任意一种相似度值,得到该两个维修问题之间的独立相似度值;在所述独立相似度值大于第一预设阈值时,将该独立相似度值对应的两个维修问题划为至同一个问题组。根据本公开的实施例,可选的,上述方法中,在基于语义相似度、句长相似度、字数相似度中的至少两种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的至少两种相似度值,将所述至少两种相似度值进行加权求和,得到该两个维修问题之间的综合相似度值;在所述综合相似度值大于第一预设阈值时,将该综合相似度值对应的两个维修问题划为至同一个问题组。根据本公开的实施例,可选的,上述方法中,所述从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案的步骤包括:从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,从获取到的维修答案中任意选取一个维修答案,并对选取到的维修答案进行预处理,以得到该问题组对应的最优答案。根据本公开的实施例,可选的,上述方法中,所述预处理包括:分词处理,将待处理对象进行分词处理,得到多个词组;筛选处理,根据获取到的预设售后关键词和句法分析算法,保留多个所述词组中词性为主语、谓语、宾语或状语以及多个所述词组中包括预设售后关键词的词组;去停用词处理,根据获取到的停用词表,判断在经过筛选处理得到的每个词组是否为所述停用词表中的预设词组,将为所述停用词表中的预设词组的词组作为停用词组,并将该停用词组去除;其中,所述待处理对象包括所述维修问答数据集中包括的至少两个维修问题和选取到的维修答案。根据本公开的实施例,可选的,上述方法中,所述方法还包括:获取待解答问题;在确定所述家电维修问答库中包括的问题组中不存在与所述待解答问题的语义相似度大于第二预设阈值的维修问题时,获取输入的与所述待解答问题对应的答案;将所述待解答问题以及与所述待解答问题对应的答案添加至所述维修问答数据集中,以更新维修问答数据集。第二方面,本公开提供一种构建空调维修问答库的装置,所述装置包括:获取模块,用于获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;聚类模块,用于基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;确定模块,用于从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;构建模块,用于构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。第三方面,本公开提供了一种存储介质,该存储介质存储有计算机程序,当该计算机程序被一个或多个处理器执行,实现上述的方法。第四方面,本公开提供了一种终端,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,实现上述的方法。与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:本公开提供的一种构建家电维修问答库的方法、装置、存储介质及终端,所述方法包括:获取维修问答数据集;基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中确定该问题组对应的最优答案;构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库,解决了现有技术中在构建问答知识库时难度大以及强度高的问题。附图说明...

【技术保护点】
1.一种构建家电维修问答库的方法,其特征在于,所述方法包括:/n获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;/n基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;/n从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;/n构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。/n

【技术特征摘要】
1.一种构建家电维修问答库的方法,其特征在于,所述方法包括:
获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;
基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;
从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;
构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。


2.如权利要求1所述的方法,其特征在于,在所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤之前,所述方法还包括:
对所述维修问答数据集中包括的至少两个维修问题进行预处理,以更新所述维修问答数据集中包括的至少两个维修问题。


3.如权利要求2所述的方法,其特征在于,在基于语义相似度、句长相似度、字数相似度中的任意一种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:
采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;
基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的任意一种相似度值,得到该两个维修问题之间的独立相似度值;
在所述独立相似度值大于第一预设阈值时,将该独立相似度值对应的两个维修问题划为至同一个问题组。


4.如权利要求2所述的方法,其特征在于,在基于语义相似度、句长相似度、字数相似度中的至少两种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:
采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;
基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的至少两种相似度值,将所述至少两种相似度值进行加权求和,得到该两个维修问题之间的综合相似度值;
在所述综合相似度值大于第一预设阈值时,将该综合相似度值对应的两个维修问题划为至同一个问题组。

【专利技术属性】
技术研发人员:王燕
申请(专利权)人:珠海格力电器股份有限公司珠海联云科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1