一种基于k-means聚类算法的智能客服问答系统技术方案

技术编号:26504973 阅读:64 留言:0更新日期:2020-11-27 15:32
本发明专利技术涉及智能客服技术领域,且公开了一种基于k‑means聚类算法的智能客服问答系统,包括以下步骤:1)用户意图理解,获得用户问题,确定客户问题的焦点;2)根据客户问题的焦点,快速定位,对文本进行向量空间表示与特征向量的选择与权重计算,本发明专利技术的优点在于:通过焦点快速定位,对文本进行向量空间表示与特征向量的选择与权重计算,并且向量空间模型为文本中提取其特征项组成特征向量,并以某种方式为特征项赋权,向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权,能够使智能客服快速的获知用户所提出的问题,通过知识库将准确的回答用户问题,并且会收入该问题,完成自我学习,提升了问答精准度。

【技术实现步骤摘要】
一种基于k-means聚类算法的智能客服问答系统
本专利技术涉及智能客服
,具体为一种基于k-means聚类算法的智能客服问答系统。
技术介绍
近年来,随着电网业务快速发展,企业级关键应用系统规模和业务功能持续扩充、用户规模的急剧增长,广大用户对业务咨询、问题投诉等方面的服务需求也显著增加,导致运维客户服务的压力随之加大。2019年公司“三型两网、世界一流”战略目标的确立,将会带来影响电网公司信息化发展的新一波浪潮,可以预见未来对信通客服能力的要求会达到一个新的层面。而同时,一方面静态的FAQ方式难以给用户快速准确的解答,一方面人工服务却需要经常进行简单重复性的回复。当前河北信息通信客服主要是通过186客服电话为全体电力员工提供各类系统运维支撑服务,日均电话量600通,业务高峰期话务量1200通,业务高峰期由于客服坐席接听量有限,弃话率较高。与此同时,人们越来越依靠互联网获取相关信息,如何准确高效地从大量信息中获取所需知识成为亟待解决的问题。传统的做法可能是询问业务人员、查看相关文档或者直接利用搜索引擎搜索答案。但是这些方式往往存在着获取知识耗时较长,所得知识不精确的问题,因此本专利技术提出一种基于k-means聚类算法的智能客服问答系统,用于解决上述问题。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于k-means聚类算法的智能客服问答系统,具备问答精准等优点,解决了获取知识耗时较长,知识不精确的问题。(二)技术方案为实现上述问答精准目的,本专利技术提供如下技术方案:一种基于k-means聚类算法的智能客服问答系统,包括以下步骤:1)用户意图理解,获得用户问题,确定客户问题的焦点;2)根据客户问题的焦点,快速定位,对文本进行向量空间表示与特征向量的选择与权重计算;3)计算查询向量与文本向量的相似度;4)对语义相似度进行计算;5)得出计算结果后根据问题内容设置算法设计策略;6)构建知识库标准体系,并根据知识库内容回答客户问题,并记录客户问题到知识库,完成自我学习优选的,所述步骤1)中的焦点通过专有名词和名词短语的识别,并结合词性标注技术,去除语气词,助词等无意义词汇,结合对句子主干的分析和理解,对问句的焦点和核心成分进行标记和提取。优选的,所述步骤1)通过同义词与问题的类型对问句进行扩展和深层理解,所述步骤1)中根据用户问句中的关键词对知识库文档的各个段落进行索引优选的,所述步骤2)中向量空间模型为文本中提取其特征项组成特征向量,并以某种方式为特征项赋权。优选的,所述步骤3)中对查询向量与文本向量相似度的计算公式使用向量距离计算公式与向量余弦距离计算公式。优选的,所述步骤4)中对语义相似度进行计算的方法选用统计学习法、语义词典法与编辑距离法,所述统计学习法使用skip-gram模型和NegativeSampling算法。优选的,所述步骤4)中语义相似度的计算分为句子相似度计算与段落相似度计算,所述句子相似度计算采用TF-IDF算法与N-Gram语言模型,所述段落相似度计算采用加权二部图匹配算法与机器学习算法doc2vect,所述TF-IDF算法是基于词频统计的文本相似度计算方法,所述TF-IDF算法待计算相似度的两句话用词越相似,它们描述同一概念的可能性就越大,所述TF-IDF算法通过分词,列出所有的词语,然后计算词频,写出词频向量,计算两个句子相似度的问题就转化成计算空间中两个向量的余弦值,所述向量的两条线段之间形成一个夹角,我们可以通过向量夹角的大小,来判断句子的相似程度,夹角越小,句子相似度就越高,所述N-Gram语言模型本身用来预测在已知某个字符串的情况下,下一个位置出现某个词语的概率,常用来判断某个句子的写法是否符合规范。优选的,所述步骤5)中算法设计策略包括有分治法、动态规划法与贪心算法,所述分治法是将一个难以直接解决的大问题,分割成一些规模较小的相同问题,以便各个击破,分而治之,所述分治法的策略是:对于一个规模为n的问题,若该问题可以容易地解决(比如说规模n较小)则直接解决,否则将其分解为k个规模较小的子问题,这些子问题互相独立且与原问题形式相同,递归地解这些子问题,然后将各子问题的解合并得到原问题的解,所述动态规划法所处理的问题是一个多阶段决策问题,一般由初始状态开始,通过对中间阶段决策的选择,达到结束状态,这些决策形成了一个决策序列,同时确定了完成整个过程的一条活动路线,通常是求最优的活动路线。优选的,所述步骤2)中对于向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权,所述特征项选择由处理速度、精度、存储空间等方面的具体要求来决定,所述特征项赋权同时包含提高查全率和查准率的赋权因子。优选的,所述步骤1)中依照文本片断索引提取候选文文件片断,并按照其与用户问句的相关性进行排序。(三)有益效果与现有技术相比,本专利技术提供了一种基于k-means聚类算法的智能客服问答系统,具备以下有益效果:该基于k-means聚类算法的智能客服问答系统,通过焦点快速定位,对文本进行向量空间表示与特征向量的选择与权重计算,并且向量空间模型为文本中提取其特征项组成特征向量,并以某种方式为特征项赋权,向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权,特征项选择由处理速度、精度、存储空间等方面的具体要求来决定,特征项赋权同时包含提高查全率和查准率的赋权因子,同时计算查询向量与文本向量的相似度,对语义相似度进行计算,并且构建知识库标准体系,并根据知识库内容回答客户问题,并记录客户问题到知识库,完成自我学习,能够使智能客服快速的获知用户所提出的问题,通过知识库将准确的回答用户问题,并且会收入该问题,完成自我学习,大大提高了客服工作效率,提升了问答精准度。具体实施方式下面将结合本专利技术的实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例:一种基于k-means聚类算法的智能客服问答系统,包括以下步骤:1)用户意图理解,获得用户问题,确定客户问题的焦点,问句焦点是指问句中核心的句法和语义成分,通常表现为专有名词或者名词短语。对问题焦点的识别是用户问句处理的关键所在。我们通过专有名词和名词短语的识别,并结合词性标注技术,去除语气词,助词等无意义词汇,结合对句子主干的分析和理解,对问句的焦点和核心成分进行标记和提取,问句的扩展和深层理解对问句的扩展主要有两种方法:一个是根据同义词进行扩展,一个是根据问题的类型进行扩展。为了确保输入问句的信息不被改变,根据同义词对问句进行扩展时,要求扩展词与被扩展词之间意义必须完全一样,为了保证问句扩展的有效性,必须引入词义消歧技术。根据问题类型的扩展,主要根据问题所属本文档来自技高网...

【技术保护点】
1.一种基于k-means聚类算法的智能客服问答系统,其特征在于,包括以下步骤:/n1)用户意图理解,获得用户问题,确定客户问题的焦点;/n2)根据客户问题的焦点,快速定位,对文本进行向量空间表示与特征向量的选择与权重计算;/n3)计算查询向量与文本向量的相似度;/n4)对语义相似度进行计算;/n5)得出计算结果后根据问题内容设置算法设计策略;/n6)构建知识库标准体系,并根据知识库内容回答客户问题,并记录客户问题到知识库,完成自我学习。/n

【技术特征摘要】
1.一种基于k-means聚类算法的智能客服问答系统,其特征在于,包括以下步骤:
1)用户意图理解,获得用户问题,确定客户问题的焦点;
2)根据客户问题的焦点,快速定位,对文本进行向量空间表示与特征向量的选择与权重计算;
3)计算查询向量与文本向量的相似度;
4)对语义相似度进行计算;
5)得出计算结果后根据问题内容设置算法设计策略;
6)构建知识库标准体系,并根据知识库内容回答客户问题,并记录客户问题到知识库,完成自我学习。


2.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤1)中的焦点通过专有名词和名词短语的识别,并结合词性标注技术,去除语气词,助词等无意义词汇,结合对句子主干的分析和理解,对问句的焦点和核心成分进行标记和提取。


3.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤1)通过同义词与问题的类型对问句进行扩展和深层理解,所述步骤1)中根据用户问句中的关键词对知识库文档的各个段落进行索引。


4.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤2)中向量空间模型为文本中提取其特征项组成特征向量,并以某种方式为特征项赋权。


5.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤3)中对查询向量与文本向量...

【专利技术属性】
技术研发人员:赵炜成思远宋峥峥张冬亚殷娣娣刘惠刁首人赵小萌李丹庄磊王尧赵继生
申请(专利权)人:国网河北省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1