一种使用机器学习提升技术支持效率的系统技术方案

技术编号:18783816 阅读:52 留言:0更新日期:2018-08-29 06:58
一种使用机器学习提升技术支持效率的系统,包括数据预处理模块,分类模块、相似度计算模块、专家系统判断模块、分配模块;数据预处理模块包括数据提取单元、新词分配单元和分词单元,相似度计算模块包括第二向量化单元、LDA单元和相似度计算单元,专家系统判断模块包括关键词匹配单元、业务系统查询单元和规则判断单元。本发明专利技术使用专家系统判断模块结合分类器、使用监督机器学习,让机器学习和业务专家规则很好融合,确保准确率;新词模块能确保在不同的垂直领域也能工作良好,能够逐渐提升准确率,提升效率,极大降低了客服对经验的要求。

【技术实现步骤摘要】
一种使用机器学习提升技术支持效率的系统
本专利技术属于软件设计
,设计一种使用机器学习来提升技术支持效率的系统。
技术介绍
当客服无法解决用户的问题时,会求助于技术支持人员来帮助处理。现有的公司,会把这些工作放在一个技术支持系统中(比如:jira系统),由客服和技术支持人员来协调处理。这一般需要客服有经验,或者能够去自行查找FAQ系统,根据FAQ的提示去找相关人员,或是找一些对技术有了解的技术人员来帮助客服正确的去找到正确的技术人员。这就对客服或者协助帮忙的技术人员的经验水平提出了很高的要求。虽然有系统作为载体,但由于问题种类很多,情况复杂,协助有困难,人工查找有时会很慢,对于紧急问题或者大量爆发时问题,忙不过来,处理效率低下。
技术实现思路
为解决上述问题,本专利技术公开了一种使用机器学习提升技术支持效率的系统。为了达到上述目的,本专利技术提供如下技术方案:一种使用机器学习提升技术支持效率的系统,包括:数据预处理模块,分类模块、相似度计算模块、专家系统判断模块、分配模块;所述数据预处理模块包括数据提取单元、新词分配单元和分词单元;所述数据提取单元用于采集历史数据,并过滤历史数据中的无效数据;所述新词分配单元用于在用户问题数据中寻找新词;分词单元用于对用户的信息进行分词;所述分类模块包括第一向量化单元和分类器;所述第一向量化单元用于对用户的问题进行向量化,将不同长度的语句,转换成统一维度的向量;所述分类器首先基于用户问题和技术人员进行分类,对准确度不满足要求的进行二次分类;二次分类根据前述一次分类的结果,将实际分类结果y与历史数据中确定的类别Y的对应关系,使用有向图(networkxG)进行记录,y指向Y;再使用社区发现算法计算哪些分类的关系比较近,根据结果,将Y中相应部分标记新的分组G;所述相似度计算模块包括第二向量化单元、LDA单元和相似度计算单元;所述第二向量化单元使用与第一向量化单元不同的方法将用户的问题转化成统一维度向量;所述LDA单元将第二向量化单元的输出统一维度向量,放入LDA主题模型中进行机器学习;所述相似度计算单元使用genismsimilariry计算,采用余弦相似性标准计算新问题与历史问题的相似度;专家系统判断模块包括关键词匹配单元、业务系统查询单元和规则判断单元;关键词匹配单元用于对用户信息再次进行有效提取,首先使用正则办法,提取连续的数字,,然后使用NLP提取人名,接着由业务专家根据分类器模块提到的Y与G的对应关系,分析出来的一些有分类价值的词,进行提取;使用NLP从历史数据提取谓词,判断出主体;业务系统查询单元根据关键词匹配出来的结果,进行业务确认;规则判断单元用于将获取得到的更多的分类信息,生成一个多维数据,进行规则判断;分配模块用于根据相似度计算模块的计算结果,专家系统判断模块以及分类器的结果,抉择合理分类。进一步的,分配模块判断过程包括:X为待分配的用户信息,当X被最终分配后,将K记作此次分配的可能性数值,并通过以下步骤进行判断:1,如果相似度计算模块计算的similarity值中有最大值c,且c>0.9,则X被分配给相似度计算模块给出的分类,且K=c;终止判断过程;2,如果分类模块给出X的分类为G,且专家系统判断模块中有规则匹配到,则X被分配给此规则给出的分类,且K=e;终止判断过程,e为此规则对应的准确率;如果分类模块给出X的分类为Y的可能性为b,且b>0.4:此时专家系统判断模块若无规则匹配,则X被分配给Y,K=b;终止判断过程;此时专家系统判断模块若有规则匹配,规则准确率是e且e>=0.5,则K=max(b,e),即将X分配给分类模块和专家系统判断模块分类结果中的高者,终止判断过程;3,如果以上几种情况均不符合,则X的被分配到默认的分类中,且K=0。进一步的,还包括分析判断模块,分析判断模块用于采用人工判断或自动判断方法在用户问题上打上标签。进一步的,所述自动判断方法包括以下步骤:A,如果“可能性数值”=0,则需要打上“分错”标签B,如果该问题得到及时处理,属于正常如果立即进行二次分配,则认为有“嫌疑”C,如果有“嫌疑”且“可能性数值”<=0.4则需要打“分错”标签D,如果有“嫌疑”但“可能性数值”>0.4则需要打“可能分错”标签,可能分错的会经由人工再进行详细判断。进一步的,所述无效数据包括已经废弃的分类数据和欠缺关键字词的数据。进一步的,所述新词分配模块采用信息熵方法寻找新词。进一步的,所述关键词匹配单元中由业务专家分析出来的一些有分类价值的词的过程包括:将相同G的n个用例,先分词形成一个n*m维的矩阵,然后使用PCA方法,将矩阵维度下降到i,业务专家再从业务理解角度挑选i维度中部分词,作为有分类价值的词。与现有技术相比,本专利技术具有如下优点和有益效果:本专利技术使用专家系统判断模块结合分类器、使用监督机器学习,让机器学习和业务专家规则很好融合,确保准确率;新词模块能确保在不同的垂直领域也能工作良好;能够有效管理准确率,相似算法以及分类器的准确度都能描述成0-1之间,便于管理。此外,行为分析通过系统判断“分错”,实现分类器监督机器学习方式也能少人工参与有普遍使用性。本专利技术形成一个良性循环,能够逐渐提升准确率,提升效率,极大降低了客服对经验的要求。附图说明图1为本专利技术系统架构图。图2为系统处理技术支持整体流程图。图3为实际使用本专利技术系统的统计数据。图4为一个用户问题示例。图5为系统对问题重新分类的过程记录,其中“77777”为系统机器人。具体实施方式以下将结合具体实施例对本专利技术提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本专利技术而不用于限制本专利技术的范围。本专利技术提供的使用机器学习提升技术支持效率的系统,如图1、图2所示,包括数据预处理模块,分类模块、相似度计算模块、专家系统判断模块、分配模块、行为分析模块。其中,数据预处理模块包括数据提取单元、新词提取单元、分词单元。数据提取单元通过采集历史的案例中数据产生供机器学习的数据。从历史的案例中,很容易提取出用户的问题以及问题的详细说明,以及提取出技术支持人员是谁,他们属于哪个分类的(一般的系统设计,都会有分类,然后每个分类都会分配几个技术支持人员来负责,比如,jira系统)。在本模块中,需要将已经废弃的分类数据和描述太少、缺乏关键词的数据过滤掉,这样才能够保证数据都是有效的。新词提取单元用于在数据提取单元获取的历史数据中寻找新词,由于很多情况下,用户的语言会超出一般词典范围,另外由于所处垂直领域会有一些专业词汇。这个模块需要找到这些新词。寻找新词有很多算法,本专利技术选择使用“信息熵”的技术来找新词。“信息熵”算法可以实现“无监督新词识别”。基本原理是:如果一个片段左右的搭配很丰富,且片段内部成分搭配很固定,则认为这是一个词。本模块需要设置“最低信息熵”,该值需要根据实际效果来调整。通过新词分配模块,扩充了词典内的词语数量。分词单元用于根据完善后的词典对历史数据中的用户的信息进行分词。分词的技术很成熟,属于NLP(自然语言处理)范围内。开源中有很多现成的分词库。此模块需要将上一步“新词提取”的结果放进去完成开源词库并进行分词。本专利技术中采用本文档来自技高网...

【技术保护点】
1.一种使用机器学习提升技术支持效率的系统,其特征在于,包括:数据预处理模块,分类模块、相似度计算模块、专家系统判断模块、分配模块;所述数据预处理模块包括数据提取单元、新词分配单元和分词单元;所述数据提取单元用于采集历史数据,并过滤历史数据中的无效数据;所述新词分配单元用于在用户问题数据中寻找新词;分词单元用于对用户的信息进行分词;所述分类模块包括第一向量化单元和分类器;所述第一向量化单元用于对用户的问题进行向量化,将不同长度的语句,转换成统一维度的向量;所述分类器首先基于用户问题和技术人员进行分类,对准确度不满足要求的进行二次分类;二次分类根据前述一次分类的结果,将实际分类结果y与历史数据中确定的类别Y的对应关系,使用有向图进行记录,y指向Y;再使用社区发现算法计算哪些分类的关系比较近,根据结果,将Y中相应部分标记新的分组G;所述相似度计算模块包括第二向量化单元、LDA单元和相似度计算单元;所述第二向量化单元使用与第一向量化单元不同的方法将用户的问题转化成统一维度向量;所述LDA单元将第二向量化单元的输出统一维度向量,放入LDA主题模型中进行机器学习;所述相似度计算单元使用genism similariry计算,采用余弦相似性标准计算新问题与历史问题的相似度;专家系统判断模块包括关键词匹配单元、业务系统查询单元和规则判断单元;关键词匹配单元用于对用户信息再次进行有效提取,首先使用正则办法,提取连续的数字,然后使用NLP提取人名,接着由业务专家根据分类器模块提到的Y与G的对应关系,分析出来的一些有分类价值的词,进行提取;使用NLP从历史数据提取谓词,判断出主体;业务系统查询单元根据关键词匹配出来的结果,进行业务确认;规则判断单元用于将获取得到的更多的分类信息,生成一个多维数据,进行规则判断;分配模块用于根据相似度计算模块的计算结果,专家系统判断模块以及分类器的结果,抉择合理分类。...

【技术特征摘要】
1.一种使用机器学习提升技术支持效率的系统,其特征在于,包括:数据预处理模块,分类模块、相似度计算模块、专家系统判断模块、分配模块;所述数据预处理模块包括数据提取单元、新词分配单元和分词单元;所述数据提取单元用于采集历史数据,并过滤历史数据中的无效数据;所述新词分配单元用于在用户问题数据中寻找新词;分词单元用于对用户的信息进行分词;所述分类模块包括第一向量化单元和分类器;所述第一向量化单元用于对用户的问题进行向量化,将不同长度的语句,转换成统一维度的向量;所述分类器首先基于用户问题和技术人员进行分类,对准确度不满足要求的进行二次分类;二次分类根据前述一次分类的结果,将实际分类结果y与历史数据中确定的类别Y的对应关系,使用有向图进行记录,y指向Y;再使用社区发现算法计算哪些分类的关系比较近,根据结果,将Y中相应部分标记新的分组G;所述相似度计算模块包括第二向量化单元、LDA单元和相似度计算单元;所述第二向量化单元使用与第一向量化单元不同的方法将用户的问题转化成统一维度向量;所述LDA单元将第二向量化单元的输出统一维度向量,放入LDA主题模型中进行机器学习;所述相似度计算单元使用genismsimilariry计算,采用余弦相似性标准计算新问题与历史问题的相似度;专家系统判断模块包括关键词匹配单元、业务系统查询单元和规则判断单元;关键词匹配单元用于对用户信息再次进行有效提取,首先使用正则办法,提取连续的数字,然后使用NLP提取人名,接着由业务专家根据分类器模块提到的Y与G的对应关系,分析出来的一些有分类价值的词,进行提取;使用NLP从历史数据提取谓词,判断出主体;业务系统查询单元根据关键词匹配出来的结果,进行业务确认;规则判断单元用于将获取得到的更多的分类信息,生成一个多维数据,进行规则判断;分配模块用于根据相似度计算模块的计算结果,专家系统判断模块以及分类器的结果,抉择合理分类。2.根据权利要求1所述的使用机器学习提升技术支持效率的系统,其特征在于,分配模块判断过程包括:X为待分配的用户信息,当X被最终分配后,将K记作此次分配的可能性数值,并通过以下步骤进行判断:1,...

【专利技术属性】
技术研发人员:胡小敏
申请(专利权)人:南京途牛科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1