大型语料库的高效智能客服方法技术

技术编号:20919629 阅读:54 留言:0更新日期:2019-04-20 10:20
本发明专利技术涉及一种大型语料库的高效智能客服方法。本发明专利技术引入基于关键词加权的递归聚类算法对语料库做预分类,基于关键词的加权保留了词库匹配的优势,采用了相似度计算的方式,降低相似度计算的时间复杂度。同时,避免了人工标注和构建词库的成本支出,不存在迁移学习的复杂性和不适配性。在店铺自动售后、市民自动问询、公众号自动回复自动售后问答、市民云自动问询、社交APP自动聊天等人机交互领域均有较好的表现。

An Efficient and Intelligent Customer Service Method for Large Corpus

The invention relates to an efficient intelligent customer service method for a large corpus. In the present invention, a recursive clustering algorithm based on keyword weighting is introduced to pre-classify the corpus, and the advantages of matching the corpus are retained based on keyword weighting. The method of similarity calculation is adopted to reduce the time complexity of similarity calculation. At the same time, it avoids the cost of labeling and constructing the lexicon manually, and there is no complexity and inappropriateness of transfer learning. In the field of human-computer interaction, such as shop automatic after-sale, citizen automatic inquiry, public number automatic response automatic after-sale question and answer, citizen cloud automatic inquiry, social APP automatic chat and so on, it has good performance.

【技术实现步骤摘要】
大型语料库的高效智能客服方法
本专利技术涉及一种店铺自动售后、市民自动问询、公众号自动回复等人机交互方法,属于智能交互

技术介绍
现有技术主要分监督学习和非监督学习两类模型,监督学习以文本分类和文本生成为主,非监督学习以关键词匹配和相似度计算为主,介绍如下:1.文本分类主要围绕机器学习(SVM、Logistic等分类模型)、深度学习(CNN、RNN等神经网络),通过对文本做分类,查询知识库相应类别的答案作为反馈。不足:需要大量的语料,新增的问题分类需要重新训练,需要人工标注问题分类,硬件成本高昂,训练耗时,难以迁移。2.文本生成主要围绕深度学习(seq2seq),通过Encoder-Decoder结构的网络,输入是一个序列,输出也是一个序列,自动生成回答。不足:需要大量的语料,硬件成本高昂,训练耗时,难以迁移。3.关键词匹配主要围绕规则算法(正则表达式等),通过对真实问题和预设问答的关键词、近义词匹配,引出一个素材库的查询回复。不足:人工抽取重要词汇,词库管理开销较大,容易出现词汇冲突等问题。4.相似度计算主要围绕构建文本特征工程和相似度计算,对输入到问答知识库相似性判断直接查询答案。不足:大型数据集下的计算开销比较大,准确率略低于其他三种。机器学习、深度学习均需要人工标注、构建词库,需要耗费大量的人力物力。相似度计算在大数据场景下耗时多,同一个模型难以在不同场景下迁移。
技术实现思路
本专利技术解决的技术问题是:智能交互
高成本、高耗时和不同场景的迁移问题。为了解决上述技术问题,本专利技术的技术方案是提供了一种大型语料库的高效智能客服方法,其特征在于,包括以下步骤:步骤1、对语料库corpus当前层级的每一个语料做分词,得到词语序列wordlistcorpus,其中,语料库corpus=[document1,document2,...,documentlen(corpus)]是一个包含所有语料的列表;语料库corpus中的第i个语料表示为documenti,i=1,2,...,len(corpus),len(corpus)表示语料库corpus的长度;第i个语料documenti的词语序列定义为表示第i个语料documenti的第i个分词,len(document)表示第i个语料documenti的长度;步骤2、对词语序列wordlistcorpus中的每个语料的词语序列匹配词向量,得到所有语料的词向量序列veclistcorpus,第i个语料documenti的词向量序列表示为为与第i个语料documenti的第j个分词的词向量,j=1,2,...,len(documenti);步骤3、计算词向量序列veclistcorpus中每个语料的词向量序列所对应的句向量,从而得到所有语料的句向量序列veccorpus,第i个语料documenti的句向量表示为则有mean表示计算均值;步骤4、若语料库corpus当前层级的语料数量大于预先设定的阈值thresholdcluster,则进入步骤5,否则进入步骤6;步骤5、对语料库corpus的句向量序列veccorpus做聚类,将相似的语料归为一类,得到多个聚类中心、每个聚类的语料子集和每个聚类的关键词表,其中第i个聚类中心表示为clusteri,聚类中心clusteri的语料子集表示为corpusi,聚类中心clusteri的关键词表表示为keywordsi;步骤6、判断语料库corpus是否存在下一层级,若存在,则返回步骤1,若不存在,则输出处理后的语料库corpuspreprocessing;步骤7、用户提出问题strask后,对问题strask进行分词处理,得到问题strask的词语序列,匹配词语序列的词向量后,得到与问题strask相匹配的句向量vecask;步骤8、计算句向量vecask与语料库corpuspreprocessing中各个层级的聚类中心的加权相似度,在当前层级中选择相似度最高的聚类中心所对应的语料集,随后计算句向量vecask与语料集中每一条句向量的相似度;步骤9、若上一步获得的所有相似度的最大值大于预先设定的阈值thresholdsimilarity,则直接进入与最大的相似度所对应的句向量所在的语料库corpuspreprocessing的层级,否则,选取相似度最大的几个句向量所在的语料库corpuspreprocessing的层级供用户选择进入。优选地,第i个语料documenti表示为:documenti={key:keytexti,1,value:valuetexti,1,node:[{key:keytexti,1.1,value:valuetexti,1.1},{key:keytexti,1.2,value:valuetexti.1.2}]}式中,key表示标准问题,keytexti,1表示第i个语料的第一个标准问题,value表示标准问题对应的标准答案,valuetexti,1表示第i个语料的第一个标准答案,keytexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准问题,keytexti,1.2表示第i个语料的第一个标准问题下一级的第二个标准问题,valuetexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准答案,valuetexti.1.2表示第i个语料的第一个标准问题下一级的第二个标准答案。本专利技术引入基于关键词加权的递归聚类算法对语料库做预分类,基于关键词的加权保留了词库匹配的优势,采用了相似度计算的方式,降低相似度计算的时间复杂度。同时,避免了人工标注和构建词库的成本支出,不存在迁移学习的复杂性和不适配性。在店铺自动售后、市民自动问询、公众号自动回复等人机交互领域均有较好的表现。现阶段,当语料库较大时,通过和每一条语料计算相似度来返回相关语料,计算时间过长、内存占用率过大,不适合使用相似度算法。其他方案如文本分类、文本生成,需要大量的人工标注、构建词库,需要耗费大量的人力物力。尤其的深度学习,需要大量的语料和强大的硬件。对于小型企业和个人,都是难以承担的支出。本专利技术不需要任何额外的标注,完全基于高效的非监督学习。通过聚类算法对语料库做多层次的预分类,在训练阶段可以将扁平数据结构转为层次化数据结构,大幅降低不相关文本之间的计算量。模型部署后,原先需要和多条语料做相似度计算的开销降低至只需要和聚类中心做相似度计算,大幅降低了相似度计算的时间和内存占用率,提高了整体的性能。相似度计算需要和知识库的每一条知识做匹配,时间复杂度O(n),O(·)表示算法的运行时间,n表示知识库需要计算相似度的标准问题数量;本专利技术的时间复杂度最低只有O(k×logk(n)),k表示递归聚类算法的聚类数量,单次聚类时间复杂度可降低为附图说明图1为本专利技术的流程图;图2为本专利技术中分词过程的示意图;图3为本专利技术的聚类算法示意图;图4为本专利技术的预处理过程示意图;图5为本专利技术的用户提问过程示意图;图6为本专利技术用户交互详细流程图;图7为问答过程至最后层级示意图;图8为本专利技术实施例的流程图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅本文档来自技高网...

【技术保护点】
1.一种大型语料库的高效智能客服方法,其特征在于,包括以下步骤:步骤1、对语料库corpus当前层级的每一个语料做分词,得到词语序列wordlist

【技术特征摘要】
1.一种大型语料库的高效智能客服方法,其特征在于,包括以下步骤:步骤1、对语料库corpus当前层级的每一个语料做分词,得到词语序列wordlistcorpus,其中,语料库corpus=[document1,document2,...,documentlen(corpus)]是一个包含所有语料的列表;语料库corpus中的第i个语料表示为documenti,i=1,2,...,len(corpus),len(corpus)表示语料库corpus的长度;第i个语料documenti的词语序列定义为表示第i个语料documenti的第i个分词,len(document)表示第i个语料documenti的长度;步骤2、对词语序列wordlistcorpus中的每个语料的词语序列匹配词向量,得到所有语料的词向量序列veclistcorpus,第i个语料documenti的词向量序列表示为为与第i个语料documenti的第j个分词的词向量,j=1,2,...,len(documenti);步骤3、计算词向量序列veclistcorpus中每个语料的词向量序列所对应的句向量,从而得到所有语料的句向量序列veccorpus,第i个语料documenti的句向量表示为则有mean表示计算均值;步骤4、若语料库corpus当前层级的语料数量大于预先设定的阈值thresholdcluster,则进入步骤5,否则进入步骤6;步骤5、对语料库corpus的句向量序列veccorpus做聚类,将相似的语料归为一类,得到多个聚类中心和每个聚类的语料子集和每个聚类的关键词表,其中第i个聚类中心表示为clusteri,聚类中心clusteri的语料子集表示为corpusi,聚类中心clusteri的关键词表表示为keywordsi;步骤6、判断语料库corpus是否存在下一层级,若存在,则返回步骤1,若不存在,...

【专利技术属性】
技术研发人员:任君翔李光亚陈诚
申请(专利权)人:万达信息股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1