大型语料库的高效智能客服方法技术

技术编号：20919629 阅读：54 留言：0更新日期：2019-04-20 10:20

本发明专利技术涉及一种大型语料库的高效智能客服方法。本发明专利技术引入基于关键词加权的递归聚类算法对语料库做预分类，基于关键词的加权保留了词库匹配的优势，采用了相似度计算的方式，降低相似度计算的时间复杂度。同时，避免了人工标注和构建词库的成本支出，不存在迁移学习的复杂性和不适配性。在店铺自动售后、市民自动问询、公众号自动回复自动售后问答、市民云自动问询、社交APP自动聊天等人机交互领域均有较好的表现。

An Efficient and Intelligent Customer Service Method for Large Corpus

The invention relates to an efficient intelligent customer service method for a large corpus. In the present invention, a recursive clustering algorithm based on keyword weighting is introduced to pre-classify the corpus, and the advantages of matching the corpus are retained based on keyword weighting. The method of similarity calculation is adopted to reduce the time complexity of similarity calculation. At the same time, it avoids the cost of labeling and constructing the lexicon manually, and there is no complexity and inappropriateness of transfer learning. In the field of human-computer interaction, such as shop automatic after-sale, citizen automatic inquiry, public number automatic response automatic after-sale question and answer, citizen cloud automatic inquiry, social APP automatic chat and so on, it has good performance.

全部详细技术资料下载

【技术实现步骤摘要】
大型语料库的高效智能客服方法
本专利技术涉及一种店铺自动售后、市民自动问询、公众号自动回复等人机交互方法，属于智能交互

技术介绍
现有技术主要分监督学习和非监督学习两类模型，监督学习以文本分类和文本生成为主，非监督学习以关键词匹配和相似度计算为主，介绍如下：1.文本分类主要围绕机器学习(SVM、Logistic等分类模型)、深度学习(CNN、RNN等神经网络)，通过对文本做分类，查询知识库相应类别的答案作为反馈。不足：需要大量的语料，新增的问题分类需要重新训练，需要人工标注问题分类，硬件成本高昂，训练耗时，难以迁移。2.文本生成主要围绕深度学习(seq2seq)，通过Encoder-Decoder结构的网络，输入是一个序列，输出也是一个序列，自动生成回答。不足：需要大量的语料，硬件成本高昂，训练耗时，难以迁移。3.关键词匹配主要围绕规则算法(正则表达式等)，通过对真实问题和预设问答的关键词、近义词匹配，引出一个素材库的查询回复。不足：人工抽取重要词汇，词库管理开销较大，容易出现词汇冲突等问题。4.相似度计算主要围绕构建文本特征工程和相似度计算，对输入到问答知识库相似性判断直接查询答案。不足：大型数据集下的计算开销比较大，准确率略低于其他三种。机器学习、深度学习均需要人工标注、构建词库，需要耗费大量的人力物力。相似度计算在大数据场景下耗时多，同一个模型难以在不同场景下迁移。
技术实现思路
本专利技术解决的技术问题是：智能交互
高成本、高耗时和不同场景的迁移问题。为了解决上述技术问题，本专利技术的技术方案是提供了一种大型语料库的高效智能客服方法，其...

【技术保护点】
1.一种大型语料库的高效智能客服方法，其特征在于，包括以下步骤：步骤1、对语料库corpus当前层级的每一个语料做分词，得到词语序列wordlist

【技术特征摘要】
1.一种大型语料库的高效智能客服方法，其特征在于，包括以下步骤：步骤1、对语料库corpus当前层级的每一个语料做分词，得到词语序列wordlistcorpus，其中，语料库corpus＝[document1，document2，...，documentlen(corpus)]是一个包含所有语料的列表；语料库corpus中的第i个语料表示为documenti，i＝1，2，...，len(corpus)，len(corpus)表示语料库corpus的长度；第i个语料documenti的词语序列定义为表示第i个语料documenti的第i个分词，len(document)表示第i个语料documenti的长度；步骤2、对词语序列wordlistcorpus中的每个语料的词语序列匹配词向量，得到所有语料的词向量序列veclistcorpus，第i个语料documenti的词向量序列表示为为与第i个语料documenti的第j个分词的词向量，j＝1，2，...，len(documenti)；步骤3、计算词向量序列veclistcorpus中每个语料的词向量序列所对应的句向量，从而得到所有语料的句向量序列veccorpus，第i个语料documenti的句向量表示为则有mean表示计算均值；步骤4、若语料库corpus当前层级的语料数量大于预先设定的阈值thresholdcluster，则进入步骤5，否则进入步骤6；步骤5、对语料库corpus的句向量序列veccorpus做聚类，将相似的语料归为一类，得到多个聚类中心和每个聚类的语料子集和每个聚类的关键词表，其中第i个聚类中心表示为clusteri，聚类中心clusteri的语料子集表示为corpusi，聚类中心clusteri的关键词表表示为keywordsi；步骤6、判断语料库corpus是否存在下一层级，若存在，则返回步骤1，若不存在，...

【专利技术属性】
技术研发人员：任君翔，李光亚，陈诚，
申请(专利权)人：万达信息股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人