投诉文本的分类模型、构建方法、系统、分类方法和系统技术方案

技术编号：20425341 阅读：24 留言：0更新日期：2019-02-23 08:33

本发明专利技术实施方式提供一种投诉文本的分类模型、构建方法、系统、分类方法和系统，属于文本分类技术领域。所述分类模型包括：预处理模块，用于读取所述投诉文本，并对所述投诉文本进行预处理；BTM模块，用于对所述投诉文本进行处理以生成主题向量；Doc2vec模块，用于对所述投诉文本进行处理以生成词向量；将所述主题向量和所述词向量进行拼接以生成特征向量；ER分类器，用于根据所述特征向量对所述投诉文本进行分类以生成分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
投诉文本的分类模型、构建方法、系统、分类方法和系统
本专利技术涉及文本分类
，具体地涉及一种投诉文本的分类模型、构建方法、系统、分类方法和系统。
技术介绍
目前移动通信运营商进行投诉处理的方法主要是以客户为导向构建投诉管理体系、优化投诉处理流程、增加客服的服务渠道或者采用在线客服等。技术支撑部门接到投诉工单后，由经验丰富的技术专家进行诊断，分析引起投诉的原因，给出相应的处理意见，并交由相关的网络建设或维护部门进行处理，同时将处理意见以工单回复的形式反馈给客服中心。因此，在移动通信质量投诉问题的分析和诊断方面，还主要依赖于技术专家的经验和知识，采用人工处理方式。为改善这一情况，电信企业应在处理投诉问题前对投诉内容进行预分类，判断投诉问题是否由服务原因所致，若是服务问题，应及时改进，若是用户自身原因导致的，则应及时提醒用户，方便其发现问题的真实原因所在。不过问题的归类却对投诉受理人员提出了很高的要求，由于很多受理人员并没有亲身实践过问题的处理过程，仅凭用户的表达很难确定问题的类别，而一旦做出了错误归类，这将会增加问题处理人员的负担。近年来，人工智能方法在处理客户投诉方面有一些应用，少量文献提出采用文本挖掘和人工智能算法建立投诉识别系统，对投诉热点进行智能分类，从而保证在短时间内将投诉热点分类到正确的投诉导航上去。现有的短文本分类方法主要是利用外部语料库或附加信息丰富文本内容来处理稀疏问题。对于投诉短文本，很难通过外部语料对文本进行扩展，而客户投诉文本长度短，数量大，则对文本表示的维度提出了要求。在以往的研究中，文本特征提取通常使用TF-IDF(TermF...

【技术保护点】
1.一种投诉文本的分类模型，其特征在于，所述分类模型包括：预处理模块，用于读取所述投诉文本，并对所述投诉文本进行预处理；BTM模块，用于对所述投诉文本进行处理以生成主题向量；Doc2vec模块，用于对所述投诉文本进行处理以生成词向量；将所述主题向量和所述词向量进行拼接以生成特征向量；ER分类器，用于：根据所述特征向量对所述投诉文本进行分类以生成分类结果。

【技术特征摘要】
1.一种投诉文本的分类模型，其特征在于，所述分类模型包括：预处理模块，用于读取所述投诉文本，并对所述投诉文本进行预处理；BTM模块，用于对所述投诉文本进行处理以生成主题向量；Doc2vec模块，用于对所述投诉文本进行处理以生成词向量；将所述主题向量和所述词向量进行拼接以生成特征向量；ER分类器，用于：根据所述特征向量对所述投诉文本进行分类以生成分类结果。2.一种投诉文本的分类模型的构建方法，用于构建如权利要求1所述的分类模型，其特征在于，所述构建方法包括：初始化分类模型；获取投诉文本和所述投诉文本的真实分类结果；对所述投诉文本进行预处理；采用BTM模型对所述投诉文本进行处理以生成主题向量，其中所述主题向量的维度为N1维；采用Doc2vec模型对所述投诉文本进行处理以生成词向量，其中，所述词向量的维度为N2维；将所述主题向量和所述词向量进行拼接以生成维度为N的特征向量，其中，N＝N1+N2；采用贝叶斯方法获取所述投诉文本的证据；计算所述证据的权重；采用所述分类模型的ER分类器根据所述证据和所述权重对所述投诉文本进行分类以生成分类结果；将所述分类结果与所述真实分类结果进行比对以计算分类误差；判断所述分类误差的变化值是否小于预设值；在判断所述分类误差的变化值小于所述预设值的情况下，输出所述分类模型；在判断所述分类误差的变化值大于或等于所述预设值的情况下，对所述的ER分类器的参数进行优化以更新所述分类模型，再次采用所述ER分类器对所述投诉文本进行分类并执行所述构建方法直到所述分类误差的变化值小于所述预设值。3.根据权利要求2所述的分类模型的构建方法，其特征在于，所述预处理包括文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典中的至少一者。4.根据权利要求2所述的分类模型的构建方法，其特征在于，所述采用贝叶斯方法获取所述投诉文本的证据包括：对所述特征向量中的每个特征值设置参考值；将所述特征值与预设的类的对应关系转换为所述参考值与所述类的对应关系以计算所述似然度；采用贝叶斯概率统计的方法根据所述似然度获取所述特征值和所述类之间的所述证据。5.根据权利要求2所述的分类模型的构建方法，其特征在于，所述采用贝叶斯方法获取所述投诉文本的证据包括：从所述特征向量中任取一个特征值作为第i个所述特征值；根据公式(1)计算第i个所述特征值的似然度，其中，为第i个所述特征值的第j个所述参考值，θs为第S个所述类，L为每个所述特征值对应的参考值的数量，为根据第j个所述参考值与类θs的对应关系计算的似然度；根据公式(2)计算从第i个所述特征值获取的证据的概率，其中，为第i个特征值对应的第j个参考值被分类至类θs的证据的概率，θs为第S个所述类，为根据第i个所述特征值的参考值与类θs的对应关系计算的似然度；根据公式(3)获取第i个特征值对应的第j个参考值的证据，其中，ej为第i个特征值对应的第j个参考值的证据，表示证据ej以的概率支持类θS，Θ为所述类的集合，θS为第S个所述类，L为每个所述特征值对应的所述参考值的数量；遍历所述特征向量中的每个所述特...

【专利技术属性】
技术研发人员：杨颖，周海芹，王珺，陈杨楠，余本功，曹雨蒙，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人