客户咨询文本的情感识别方法及装置制造方法及图纸

技术编号：8713062 阅读：166 留言：0更新日期：2013-05-17 17:21

本发明专利技术提供一种客户咨询文本的情感识别方法及装置，属于数据业务技术领域。其中，该客户咨询文本的情感识别方法，包括：选取客户咨询文本训练集的特征组成特征集，所述客户咨询文本训练集包括已标记情感类别的已标记文本；将所述已标记文本转化成以所述特征集中的特征表示的特征向量，得到一训练数据集，对所述训练数据集进行训练生成支持向量机SVM分类器；将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器分析得到所述待分析的客户咨询文本所表示的情感类别。本发明专利技术的技术方案能够提高情感分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
客户咨询文本的情感识别方法及装置
本专利技术涉及数据业务
，特别是指一种客户咨询文本的情感识别方法及装置。
技术介绍
随着网络的兴起，越来越多的商家关心各自产品在各种评论网、论坛上的评论、对比分析，因为对产品的评论是其他潜在购买者选择产品的重要参考标准，如何从评论文本中抽取评论意见已经成为急需解决的一个问题，现有技术中主要通过情感分类器来对评论文本进行意见挖掘，它是一种文本分类方法，其任务是挖掘文本中评论人对评论对象所持有的意见(支持/反对/中立)，判断出评论人对产品的评价是否包含负面情感。现有的情感分类器主要研究显式的情感，显式的情感主要分为两种表达方式：直接评论(DirectOpinions)：直接评论一种产品，例如：“这款手机很好用，音质很不错！”；和对比评论(ComparativeOpinions)：对比多种产品进行评论，例如：“A型手机比B型手机的音质好很多”。但是很多评论文本并不是直接反映出用户对产品的意见，对产品的意见是隐含在评论文本中的，例如电信运营商的用户咨询“怎么今天就扣我话费啊？”表明用户对运营商所提供的扣费业务有质疑。但是现有技术中与...
客户咨询文本的情感识别方法及装置

【技术保护点】
一种客户咨询文本的情感识别方法，其特征在于，包括：选取客户咨询文本训练集的特征组成特征集，所述客户咨询文本训练集包括已标记情感类别的已标记文本；将所述已标记文本转化成以所述特征集中的特征表示的特征向量，得到一训练数据集，对所述训练数据集进行训练生成支持向量机SVM分类器；将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别。

【技术特征摘要】
1.一种客户咨询文本的情感识别方法，其特征在于，包括：选取客户咨询文本训练集的特征组成特征集，所述客户咨询文本训练集包括已标记情感类别的已标记文本；将所述已标记文本转化成以所述特征集中的特征表示的特征向量，得到一训练数据集，对所述训练数据集进行训练生成支持向量机SVM分类器；将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别；所述对所述训练数据集进行训练生成支持向量机SVM分类器包括：运行libsvm文本分类器，将线性核函数和软化间隔参数设置为1，对所述训练数据集进行训练得到SVM分类器；所述选取客户咨询文本训练集的特征组成特征集包括：对所述已标记文本进行频繁子串挖掘，将得到的频繁子串作为第一候选特征集；对所述客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列作为第二候选特征集；计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成所述特征集。2.根据权利要求1所述的客户咨询文本的情感识别方法，其特征在于，所述对所述客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征、极大的频繁子序列作为第二候选特征集包括：对所述客户咨询文本训练集采用前向最大匹配分词算法进行分词，然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列，作为第二候选特征集。3.根据权利要求1所述的客户咨询文本的情感识别方法，其特征在于，所述计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成所述特征集包括：用下列公式计算特征f的信息增益：其中，客户咨询文本训练集D涉及m种业务类别c1,...,cm，P(ci)表示未给定特征f...

【专利技术属性】
技术研发人员：孙炼，蔡希，罗伟民，陈其铭，曹存根，
申请(专利权)人：中国移动通信集团广东有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人