客户咨询文本的情感识别方法及装置制造方法及图纸

技术编号:8713062 阅读:144 留言:0更新日期:2013-05-17 17:21
本发明专利技术提供一种客户咨询文本的情感识别方法及装置,属于数据业务技术领域。其中,该客户咨询文本的情感识别方法,包括:选取客户咨询文本训练集的特征组成特征集,所述客户咨询文本训练集包括已标记情感类别的已标记文本;将所述已标记文本转化成以所述特征集中的特征表示的特征向量,得到一训练数据集,对所述训练数据集进行训练生成支持向量机SVM分类器;将待分析的客户咨询文本输入所述SVM分类器,经所述SVM分类器分析得到所述待分析的客户咨询文本所表示的情感类别。本发明专利技术的技术方案能够提高情感分类的准确性。

【技术实现步骤摘要】
客户咨询文本的情感识别方法及装置
本专利技术涉及数据业务
,特别是指一种客户咨询文本的情感识别方法及装置。
技术介绍
随着网络的兴起,越来越多的商家关心各自产品在各种评论网、论坛上的评论、对比分析,因为对产品的评论是其他潜在购买者选择产品的重要参考标准,如何从评论文本中抽取评论意见已经成为急需解决的一个问题,现有技术中主要通过情感分类器来对评论文本进行意见挖掘,它是一种文本分类方法,其任务是挖掘文本中评论人对评论对象所持有的意见(支持/反对/中立),判断出评论人对产品的评价是否包含负面情感。现有的情感分类器主要研究显式的情感,显式的情感主要分为两种表达方式:直接评论(DirectOpinions):直接评论一种产品,例如:“这款手机很好用,音质很不错!”;和对比评论(ComparativeOpinions):对比多种产品进行评论,例如:“A型手机比B型手机的音质好很多”。但是很多评论文本并不是直接反映出用户对产品的意见,对产品的意见是隐含在评论文本中的,例如电信运营商的用户咨询“怎么今天就扣我话费啊?”表明用户对运营商所提供的扣费业务有质疑。但是现有技术中与隐式情感相关的研究很少,这样就无法准确判断出评论文本所表示的情感类别,导致情感分类的准确率比较低。
技术实现思路
本专利技术要解决的技术问题是提供一种客户咨询文本的情感识别方法及装置,能够提高情感分类的准确率。为解决上述技术问题,本专利技术的实施例提供技术方案如下:一方面,提供一种客户咨询文本的情感识别方法,包括:选取客户咨询文本训练集的特征组成特征集,所述客户咨询文本训练集包括已标记情感类别的已标记文本;将所述已标记文本转化成以所述特征集中的特征表示的特征向量,得到一训练数据集,对所述训练数据集进行训练生成支持向量机SVM分类器;将待分析的客户咨询文本输入所述SVM分类器,经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别。进一步地,所述对所述训练数据集进行训练生成支持向量机SVM分类器包括:运行libsvm文本分类器,将线性核函数和软化间隔参数设置为1,对所述训练数据集进行训练得到SVM分类器。进一步地,所述选取客户咨询文本训练集的特征组成特征集包括:对所述已标记文本进行频繁子串挖掘,将得到的频繁子串作为第一候选特征集;对所述客户咨询文本训练集计算频繁子序列和频繁子串,保留极大的频繁子串特征和极大的频繁子序列作为第二候选特征集;计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益,选取其中信息增益大于预设阈值的特征组成所述特征集。进一步地,所述对所述客户咨询文本训练集计算频繁子序列和频繁子串,保留极大的频繁子串特征、极大的频繁子序列作为第二候选特征集包括:对所述客户咨询文本训练集采用前向最大匹配分词算法进行分词,然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串,保留极大的频繁子串特征和极大的频繁子序列,作为第二候选特征集。进一步地,所述计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益,选取其中信息增益大于预设阈值的特征组成所述特征集包括:用下列公式计算特征f的信息增益:其中,客户咨询文本训练集D涉及m种业务类别c1,...,cm,P(ci)表示未给定特征f时类别ci出现的概率,P(ci|f)表示给定特征f时类别ci出现的概率。本专利技术实施例还提供了一种客户咨询文本的情感识别装置,包括:特征选取模块,用于选取客户咨询文本训练集的特征组成特征集,所述客户咨询文本训练集包括已标记情感类别的已标记文本;分类器生成模块,用于将所述已标记文本转化成以所述特征集中的特征表示的特征向量,得到一训练数据集,对所述训练数据集进行训练生成支持向量机SVM分类器;处理模块,用于将待分析的客户咨询文本输入所述SVM分类器,经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别。进一步地,所述分类器生成模块具体用于运行libsvm文本分类器,将线性核函数和软化间隔参数设置为1,对所述训练数据集进行训练得到SVM分类器。进一步地,所述特征选取模块包括:第一处理子模块,用于对所述已标记文本进行频繁子串挖掘,将得到的频繁子串作为第一候选特征集;第二处理子模块,用于对所述客户咨询文本训练集计算频繁子序列和频繁子串,保留极大的频繁子串特征和极大的频繁子序列作为第二候选特征集;计算子模块,用于计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益,选取其中信息增益大于预设阈值的特征组成所述特征集。进一步地,所述第二处理子模块具体用于对所述客户咨询文本训练集采用前向最大匹配分词算法进行分词,然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串,保留极大的频繁子串特征和极大的频繁子序列,作为第二候选特征集。进一步地,所述计算子模块具体用于用下列公式计算特征f的信息增益:其中,客户咨询文本训练集D涉及m种业务类别c1,...,cm,P(ci)表示未给定特征f时类别ci出现的概率,P(ci|f)表示给定特征f时类别ci出现的概率本专利技术的实施例具有以下有益效果:上述方案中,首先选取客户咨询文本训练集的特征组成特征集,将已标记情感类别的已标记文本转化成特征向量,得到一训练数据集,对该训练数据集进行训练生成能够进行情感识别的SVM分类器,之后将待分析的客户咨询文本输入该SVM分类器就可以得到待分析的客户咨询文本所表示的情感类别。现有技术中客户咨询在隐式地表达情感时所使用的文字本身不具有情感倾向,但是将客户咨询中的多个表达式关联起来后,则能够表现出一定的情感倾向。本专利技术能够通过特征挖掘发掘出客户咨询所表达的隐式情感,从而提高情感分类的效率和准确性。附图说明图1为本专利技术实施例的客户咨询文本的情感识别方法的流程示意图;图2为本专利技术实施例的客户咨询文本的情感识别装置的结构框图;图3为本专利技术实施例的客户咨询文本的情感识别方法的另一流程示意图。具体实施方式为使本专利技术的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术的实施例针对现有技术中情感分类的效率和准确率比较低的问题,提供一种客户咨询文本的情感识别方法及装置,能够提高情感分类的准确率。图1为本专利技术实施例的客户咨询文本的情感识别方法的流程示意图,如图1所示,本实施例包括:步骤101:选取客户咨询文本训练集的特征组成特征集,客户咨询文本训215括已标记情感类别的已标记文本;步骤102:将已标记文本转化成以特征集中的特征表示的特征向量,得到一训练数据集,对训练数据集进行训练生成SVM(supportvectormachine,支持向量机)分类器;步103:将待分析的客户咨询文本输入SVM分类器,经SVM分类器输出得到待分析的客户咨询文本所表示的情感类别。本专利技术的客户咨询文本的情感识别方法,首先选取客户咨询文本训练集的特征组成特征集,将已标记情感类别的已标记文本转化成特征向量,得到一训练数据集,对该训练数据集进行训练生成能够进行情感识别的SVM分类器,之后将待分析的客户咨询文本输入该SVM分类器就可以得到待分析的客户咨询文本所表示的情感类别。现有技术中客户咨询在隐式地表达情感时所使用的文字本身不具有情感倾向,但是将客户咨询中的多个表达式关联起来后,本文档来自技高网...
客户咨询文本的情感识别方法及装置

【技术保护点】
一种客户咨询文本的情感识别方法,其特征在于,包括:选取客户咨询文本训练集的特征组成特征集,所述客户咨询文本训练集包括已标记情感类别的已标记文本;将所述已标记文本转化成以所述特征集中的特征表示的特征向量,得到一训练数据集,对所述训练数据集进行训练生成支持向量机SVM分类器;将待分析的客户咨询文本输入所述SVM分类器,经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别。

【技术特征摘要】
1.一种客户咨询文本的情感识别方法,其特征在于,包括:选取客户咨询文本训练集的特征组成特征集,所述客户咨询文本训练集包括已标记情感类别的已标记文本;将所述已标记文本转化成以所述特征集中的特征表示的特征向量,得到一训练数据集,对所述训练数据集进行训练生成支持向量机SVM分类器;将待分析的客户咨询文本输入所述SVM分类器,经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别;所述对所述训练数据集进行训练生成支持向量机SVM分类器包括:运行libsvm文本分类器,将线性核函数和软化间隔参数设置为1,对所述训练数据集进行训练得到SVM分类器;所述选取客户咨询文本训练集的特征组成特征集包括:对所述已标记文本进行频繁子串挖掘,将得到的频繁子串作为第一候选特征集;对所述客户咨询文本训练集计算频繁子序列和频繁子串,保留极大的频繁子串特征和极大的频繁子序列作为第二候选特征集;计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益,选取其中信息增益大于预设阈值的特征组成所述特征集。2.根据权利要求1所述的客户咨询文本的情感识别方法,其特征在于,所述对所述客户咨询文本训练集计算频繁子序列和频繁子串,保留极大的频繁子串特征、极大的频繁子序列作为第二候选特征集包括:对所述客户咨询文本训练集采用前向最大匹配分词算法进行分词,然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串,保留极大的频繁子串特征和极大的频繁子序列,作为第二候选特征集。3.根据权利要求1所述的客户咨询文本的情感识别方法,其特征在于,所述计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益,选取其中信息增益大于预设阈值的特征组成所述特征集包括:用下列公式计算特征f的信息增益:其中,客户咨询文本训练集D涉及m种业务类别c1,...,cm,P(ci)表示未给定特征f...

【专利技术属性】
技术研发人员:孙炼蔡希罗伟民陈其铭曹存根
申请(专利权)人:中国移动通信集团广东有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1