确定最佳主题数量的方法、情感分类器的训练方法和装置制造方法及图纸

技术编号：24010728 阅读：31 留言：0更新日期：2020-05-02 01:39

本发明专利技术实施例公开了一种确定最佳主题数量的方法、情感分类器的训练方法和装置，确定最佳主题数量的方法通过多轮迭代来选取最佳主题数量，每一轮迭代基于该轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型在该轮迭代中的及格分数，并仅将该轮迭代中分数大于对应的及格分数的主题模型对应的主题数量进行下一轮迭代，由于每一轮迭代过程中，不同主题数量对应的及格分数描绘了随主题数量增长的分数值的增长曲线，分数位于增长曲线以下说明该主题模型劣于该轮迭代的最小主题数量对应的主题模型，分数位于增长曲线以上说明该主题模型优于该轮迭代的最小主题数量对应的主题模型，从而提高了最终确定的最佳主题数量的准确度。

Methods to determine the optimal number of topics, training methods and devices of emotion classifier

全部详细技术资料下载

【技术实现步骤摘要】
确定最佳主题数量的方法、情感分类器的训练方法和装置
本专利技术实施例涉及但不限于计算机领域，尤指一种确定最佳主题数量的方法、情感分类器的训练方法和装置。
技术介绍
目前对于网络信息的舆情监控，在各个行业都有越来越重要的作用，以汽车行业的头部垂直媒体为例，各车系、车型都会伴有大量的评价信息，这些评价信息有些体现出了消费者的肯定意见，有些则是否定意见。从垂直媒体自身，乃至车辆生产厂商，如果能够对这些评价进行情感分类，并周期性查看各类评价的分布情况，便可以有针对性的产品设计、售前售后服务等方面做出调整。目前的文本的情感分类方法大致包括：将文本的主题特征、正面词语数量、负面词语数量、否定词数量、转折词数量和句式情况(包括句子数和字数)作为特征，使用基于分类回归树(CART，ClassificationandRegressionTrees)的扩展算法进行情感分类的训练和预测。目前的文本的情感分类方法中，由于文本的主题特征是指文本所属的虚拟主题的概率关系，因此，主题特征的准确度取决于虚拟主题的构建，主要取决于主题数量的确...

【技术保护点】
1.一种确定最佳主题数量的方法，包括：/n根据所有第一文本分别建立每一个主题数量对应的主题模型，分别计算建立的每一个主题模型的分数；/n在第i轮迭代中，根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数；当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时，确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量；当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时，确定第i轮迭代中的最小主题数量为最佳主题数量；其中，i为大于或等于1的整数。/n

【技术特征摘要】
1.一种确定最佳主题数量的方法，包括：
根据所有第一文本分别建立每一个主题数量对应的主题模型，分别计算建立的每一个主题模型的分数；
在第i轮迭代中，根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数；当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时，确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量；当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时，确定第i轮迭代中的最小主题数量为最佳主题数量；其中，i为大于或等于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述根据所有第一文本分别建立每一个主题数量对应的主题模型包括：
分别对每一条所述第一文本进行分词；
根据所有所述第一文本中分词得到的词语分别建立每一个所述主题模型。

3.根据权利要求2所述的方法，其特征在于，所述第一文本为汽车评论文本；所述分别对每一条第一文本进行分词之前，该方法还包括：
分别去除每一条所述第一文本中满足过滤规则的部分；其中，所述过滤规则用于过滤与车辆描述、车辆评价和情感表达无关的信息；
所述分别对每一条第一文本进行分词包括：
分别对每一条去除满足过滤规则的部分后的第一文本进行分词。

4.根据权利要求3所述的方法，其特征在于，其中，所述分别对每一条去除满足过滤规则的部分后的第一文本进行分词包括：
采用加入车辆类专属词典的分词工具分别对每一条所述去除满足过滤规则的部分后的第一文本进行分词；其中，所述车辆类专属词典包括汽车领域的专有名词。

5.根据权利要求3所述的方法，其特征在于，所述分别对每一条去除满足过滤规则的部分后的第一文本进行分词后，在所述根据所有第一文本中分词得到的词语分别建立每一个主题模型之前，该方法还包括：
去除分词得到的词语中的停用词和黑名单字典中的词语；其中，所述黑名单字典包括地名、人物称呼、中文常用人名；
所述根据所有第一文本中分词得到的词语分别建立每一个主题数量对应的主题模型包括：
根据所有所述第一文本中去除停用词和黑名单字典中的词语后的词语分别建立每一个主题数量对应的主题模型。

6.根据权利要求1～5任一项所述的方法，其特征在于，其中，所述分别计算建立的每一个主题模型的分数包括：
按照公式计算第m个主题模型的分数；
其中，Bm为第m个主题模型的分数，cosθj,k为第l个主题中第j个词向量和第k个词向量之间的余弦值，n为每个主题模型下每个主题中在所有第一文本中出现的概率最高的词语数量，第j个词向量表示为第j个词语与第l个主题的n个词语中每一个词语之间的逐点交互信息PMI值的归一化值，第k个词向量表示为第k个词语与第l个主题的n个词语中每一个词语之间的PMI值的归一化值，Lm为第l个主题的主题数量；
其中，两个词语之间的PMI值为：score(vx,vy,ε)为词语vx和词语vy之间的PMI值，p(vx,vy)为词...

【专利技术属性】
技术研发人员：栾星，袁灿，于政，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人