主题分类器的训练方法、装置及计算机可读存储介质制造方法及图纸

技术编号:17304484 阅读:39 留言:0更新日期:2018-02-18 22:33
本发明专利技术公开了一种主题分类器的训练方法,该方法包括:获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。本发明专利技术还公开了一种主题分类器的训练装置及计算机可读存储介质,可提高主题分类效率和准确率。

Training method, device and computer readable storage medium for topic classifier

The invention discloses a topic classifier training method, the method includes: obtaining the training samples and test samples, among them, the training samples are trained according to the text data corresponding to the topic model after the use of manual annotation; feature are extracted from training samples and testing samples according to the characteristics of the preset algorithm. The training samples, calculated by the iterative algorithm for optimal model parameter logistic regression model, training with the optimal model parameters of logistic regression model; according to the characteristics of the test sample and the optimal parameters of the logistic regression model receiveroperating characteristic ROC curve, and according to the area under the ROC curve of AUC the optimal parameters of the logistic regression model to evaluate the trained classifier first theme. The invention also discloses a training device for a topic classifier and a computer readable storage medium, which can improve the efficiency and accuracy of the subject classification.

【技术实现步骤摘要】
主题分类器的训练方法、装置及计算机可读存储介质
本专利技术涉及信息处理领域,尤其涉及一种主题分类器的训练方法、装置及计算机可读存储介质。
技术介绍
近年来,随着互联网的飞速发展,信息资源正呈指数级增长。丰富的互联网信息资源给人们的生活带来了极大的便利,人们只需一台连接互联网的电脑,便可获得影音媒体、新闻报道、技术文献等各种类型的信息资源。然而在这个大数据时代,现有分类技术的分类效率和准确率较低,导致用户面对海量的信息资源时,难以准确快捷地获取自身所需的相关主题信息,因此,如何提高主题分类效率和准确率,是本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种主题分类器的训练方法、装置及计算机可读存储介质,旨在提高主题分类效率和准确率,从而使用户有效地从海量信息中获取相关的主题信息。为实现上述目的,本专利技术提供一种主题分类器的训练方法,所述主题分类器的训练方法包括以下步骤:获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑本文档来自技高网...
主题分类器的训练方法、装置及计算机可读存储介质

【技术保护点】
一种主题分类器的训练方法,其特征在于,所述主题分类器的训练方法包括以下步骤:获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。

【技术特征摘要】
1.一种主题分类器的训练方法,其特征在于,所述主题分类器的训练方法包括以下步骤:获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。2.如权利要求1所述的主题分类器的训练方法,其特征在于,所述获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的,包括:采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;根据所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将所述文本数据中除所述训练样本之外的文本数据作为测试样本。3.如权利要求2所述的主题分类器的训练方法,其特征在于,所述利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型,包括:利用预设算法分别提取训练样本和测试样本的特征,对应建立第一哈希散列表和第二哈希散列表;将所述第一哈希散列表代入逻辑回归模型,并通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。4.如权利要求3所述的主题分类器的训练方法,其特征在于,所述根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器,包括:将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性TP,真阴性TN,伪阴性FN和伪阳性FP;根据所述TP,TN,FN和FP绘制ROC曲线;计算ROC曲线下面积AUC,根据AUC值对所述含最优模型参数的逻辑回归模型进行评价;当所述AUC值小于或等于预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数...

【专利技术属性】
技术研发人员:王健宗吴天博黄章成肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1