舆情新闻分类模型构建方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20916752 阅读:13 留言:0更新日期:2019-04-20 09:44
本申请涉及大数据技术领域,提供了一种舆情新闻分类模型构建方法、装置、计算机设备和存储介质。所述方法包括:获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。采用本方法能够实现对用户所需的舆情新闻的准确推送。

The Construction Method, Device, Computer Equipment and Storage Media of Public Opinion News Classification Model

The application relates to the field of big data technology, and provides a method, device, computer equipment and storage medium for constructing a classification model of public opinion news. The method includes: acquiring the set of public opinion news samples corresponding to user's needs, acquiring the set of stop words, selecting the set of public opinion news samples according to the set of stop words, extracting the target feature words of the selected set of public opinion news samples, establishing the classification model according to the set of target feature words, classifying the test public opinion news text according to the classification model, and determining the needs of users. Find the corresponding public opinion news text to be tested, push the feedback prompt, carry the test public opinion news text corresponding to the user's needs, receive the feedback information corresponding to the feedback prompt, the feedback information is used to confirm the user's satisfaction with the test public opinion news text to be pushed, determine the push result according to the feedback information, and update the classification model according to the push result. This method can realize the accurate push of public opinion news for users.

【技术实现步骤摘要】
舆情新闻分类模型构建方法、装置、计算机设备和存储介质
本申请涉及数据处理
,特别是涉及一种舆情新闻分类模型构建方法、装置、计算机设备和存储介质。
技术介绍
随着互联网的迅速发展,整个舆情新闻行业飞速发展。舆情新闻是对舆情的一种描述和反映。在对舆情新闻进行处理时,通常需要对舆情新闻进行分类,根据用户需求,推送用户所需的舆情新闻至用户。传统的舆情新闻分类的方法为利用半监督学习的方法,通过标注样本集生成分类策略,将分类策略应用到未分类的样本中,并选取误差小的子集加入当标注样本中。然而,随着训练不断进行,自动标记的示例中噪音会不断累积,导致分类模型的准确率降低,容易出现将舆情新闻文本分类错误的情况,进而导致不能准确推送用户所需的舆情新闻。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高舆情新闻分类准确率的舆情新闻分类模型构建方法、装置、计算机设备和存储介质。一种舆情新闻分类模型构建方法,所述方法包括:获取与用户需求对应的舆情新闻样本集合;获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。在其中一个实施例中,获取与用户需求对应的舆情新闻样本集合包括:获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别;根据舆情新闻类别设置筛选关键字;根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。在其中一个实施例中,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词包括:根据中文停用词表获取停用词集合;根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词;将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数;根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词;根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合;根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。在其中一个实施例中,根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合包括:确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值;筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语;按照各词语的卡方值对筛选出的词语进行排序;获取顺序在预设的序号阈值范围内的词语作为目标特征词;根据目标特征词确定目标特征词集合。在其中一个实施例中,根据目标特征词集合建立分类模型包括:确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值,根据各目标特征词的卡方值对各目标特征词进行排序;根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数;根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。在其中一个实施例中,根据反馈信息确定推送结果,根据推送结果更新分类模型包括:根据反馈信息确认推送结果;当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合;根据正确推送的待测试舆情新闻文本,提取新的目标特征词;确定新的目标特征词与预设的舆情新闻类别值的卡方值;根据新的目标特征词的卡方值,确定新的目标特征词的权重系数;根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。一种舆情新闻分类模型构建装置,所述装置包括:获取模块,用于获取与用户需求对应的舆情新闻样本集合;筛选模块,用于获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;分类模块,用于根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;推送模块,用于推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;更新模块,用于接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。在其中一个实施例中,获取模块还用于获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别,根据舆情新闻类别设置筛选关键字,根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取与用户需求对应的舆情新闻样本集合;获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取与用户需求对应的舆情新闻样本集合;获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。上述舆情新闻分类模型构建方法、装置、计算机设备和存储介质,获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。通过用户的反馈信息实现了对分类模型的更新,提高了分类模型的准确率,进而实现对用户所需的舆情新闻的准确推送。附图说明图1为一个实施例中舆情新闻分类模型构建方法的应用场景图;图2为一个实施例中舆情新闻分类模型构建方法的流程示意图;图3为一个实施例中图2中的步骤S202的子流程示意图;图4为一个实施例中图2中的步骤S204的子流程示意图;图5为一本文档来自技高网...

【技术保护点】
1.一种舆情新闻分类模型构建方法,所述方法包括:获取与用户需求对应的舆情新闻样本集合;获取停用词集合,根据所述停用词集合筛选所述舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;根据所述目标特征词集合建立分类模型,根据所述分类模型对待测试舆情新闻文本进行分类,确定与所述用户需求对应的待测试舆情新闻文本;推送反馈提示,所述反馈提示携带所述待测试舆情新闻文本;接收与所述反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据所述反馈信息确定推送结果,根据所述推送结果更新所述分类模型。

【技术特征摘要】
1.一种舆情新闻分类模型构建方法,所述方法包括:获取与用户需求对应的舆情新闻样本集合;获取停用词集合,根据所述停用词集合筛选所述舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;根据所述目标特征词集合建立分类模型,根据所述分类模型对待测试舆情新闻文本进行分类,确定与所述用户需求对应的待测试舆情新闻文本;推送反馈提示,所述反馈提示携带所述待测试舆情新闻文本;接收与所述反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据所述反馈信息确定推送结果,根据所述推送结果更新所述分类模型。2.根据权利要求1所述的方法,其特征在于,所述获取与用户需求对应的舆情新闻样本集合包括:获取历史舆情新闻文本以及用户需求,根据所述用户需求确定用户所需的舆情新闻类别;根据所述舆情新闻类别设置筛选关键字;根据所述筛选关键字遍历所述历史舆情新闻文本,获取与所述用户需求对应的舆情新闻样本集合。3.根据权利要求1所述的方法,其特征在于,所述获取停用词集合,根据所述停用词集合筛选所述舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词包括:根据中文停用词表获取停用词集合;根据所述停用词集合中的各停用词遍历所述舆情新闻样本集合,筛选掉所述舆情新闻样本集合中对应的停用词;将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各所述舆情新闻样本中出现的次数;根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词;根据各词语在各所述舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合;根据预设的目标特征筛选所述出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。4.根据权利要求3所述的方法,其特征在于,所述根据预设的目标特征筛选所述出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合包括:确定所述出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值;筛选出与所述舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语;按照各词语的卡方值对筛选出的词语进行排序;获取顺序在预设的序号阈值范围内的词语作为目标特征词;根据所述目标特征词确定目标特征词...

【专利技术属性】
技术研发人员:张依汪伟肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1