基于融合主题信息增强PU学习的事件相关新闻过滤的学习方法技术

技术编号：30778432 阅读：15 留言：0更新日期：2021-11-16 07:38

本发明专利技术涉及基于融合主题信息增强PU学习的事件相关新闻过滤的学习方法。本发明专利技术将已标注和未标注的事件相关新闻数据集通过无监督预训练的方式进行主题信息抽取，再将抽取到的主题信息加入到PU学习的初次训练和后续的迭代训练过程中，确保在初始事件相关新闻样本较少的情况下能利用到更多的样本信息，并且在后续的迭代训练过程中都进行主题增强，使得每次迭代训练出来的分类器都能从未标注数据中获取到真正可靠的正负样本数据，来提高最终事件相关新闻分类器的性能。本发明专利技术比PU学习的基线模型，F1值提高了1.8％，且在低初始样本和高迭代的情况下领先更多。本发明专利技术利用主题信息增强PU学习的方法能有效解决与案例相关的新闻过滤任务中缺乏训练数据的问题。滤任务中缺乏训练数据的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于融合主题信息增强PU学习的事件相关新闻过滤的学习方法

[0001]本专利技术涉及基于融合主题信息增强PU学习的事件相关新闻过滤的学习方法，属于自然语言处理

技术介绍

[0002]事件相关新闻过滤任务通常可以看作是一个二分类问题，常用的方法可以分为关键词检索和机器学习方法两类。早期研究者通过领域相关的关键词集合与新闻文本进行匹配，如KMP、Sunday等算法。目前机器学习算法是一种解决事件相关新闻过滤的有效方案。研究者通过统计方法来对数据分布进行假设来推断事件相关新闻类别，如SVM、决策树等。也有研究者使用深度学习算法来进行新闻过滤，使用深度网络来对文本的隐藏特征进行提取并用于分类。由于事件相关新闻场景复杂多变，很难构建出完备的关键词集合，因此不能使用关键词检索来进行事件相关新闻过滤任务，同时因为事件相关新闻的领域性和特殊性，仅可以通过已发生的案件收集到小规模事件相关新闻数据，很难覆盖所有的案件情况和场景，有大量未标注事件相关新闻隐含在历史新闻中，这种缺乏训练数据的情况会使得基于机器学习的文本过滤方法难以取得理想的效果。因此，如何在仅有少量事件相关新闻样本的情况下达到较优的过滤性能，是专利技术关注的重点。
[0003]本专利技术主要考虑到利用主题信息增强PU学习来进行事件相关新闻分类。因此，本专利技术在Yu等人、Liu等人、Ren等人、Li等人和Xiao等人提出的PU学习方法的基础上，充分利用新闻中的主题信息，融入主题信息增强PU学习，探索事件相关新闻文本分类的方法。

技术实现思路

>[0004]本专利技术提供了基于融合主题信息增强PU学习的事件相关新闻过滤的学习方法，来充分利用新闻中隐含的主题信息，用以提高事件相关新闻过滤的准确率。同时相比其他基线方法在事件相关新闻过滤任务中取得更优的结果。
[0005]本专利技术的技术方案是：基于融合主题信息增强PU学习的事件相关新闻过滤的学习方法，所述方法的具体步骤如下：
[0006]Step1、训练分类器，同时加入无监督主题模型VAE进行增强；
[0007]Step2、将未标注数据通过训练的分类器模型进行预测，再将对未标注新闻的预测结果进行概率由高到低的排序；
[0008]Step3、初次的训练和预测过程完成后，进行PU学习的迭代，即在新得到的训练集上重新训练分类器并重复整个预测和训练过程；
[0009]Step4、将所有的样本放入分类器进行训练，得到本文所需要的事件相关新闻分类模型，进而更加准确的过滤出所需的事件相关新闻。
[0010]作为本专利技术的优选方案，所述步骤Step1的具体步骤为：
[0011]Step1.1、使用改进版的I
‑
DNF算法进行非事件相关新闻数据提取，获取到和初始
事件相关新闻相同规模的反例。
[0012]Step1.2、使用变分自编码(VAE)作主题模型，目的是为了从文档的词向量空间中抽取潜在特征，本专利技术理解为主题特征。本专利技术参考前人的工作以及VAE原理，实现了这种VAE结构并使用整个事件相关新闻数据集进行无监督预训练。来训练初始分类器。
[0013]Step1.3、使用Embedding和双向长短期记忆网络(BiLSTM)的网络结构作为分类器。
[0014]作为本专利技术的优选方案，所述步骤Step1.1的具体步骤为：
[0015]Step1.1.1、一个文本特征在正例集合中出现频率大于90％，而其在未标识集合出现的频率仅有10％，就把这样的特征当成正例的特征；
[0016]Step1.1.2、通过特征在正例集合和未标识集合中出现的频率不同，建立一个正例特征集合；
[0017]Step1.1.3、未标识集合U中的样例文档未包含任何正例特征集合中的特征的，就把它从未标识集合U中抽取出来，标识成反例。
[0018]作为本专利技术的优选方案，所述步骤Step1.2包括：
[0019]Step1.2.1、变分自编码(VAE)架构是一种编码器
‑
解码器架构。在编码器中，将输入压缩为潜在分布，而解码器根据数据潜在空间中的分布通过采样重构出输入信号；
[0020]Step1.2.2、通常情况下，VAE模型假设输入数据的潜在分布的后验概率近似满足高斯分布，然后通过解码网络重构；
[0021]Step1.2.3、本专利技术对解码网络Decode的实现使用的是全连接网络(MLP)来实现。
[0022]作为本专利技术的优选方案，所述步骤Step1.3的具体步骤为：
[0023]Step1.3.1、首先使用Embedding网络层对输入文本进行词嵌入，得到词嵌入向量。此外，将输入文本再通过VAE主题模型，得到新闻文本的主题向量，得到两种编码信息；
[0024]Step1.3.2、使用新闻主题向量来对词嵌入向量进行指导；形成的新矩阵就是融入主题向量的新闻编码向量；
[0025]Step1.3.3、融入主题信息后的新闻编码向量通过双向长短期记忆网络层(BiLSTM) 来对其上下文关系进行建模，得到新闻语义表征向量。
[0026]作为本专利技术的优选方案，所述步骤Step2的具体步骤为：
[0027]Step2.1、将数据集中剩余的未标注数据样本通过分类器和主题模型进行类别的概率预测。预测结果是新闻属于事件相关新闻的概率值。
[0028]Step2.2、再将对未标注新闻的预测结果进行概率由高到低的排序，每次预测都会按照一定的迭代步幅获取到概率靠前的数据作为可靠事件相关新闻样本和概率靠后的数据作为可靠负样本，并将这些样本从未标注样本中剔除，加入到训练数据中，用以进行后续的迭代训练过程。
[0029]作为本专利技术的优选方案，所述步骤Step3的具体步骤为：
[0030]Step3.1完成初次的训练和预测过程后，在新得到的训练集上重新训练分类器并重复整个预测和训练过程。
[0031]Step3.2、每次迭代完成后，未标注数据的数量会随之减少而训练集的数量随之增加，当未标注数据被完全预测为可靠样本后，整个迭代过程就完成了。
[0032]本专利技术的有益效果为：
[0033]本专利技术将PU学习方法应用于事件相关新闻过滤任务上，有效解决了在少量人工标注的情况下进行事件相关新闻过滤的问题。
[0034]本专利技术采用无监督预训练方式抽取事件相关新闻数据的主题信息，并用其增强 PU学习的训练过程，相比于普通PU学习提升了准确率。
[0035]构造了一个事件相关新闻数据集并使用本专利技术方法进行实验，实验结果表明本专利技术提出方法相比未使用主题增强的PU学习方法在实验中取得更优的结果。
附图说明
[0036]图1为本专利技术中的总的模型图；
[0037]图2为本专利技术中的PU学习训练过程图；
[0038]图3为本专利技术中的验证集上的实验结果图；
[0039]图4为本专利技术中的未标注数据集上的实验结果图；
[0040]图5为本专利技术中的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于融入主题信息增强PU学习的事件相关新闻过滤的学习方法，其特征在于：所述方法的具体步骤如下：Step1、训练分类器，同时加入无监督主题模型进行增强；Step2、将未标注数据通过训练的分类器模型进行预测，再将对未标注新闻的预测结果进行概率由高到低的排序；Step3、初次的训练和预测过程完成后，进行PU学习的迭代，即在新得到的训练集上重新训练分类器并重复整个预测和训练过程；Step4、将所有的样本放入分类器进行训练，得到所需要的事件相关新闻分类模型，进而更加准确的过滤出所需的事件相关新闻。2.根据权利要求1所述的基于融入主题信息增强PU学习的事件相关新闻过滤的学习方法，其特征在于：所述步骤Step1的具体步骤为：Step1.1、使用改进版的I
‑
DNF算法进行非事件相关新闻数据提取，获取到和初始事件相关新闻相同规模的反例，来训练初始分类器；Step1.2、使用Embedding和双向长短期记忆网络BiLSTM的网络结构作为分类器，并加入无监督主题模型VAE进行增强。3.根据权利要求2所述的基于融入主题信息增强PU学习的事件相关新闻过滤的学习方法，其特征在于：所述步骤Step1.1的具体步骤：Step1.1.1、一个文本特征在正例集合中出现频率大于90％，而其在未标识集合出现的频率仅有10％，就把这样的特征当成正例的特征；Step1.1.2、通过特征在正例集合和未标识集合中出现的频率不同，建立一个正例特征集合；Step1.1.3、未标识集合U中的样例文档未包含任何正例特征集合中的特征的，就把它...

【专利技术属性】
技术研发人员：余正涛，王冠文，线岩团，张玉，黄于欣，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人