一种基于强化学习的流式文本数据的事件聚类方法技术

技术编号：25042055 阅读：49 留言：0更新日期：2020-07-29 05:32

本发明专利技术提供一种基于强化学习的流式文本数据的事件聚类方法，包括：S1、通过流式处理获取文本数据的特征表示；S2、获取全部候选事件构成当前事件库，并对每个候选事件进行特征提取和表示；S3、通过基于强化学习的事件聚类训练方法，得到聚类策略；S4、判断当前处理的文本数据的事件归属，更新当前事件库。本发明专利技术能及时高效的对海量的不断增长的流式文本数据进行聚类处理，通过引入已有的标注数据的先验知识，进行基于强化学习的事件聚类训练，使得事件聚类的结果更加及时和准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的流式文本数据的事件聚类方法
本专利技术涉及一种事件聚类方法，具体是指一种基于强化学习的流式文本数据的事件聚类方法，属于数据挖掘领域。
技术介绍
在互联网世界的各个角落，每天都有很多事件发生，其中不乏一些热点事件会引发社会舆论的广泛讨论。围绕着这些事件，互联网上每天都在产生着海量的资讯，除传统新闻网站的报道之外，还有自媒体和社交媒体的参与，这使得互联网资讯呈现广泛性和多样性的特点，如何将这些混乱的资讯整理成一个个有序的事件以获得有用信息是一个有意义的研究。流式数据是一组顺序、大量、快速、连续到达的数据序列，可被视为一个随时间延续而无限增长的动态数据集合。对于互联网上不断产生的流式数据，传统的基于划分或基于密度的聚类方法无法直接使用，因为这些方法需要确定的数据甚至确定的输出聚类数，这与流式数据的潜在无限性不符，而且这些方法还需要进行反复的迭代计算，计算成本较高，很难保证结果的实时性。现有技术中，针对流式文本数据的事件聚类方法的核心在于文本表示和相似度计算，基本可分为无监督的方法和有监督的方法。其中，所述的无监督的方法基本上是用某些自然语言处理的工具对文本进行处理，提取文本特征，进行文本表示，并且定义一种相似度计算方法，找到一个合适的阈值，通过这些人工定义的规则进行聚类。这种方法的主要问题在于没有从数据中进行学习，人工定义的规则难以适应复杂多变的数据。而所述的有监督的方法主要包括两种，一种是将问题转化为判断文本对是否属于同一事件的分类问题，可通过使用机器学习或者深度学习的方...

【技术保护点】
1.一种基于强化学习的流式文本数据的事件聚类方法，其特征在于，包含以下步骤：/nS1、通过流式处理获取文本数据的特征表示；/nS2、获取全部候选事件构成当前事件库，并对每个候选事件进行特征提取和表示；/nS3、通过基于强化学习的事件聚类训练方法，得到聚类策略；/nS4、判断当前处理的文本数据的事件归属，更新当前事件库。/n

【技术特征摘要】
1.一种基于强化学习的流式文本数据的事件聚类方法，其特征在于，包含以下步骤：
S1、通过流式处理获取文本数据的特征表示；
S2、获取全部候选事件构成当前事件库，并对每个候选事件进行特征提取和表示；
S3、通过基于强化学习的事件聚类训练方法，得到聚类策略；
S4、判断当前处理的文本数据的事件归属，更新当前事件库。

2.根据权利要求1所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S1中，具体包含以下步骤：
S11、对输入的文本数据进行流式处理，其中每条文本数据的发布时间作为时间标签；
S12、使用自然语言处理工具提取文本数据中的命名实体或关键词，或直接提取文本数据中的标签，通过采用词嵌入模型，获取每个文本数据的特征表示。

3.根据权利要求2所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S2中，具体包含以下步骤：
S21、通过时间窗口方法，获取全部候选事件构成当前事件库；其中，所述的候选事件是指，按照距离当前时间由近至远的顺序，发布时间在最接近当前时间的某个时间窗口内的文本数据的集合；
S22、根据每个文本数据的时间标签和特征表示，对每个候选事件进行表示，通过采用时间衰减模型，突出其中发布时间更接近当前时间的文本数据的特征，分析并捕捉该候选事件随时间的特征变化。

4.根据权利要求3所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S22中，时间衰减模型具体为：对于每个候选事件，将其中发布时间越接近当前时间的文本数据，赋予越高的权重值，分析并提取该候选事件最新的特征。

【专利技术属性】
技术研发人员：邱兴发，邹乔莎，史传进，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人