当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于强化学习的流式文本数据的事件聚类方法技术

技术编号:25042055 阅读:49 留言:0更新日期:2020-07-29 05:32
本发明专利技术提供一种基于强化学习的流式文本数据的事件聚类方法,包括:S1、通过流式处理获取文本数据的特征表示;S2、获取全部候选事件构成当前事件库,并对每个候选事件进行特征提取和表示;S3、通过基于强化学习的事件聚类训练方法,得到聚类策略;S4、判断当前处理的文本数据的事件归属,更新当前事件库。本发明专利技术能及时高效的对海量的不断增长的流式文本数据进行聚类处理,通过引入已有的标注数据的先验知识,进行基于强化学习的事件聚类训练,使得事件聚类的结果更加及时和准确。

【技术实现步骤摘要】
一种基于强化学习的流式文本数据的事件聚类方法
本专利技术涉及一种事件聚类方法,具体是指一种基于强化学习的流式文本数据的事件聚类方法,属于数据挖掘领域。
技术介绍
在互联网世界的各个角落,每天都有很多事件发生,其中不乏一些热点事件会引发社会舆论的广泛讨论。围绕着这些事件,互联网上每天都在产生着海量的资讯,除传统新闻网站的报道之外,还有自媒体和社交媒体的参与,这使得互联网资讯呈现广泛性和多样性的特点,如何将这些混乱的资讯整理成一个个有序的事件以获得有用信息是一个有意义的研究。流式数据是一组顺序、大量、快速、连续到达的数据序列,可被视为一个随时间延续而无限增长的动态数据集合。对于互联网上不断产生的流式数据,传统的基于划分或基于密度的聚类方法无法直接使用,因为这些方法需要确定的数据甚至确定的输出聚类数,这与流式数据的潜在无限性不符,而且这些方法还需要进行反复的迭代计算,计算成本较高,很难保证结果的实时性。现有技术中,针对流式文本数据的事件聚类方法的核心在于文本表示和相似度计算,基本可分为无监督的方法和有监督的方法。其中,所述的无监督的方法基本上是用某些自然语言处理的工具对文本进行处理,提取文本特征,进行文本表示,并且定义一种相似度计算方法,找到一个合适的阈值,通过这些人工定义的规则进行聚类。这种方法的主要问题在于没有从数据中进行学习,人工定义的规则难以适应复杂多变的数据。而所述的有监督的方法主要包括两种,一种是将问题转化为判断文本对是否属于同一事件的分类问题,可通过使用机器学习或者深度学习的方法提取文本特征并进行分类。这类方法的问题在于实际聚类过程中,对文本进行两两比较的计算成本太高。另一种有监督的方法是提前定义聚类数,然后通过标注数据学习一种合适的划分方法。但是这种方法的问题在于与流式数据的不确定性不相适应。为了解决上述问题,本专利技术提供了一种基于强化学习的流式文本数据的事件聚类方法,利用已有的标注数据,学习一种合适的聚类策略,并结合Single-Pass增量式聚类算法,以一种简单高效的方法,对流式文本数据进行实时的处理和分析,从而实现事件聚类。
技术实现思路
本专利技术的目的在于提供一种基于强化学习的流式文本数据的事件聚类方法,及时高效的对海量的不断增长的流式文本数据进行聚类处理,通过引入已有的标注数据的先验知识,进行基于强化学习的事件聚类训练,使得事件聚类的结果更加及时和准确。为了达到上述专利技术的目的,本专利技术采用的技术方案为:一种基于强化学习的流式文本数据的事件聚类方法,包括以下步骤:S1、通过流式处理获取文本数据的特征表示;S2、获取全部候选事件构成当前事件库,并对每个候选事件进行特征提取和表示;S3、通过基于强化学习的事件聚类训练方法,得到聚类策略;S4、判断当前处理的文本数据的事件归属,更新当前事件库。所述的S1中,具体包含以下步骤:S11、对输入的文本数据进行流式处理,其中每条文本数据的发布时间作为时间标签;S12、使用自然语言处理工具提取文本数据中的命名实体或关键词,或直接提取文本数据中的标签,通过采用词嵌入模型,获取每个文本数据的特征表示。所述的S2中,具体包含以下步骤:S21、通过时间窗口方法,获取全部候选事件构成当前事件库;其中,所述的候选事件是指,按照距离当前时间由近至远的顺序,发布时间在最接近当前时间的某个时间窗口内的文本数据的集合;S22、根据每个文本数据的时间标签和特征表示,对每个候选事件进行表示,通过采用时间衰减模型,突出其中发布时间更接近当前时间的文本数据的特征,分析并捕捉该候选事件随时间的特征变化。所述的S22中,时间衰减模型具体为:对于每个候选事件,将其中发布时间越接近当前时间的文本数据,赋予越高的权重值,分析并提取该候选事件最新的特征。所述的S3中,具体包含以下步骤:S31、对已有的标注数据按输入的时间顺序进行排列,得到标准事件库,作为事件聚类训练时的环境;S32、根据当前文本数据的特征表示,对该文本数据进行事件归属的判断,将该文本数据划分至当前事件库中的某一事件中,作为事件聚类训练时的当前动作,并得到该文本数据的聚类结果以及更新的当前事件库;S33、将更新的当前事件库作为事件聚类训练时的当前状态;S34、通过将聚类结果与标准事件库进行比较,得到对应当前动作和当前状态的奖赏;S35、根据奖赏,对当前状态下的当前动作进行指导,通过学习完成当前文本数据的事件聚类训练;并返回S32对下一个文本数据进行事件聚类训练,直至全部文本数据完成训练得到聚类策略。所述的S4中,采用Single-Pass增量式聚类方法对当前处理的文本数据进行事件归属的聚类处理。所述的S4中,具体包含以下步骤:根据S3中学习得到的聚类策略,判断当前处理的文本数据归属于当前事件库中的某一候选事件,并更新该候选事件的表示,以更新当前事件库;根据S3中学习得到的聚类策略,判断当前处理的文本数据并不属于当前事件库中的任何一个候选事件,因此在当前事件库中成立一个新事件;在完成对该文本数据的处理之后,通过流式方式继续处理下一个文本数据,实现当前数据库的动态处理和实时更新。本专利技术所提供的基于强化学习的流式文本数据的事件聚类方法,在面对海量的不断增长的流式文本数据时,通过使用简单高效的增量式聚类方法,能够及时高效地进行聚类处理,通过引入已有的标注数据的先验知识,进行基于强化学习的有监督的事件聚类训练,使得事件聚类的结果更加及时和准确。附图说明图1为本专利技术中的基于强化学习的流式文本数据的事件聚类方法的流程图;图2为本专利技术中的基于强化学习的事件聚类训练方法的示意图;图3为本专利技术中的根据聚类策略对文本数据进行事件归属的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,为本专利技术所述的基于强化学习的流式文本数据的事件聚类方法的流程图,主要包括以下步骤:S1、通过流式处理获取文本数据的特征表示;具体为:S11、对输入的文本数据进行流式处理,其中每条文本数据具有一个表示发布时间的时间戳,作为时间标签;S12、使用自然语言处理(NLP)工具提取文本数据中的命名实体或关键词,或者直接提取文本数据中的标签等,通过采用词嵌入模型,获取每个文本数据的特征表示。其中,所述的词嵌入(WordEmbedding)是一种将文本数据中的词转换成数字向量的方法,具体是把一个维数为所有词数量的高维空间嵌入到一个低维数的连续向量空间中,通过词嵌入可生成词向量,进而可使用机器学习算法对该些词向量进行分析。在本专利技术中,所述的采用词嵌入模型具体为:对大量文本数据先通过分词工具进行分词,构建词表,然后使用词嵌入预训练方法得到每个词的低维本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的流式文本数据的事件聚类方法,其特征在于,包含以下步骤:/nS1、通过流式处理获取文本数据的特征表示;/nS2、获取全部候选事件构成当前事件库,并对每个候选事件进行特征提取和表示;/nS3、通过基于强化学习的事件聚类训练方法,得到聚类策略;/nS4、判断当前处理的文本数据的事件归属,更新当前事件库。/n

【技术特征摘要】
1.一种基于强化学习的流式文本数据的事件聚类方法,其特征在于,包含以下步骤:
S1、通过流式处理获取文本数据的特征表示;
S2、获取全部候选事件构成当前事件库,并对每个候选事件进行特征提取和表示;
S3、通过基于强化学习的事件聚类训练方法,得到聚类策略;
S4、判断当前处理的文本数据的事件归属,更新当前事件库。


2.根据权利要求1所述的基于强化学习的流式文本数据的事件聚类方法,其特征在于,所述的S1中,具体包含以下步骤:
S11、对输入的文本数据进行流式处理,其中每条文本数据的发布时间作为时间标签;
S12、使用自然语言处理工具提取文本数据中的命名实体或关键词,或直接提取文本数据中的标签,通过采用词嵌入模型,获取每个文本数据的特征表示。


3.根据权利要求2所述的基于强化学习的流式文本数据的事件聚类方法,其特征在于,所述的S2中,具体包含以下步骤:
S21、通过时间窗口方法,获取全部候选事件构成当前事件库;其中,所述的候选事件是指,按照距离当前时间由近至远的顺序,发布时间在最接近当前时间的某个时间窗口内的文本数据的集合;
S22、根据每个文本数据的时间标签和特征表示,对每个候选事件进行表示,通过采用时间衰减模型,突出其中发布时间更接近当前时间的文本数据的特征,分析并捕捉该候选事件随时间的特征变化。


4.根据权利要求3所述的基于强化学习的流式文本数据的事件聚类方法,其特征在于,所述的S22中,时间衰减模型具体为:对于每个候选事件,将其中发布时间越接近当前时间的文本数据,赋予越高的权重值,分析并提取该候选事件最新的特征。

【专利技术属性】
技术研发人员:邱兴发邹乔莎史传进
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1