一种面向新闻文本的基于深度聚类模型的事件线抽取方法技术

技术编号：24091824 阅读：70 留言：0更新日期：2020-05-09 08:25

本发明专利技术公开了一种面向新闻文本的基于深度聚类模型的事件线抽取方法，包括：新闻文本预处理；文本的初始隐事件表示预训练；按照发布时间对语料中新闻文本进行分组；基于深度聚类模型确定各组中每条新闻所属的事件线；对各组中事件线编号相同的事件元素进行后处理，得到事件的结构化展示；对各组抽取出的具有相同事件线编号的事件进行后处理得到事件线。本发明专利技术采用神经网络模型自动抽取文本中隐含的事件特征，避免了手动选取和构建特征，并且抽取得到的文本的隐含事件特征能够为下游应用提供支持；能够同时进行事件特征抽取和事件线提取，减少了误差传播的可能性。相比于以往的事件线抽取方法，本发明专利技术具有更高的抽取准确率与召回率。

An event line extraction method based on deep clustering model for news text

全部详细技术资料下载

【技术实现步骤摘要】
一种面向新闻文本的基于深度聚类模型的事件线抽取方法
本专利技术涉及利用计算机对新闻文本进行无监督事件线抽取的方法，属于信息处理

技术介绍
随着在线新闻媒体网站以及移动端的新闻应用的快速发展，社交媒体每天产生的海量新闻报道已经成为人们获取和关注国内外事件的主要途径，对社会产生了巨大的影响。但是，海量新闻报道的价值有高有低，对不同人而言关注度也不同，而且对于一些持续很长时间的事件，人们也容易忽视事件之间的相关性和发展趋势。因此人们迫切需要一种能够从海量新闻文本中自动抽取热点事件，并且能够展示事件如何随着时间动态变化的工具。事件线抽取主要研究从海量的文本中抽出热门时间，以结构化的形式展示事件，比如什么人、什么地方、什么机构、关键词以及相关主题等，并呈现出该事件是如何随着时间而不断变化。事件线抽取是一个全新的，极具挑战的方向，其难点在于(1)需要从每个时间段从海量的新闻文本中准确的抽出事件；(2)每个时间段的时间需要动态地，准确地连接到相应的事件线上，而不是手工计算事件相似性进行串联。动态的构建事件线的难点在于准确...

【技术保护点】
1.一种面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，包括以下步骤：/n(1)对语料库中的新闻文本进行预处理，提取得到文本中的命名实体和关键词，所述命名实体包含人物实体、组织实体和地点实体，所述关键词包括动词、名词和形容词；/n(2)在整个语料库上采用堆叠去噪自编码器进行模型参数的预训练，其中编码器的输入为提取的命名实体和关键词的词嵌入向量构成的特征向量，编码器的输出作为新闻文本的初始隐事件表示；/n(3)将新闻文本按照发布日期进行分组，并按日期先后顺序进行排序；/n(4)基于深度聚类模型采用聚类损失在每个分组数据上依次进行迭代学习，对于各个分组，利用步骤(2)得到的编码器获得各...

【技术特征摘要】
1.一种面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，包括以下步骤：
(1)对语料库中的新闻文本进行预处理，提取得到文本中的命名实体和关键词，所述命名实体包含人物实体、组织实体和地点实体，所述关键词包括动词、名词和形容词；
(2)在整个语料库上采用堆叠去噪自编码器进行模型参数的预训练，其中编码器的输入为提取的命名实体和关键词的词嵌入向量构成的特征向量，编码器的输出作为新闻文本的初始隐事件表示；
(3)将新闻文本按照发布日期进行分组，并按日期先后顺序进行排序；
(4)基于深度聚类模型采用聚类损失在每个分组数据上依次进行迭代学习，对于各个分组，利用步骤(2)得到的编码器获得各新闻文本的初始隐事件表示，根据隐事件表示与元事件的相似度构建事件线分布，通过优化事件线分布与归一化后的参考分布之间的KL散度对编码器参数和元事件进行迭代更新至模型收敛，得到分组内文本的事件线编号，其中选取新闻文本所属元事件概率的最大值所对应的元事件编号为事件线编号；在进入下一分组进行学习时，利用预设的参数矩阵将上一分组获得的元事件与当前分组元事件进行加权融合；
(5)根据步骤(4)得到的事件线编号，将各个分组内的文本按照事件线编号划分为簇，对每一个事件簇总结命名实体分布和关键词分布，得到事件的结构化表示；
(6)所有分组数据中的事件均被聚出后，不同分组内具有相同事件线编号的事件属于同一条事件线；每条事件线由若干个按照日期先后顺序排布的事件组成。

2.根据权利要求1所述的面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，所述步骤(1)中的预处理方法包括对新闻文本的命名实体识别和关键词抽取；具体包括：
对每篇文本进行命名实体识别，对得到的命名实体按照实体类型划分，保留类型为组织、地点以及人物三种类型的命名实体作为候选关键实体；
对每篇文本去除常见的停用词，保留在命名实体识别步骤中没有被识别出的非命名实体的名词、动词或形容词作为候选关键词；
使用TF-IDF方法对上述得到的候选关键实体和候选关键词进行重要度排序，选取重要度阈值对高于阈值的词进行保留，得到关键实体和关键词。

3.根据权利要求1所述的面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，所述步骤(2)中的文本初始隐事件表示学习使用堆叠去噪自编码器进行学习；所述堆叠去噪自编码器包含编码器和解码器两个非线性映射单元，编码器的输入为提取的命名实体和关键词的词嵌入向量构成的特征向量输出为隐事件表示，编码器和解码器具有对称的结构，均由多层感知机与非线性激活函数组成。

4.根据权利要求1所述的面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，所述步骤(3)中将新闻文本按照发布日期进行分组，并按照时间先后顺序进行排序得到其中，T表示最大的分组数，Di表示第i个分组中的文本集合，发布...

【专利技术属性】
技术研发人员：周德宇，司加胜，郭林森，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人