一种融入深度语义关系分类的事件脉络生成方法及系统技术方案

技术编号:32880131 阅读:22 留言:0更新日期:2022-04-02 12:13
本发明专利技术公开一种融入深度语义关系分类的事件脉络生成方法及系统,所述方法包括如下步骤:对新闻数据集合进行分词,合并后生成词文档序列;训练主题模型,利用训练好的主题模型来完成主题的聚类,得到主题聚类结果;将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;对于每个主题下获得的所有事件进行分支确定,得到每个主题对应的分支集合,将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。本发明专利技术通过结合基于主题模型的文本聚类方法和基于深度语义的事件聚类方法完成事件脉络的生成过程。的事件聚类方法完成事件脉络的生成过程。的事件聚类方法完成事件脉络的生成过程。

【技术实现步骤摘要】
一种融入深度语义关系分类的事件脉络生成方法及系统


[0001]本专利技术涉及一种融入深度语义关系分类的事件脉络生成方法及系统,属于语言处理


技术介绍

[0002]社交网络已被广泛用于发布新闻和报道事件。社交网络中信息的实时性和快速传播的能力使其成为获取信息的重要媒介,短文本的表述方式也能够有效地传递关键信息。社交网络的这些特性颠覆了传统媒体在信息传播上的统治力,这使其为监控事件及其演化提供了宝贵数据。然而,社交网络中文本的快速积累以及口语化的表达方式使得监控事件及事件间的演化具有极大挑战。从社交网络文本中对具有同一主题的事件及其演化进行提取能够极大地帮助我们在全景上对某一事件进行了解。例如:我们期望获得关于平昌冬奥会所有项目(即事件)的信息和这些项目的进程(即事件演化)。这需要我们首先检测事件,而后对这些事件进行聚类从而获得具有同一主题的事件(即故事),并最终以一种用户友好的方式(故事脉络)呈现出来。另外,深度学习和机器学习技术近几年快速发展,但在事件脉络的生成任务中仍然存在一些问题:1)事件由文本集合表示且有特定主题,如何从文本集合本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融入深度语义关系分类的事件脉络生成方法,其特征在于,包括如下步骤:数据预处理步骤,具体包括:对新闻数据集合D=[d1,d2,

d
|D|
]进行分词,合并后生成词文档序列v=[v1,v2,

v
D
];主题聚类步骤,具体包括:训练主题模型,利用训练好的主题模型来完成主题的聚类,对于新闻数据集合D=[d1,d2,

d
|D|
],经过主题模型后,得到每篇新闻数据对于各个主题的概率p
i
,最终根据所述概率p
i
,将新闻数据集合D划分为多个类别,得到主题聚类结果T={T1,T2,

T
|T|
},其中T
i
为新闻数据的集合;事件聚类步骤,具体包括:获取新闻数据集合D的关键词,对每个主题聚类结果中的新闻t
i
,采用bert模型对每篇新闻数据进行向量化,即将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;其中,w
i
为新闻数据的第i个关键词,脉络生成步骤,具体包括:对于每个主题下获得的所有事件进行分支确定,得到每个主题对应的分支集合B={branch1,branch2,

branch
|B|
},其中branch
i
为第i个分支所对应的事件集合;将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。2.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述训练主题模型具体包括:对于词文档序列v=[v1,v2,

v
D
],其中D为该词文档序列所包含的词数,v
i
∈{1,

,V}表示词文档序列中第i个词在词表中的位置,V为语料库此表的大小;对于主题模型,词文档序列的每个词汇v
i
都有两个包含上下文信息的隐状态,分别为前向隐状态和后向隐状态所述前向隐状态和所述后向隐状态由v
i
的上下文信息v
<i
=[v1,

,v
i
‑1]与v
>i
=[v
i+1
,

,v
D
]以及引入预训练的词向量作为先验知识得到,即包含v
i
的完整上下文信息;的完整上下文信息;其中,g(.)为非线性激活函数,与为偏置向量,H为隐层大小,即主题数量,W为参数矩阵,E为预训练的词向量矩阵,γ为权值系数,与分别代表矩阵W,E中的v
j
列,矩阵W是一个可学习的参数矩阵,其代表主题模型的主题词分布,每一行W
l,:
编码了第l个潜在主题的主题信息,每一列则为词v
i
的向量表示;其次,主题模型将词文档序列中所有词的联合分布p(v)分解为每个词v
i
的条件分布的乘积,即并据此对所述词文档序列建模,其中每个词的前后向自回归
条件p(v
i
)分别由前向隐状态和后向隐状态通过神经网络计算得到:通过神经网络计算得到:其中,W∈{1,

,V},分别为后向、前向偏置;最后通过最大化对数似然函数logp(v)优化参数,得到主题模型。3.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述获取新闻数据集合D的关键词包括:基于依存句法分析技术来获取关键词,抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系,以此作为新闻数据集合D的关键词,用于后续的事件聚类。4.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述事件聚类步骤具体包括:步骤1)以第一篇文档为种子,建立一个主题;步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算,采用余弦距离度量方法,找出与文档X具有最大相似度的已有主题;若相似度值大于阈值θ,则把文档X加入到有最大相似度的主题中,跳转至步骤4);步骤3)若相似度值小于阈值θ,则文档X不属于任一已有主题,需创建新的主题类别,同时将当前文本归属到新创建的主题类别中;步骤4)聚类结束,等待下一篇文档进入;经singlePass处理后,每个主题获得多个事件集合其中e
i
=<d,w>为时间集合,d为所述时间集合e
i
中所有新闻,w为新闻对应的关键词集合。5.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述分支确定包括:对于每个主题下获得的所有事件首先获取各个事件的高频关键词,对于各个事件的高频词来说,比较各个事件之间高频词之间的Jaccard相似系数,选择频率出现最高的十个作为关键词来进行比较,若Jaccard相似系数小于阈值δ,则认定两者不属于同一分支,否则认定两者属于同一分支。6.一种融...

【专利技术属性】
技术研发人员:周小敏应鸿晖刁则鸣聂芹芹石易王玉杰张震吴飞卓采标方四安李博
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1