一种基于事件关系发现的媒体内容关联挖掘方法技术

技术编号:33127228 阅读:15 留言:0更新日期:2022-04-17 00:38
本发明专利技术提供一种基于事件关系发现的媒体内容关联挖掘方法,包括:构建媒体内容库;构建并训练媒体内容事件抽取模型,对媒体内容库中的各条媒体内容包含的事件进行识别和抽取;对各条事件包含的事件元素进行识别和抽取;基于抽取到的事件和事件元素,构造媒体内容事件关联图;使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系,包括:顺承关系、相关关系、因果关系和补充关系。本发明专利技术抽取媒体内容中的事件和事件元素,挖掘媒体内容之间多种类型的关联关系,并依据媒体内容之间的关系类型合理有效的组织关联内容,从不同角度对目标媒体内容进行描述和信息扩充,为用户展示脉络清晰、可解释性强的关联内容清单,提升用户阅读体验。体验。体验。

【技术实现步骤摘要】
一种基于事件关系发现的媒体内容关联挖掘方法


[0001]本专利技术属于信息检索
,具体涉及一种基于事件关系发现的媒体内容关联挖掘方法。

技术介绍

[0002]现有媒体内容关联挖掘方法一般分为两类:1、通过自然语言处理、图像识别等方法学习得到媒体内容对应的语义特征,通过计算媒体内容的语义相似性获得媒体内容的关联内容。2、基于媒体内容标签挖掘媒体内容之间的关联关系。
[0003]上述方法存在的问题为:一方面,采用语义信息相似度挖掘关联关系,只能挖掘到语义相似的关联内容,忽略了语义不相似,但逻辑上具有联系的关联内容。另一方面,使用媒体内容标签建立媒体内容之间的关联,媒体内容标签体系的建立需要耗费大量人力资源或出现标签繁杂,标签没有针对性的问题,进而挖掘到的关联内容具有局限性,无法挖掘到媒体内容之间更深层次的关系。最后,上述两类挖掘方法得到的关联内容之间的关系是单一的,无向的,不加区分的,导致内容间的关联关系可解释性差,无法对目标内容的关联内容进行脉络清晰,可解释性强的组织。

技术实现思路

[0004]针对现有技术存在的缺陷,本专利技术提供一种基于事件关系发现的媒体内容关联挖掘方法,可有效解决上述问题。
[0005]本专利技术采用的技术方案如下:
[0006]本专利技术提供一种基于事件关系发现的媒体内容关联挖掘方法,包括以下步骤:
[0007]步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;
[0008]使用主题抽取模型,对各条所述媒体内容进行主题抽取,得到每条媒体内容的主题标签及由多个主题词构成的主题词集合,其中,对于媒体内容C
u
,其主题词集合表示为N
w
为媒体内容C
u
的主题词数量;
[0009]步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,ent
N
};
[0010]对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;
[0011]步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;
[0012]所述媒体内容事件关联图为无向有权图,表示为:G
ent
=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V
×
V,代表无向有权图的边集合,具体的,对于事件ent
i
和事件ent
j
,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件ent
i
和事件ent
j
之间具有共有的事件元素,则事件ent
i
和事件ent
j
之间相连接
具有边e
ij
,并且,边e
ij
的权重的权重其中,代表事件ent
i
包含的事件元素集合;代表事件ent
j
包含的事件元素集合;代表事件ent
i
和事件ent
j
的共有的事件元素的数量;如果事件ent
i
和事件ent
j
之间不具有共有的事件元素,则事件ent
i
和事件ent
j
之间不相互连接,即:不具有边;
[0013]步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;媒体内容之间的关系包括:顺承关系和相关关系;
[0014]步骤4.1,挖掘媒体内容之间的顺承关系:
[0015]步骤4.1.1,以媒体内容C
u
为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容C
u
与媒体内容库中其他每条媒体内容的相似度;
[0016]其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容C
v
,采用下式,计算媒体内容C
u
与媒体内容C
v
的相似度sim
uv

[0017][0018]其中:
[0019]代表媒体内容C
v
的主题词集合;
[0020]代表媒体内容C
u
和媒体内容C
v
的共有主题词数量;
[0021]步骤4.1.2,预设置相似度阈值θ;
[0022]从媒体内容库中,选择出所有与媒体内容C
u
的相似度大于相似度阈值θ的媒体内容C
v
,形成相似媒体内容集合;
[0023]步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:C
u1
,C
u2
,...,C
u
m;C
u1
,C
u2
,...,C
u
m代表媒体内容的主要脉络,代表媒体内容C
u
的顺承关系;
[0024]其中,聚类算法具体为:
[0025]将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;
[0026]其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist
12
计算公式为:
[0027][0028]其中:
[0029]为类L1中的媒体内容数量;
[0030]为类L2中的媒体内容数量;
[0031]代表类L1中的任意媒体内容;
[0032]代表类L2中的任意媒体内容;
[0033]代表和在时间轴上的距离;
[0034]步骤4.2,挖掘媒体内容之间的相关关系:
[0035]步骤4.2.1,基于媒体内容事件关联图G
ent
,构造邻接矩阵A
G
∈R
N
×
N
;邻接矩阵A
G
为N行N列矩阵,表示如下:
[0036][0037]其中:
[0038]邻接矩阵A
G
中第i行第j列元素A
ij
的值,为事件ent
i
和事件ent
j
的共有事件元素的数量,即w
ij
;当i=j时,A
11
=A
22


=A
NN
=0;
[0039]A
i1 A
i2
...A
iN
,称为事件ent
i
的邻域结构特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于事件关系发现的媒体内容关联挖掘方法,其特征在于,包括以下步骤:步骤1,构建媒体内容库;所述媒体内容库存储多条媒体内容;使用主题抽取模型,对各条所述媒体内容进行主题抽取,得到每条媒体内容的主题标签及由多个主题词构成的主题词集合,其中,对于媒体内容C
u
,其主题词集合表示为N
w
为媒体内容C
u
的主题词数量;步骤2,构建并训练媒体内容事件抽取模型,采用所述媒体内容事件抽取模型,对所述媒体内容库中的各条所述媒体内容包含的事件进行识别和抽取,共抽取到N个事件,形成事件集合V={ent1,ent2,...,ent
N
};对各条所述事件包含的事件元素进行识别和抽取,得到每个所述事件包含的事件元素;步骤3,基于抽取到的事件和事件元素,构造媒体内容事件关联图;所述媒体内容事件关联图为无向有权图,表示为:G
ent
=(V,E);其中,V代表事件集合,事件集合V中的每个事件,作为媒体内容事件关联图的一个节点;E∈V
×
V,代表无向有权图的边集合,具体的,对于事件ent
i
和事件ent
j
,其中,i=1,2,...,N,j=1,2,...,N,i≠j,如果事件ent
i
和事件ent
j
之间具有共有的事件元素,则事件ent
i
和事件ent
j
之间相连接具有边e
ij
,并且,边e
ij
的权重的权重其中,代表事件ent
i
包含的事件元素集合;代表事件ent
j
包含的事件元素集合;代表事件ent
i
和事件ent
j
的共有的事件元素的数量;如果事件ent
i
和事件ent
j
之间不具有共有的事件元素,则事件ent
i
和事件ent
j
之间不相互连接,即:不具有边;步骤4,使用基于事件的内容关系挖掘模块,挖掘媒体内容之间的关系;媒体内容之间的关系包括:顺承关系和相关关系;步骤4.1,挖掘媒体内容之间的顺承关系:步骤4.1.1,以媒体内容C
u
为被研究的媒体内容,根据媒体内容之间共有主题词数量,计算媒体内容C
u
与媒体内容库中其他每条媒体内容的相似度;其中,对于媒体内容库中其他每条媒体内容,表示为媒体内容C
v
,采用下式,计算媒体内容C
u
与媒体内容C
v
的相似度sim
uv
:其中:代表媒体内容C
v
的主题词集合;代表媒体内容C
u
和媒体内容C
v
的共有主题词数量;步骤4.1.2,预设置相似度阈值θ;从媒体内容库中,选择出所有与媒体内容C
u
的相似度大于相似度阈值θ的媒体内容C
v
,形成相似媒体内容集合;步骤4.1.3,将相似媒体内容集合中的各个媒体内容,按发布时间映射到时间轴上,并在时间轴上,利用聚类算法对相似媒体内容集合中的各个媒体内容进行聚类,得到按时间排列的m个聚类中心,各个聚类中心对应的媒体内容依次表示为:C
u1
,C
u2
,...,C
um
;C
u1
,C
u2
,...,C
um
代表媒体内容的主要脉络,代表媒体内容C
u
的顺承关系;
其中,聚类算法具体为:将时间轴上每个媒体内容作为一个聚类,然后,不断将距离最小的两个聚类合并,直到满足迭代中止条件;其中:对于任意两个聚类,表示为:类L1与类L2,类L1与类L2之间的距离dist
12
计算公式为:其中:为类L1中的媒体内容数量;为类L2中的媒体内容数量;代表类L1中的任意媒体内容;代表类L2中的任意媒体内容;代表和在时间轴上的距离;步骤4.2,挖掘媒体内容之间的相关关系:步骤4.2.1,基于媒体内容事件关联图G
ent
,构造邻接矩阵A
G
∈R
N
×
N
;邻接矩阵A
G
为N行N列矩阵,表示如下:其中:邻接矩阵A
G
中第i行第j列元素A
ij
的值,为事件ent
i
和事件ent
j
的共有事件元素的数量,即w
ij
;当i=j时,A
11
=A
22


=A
NN
=0;A
i1 A
i2

A
iN
,称为事件ent
i
的邻域结构特征信息A
i
;因此,A
i
=A
i1 A
i2

A
iN
;步骤4.2.2,构造语义特征向量集合H={H1,H2,...,H
N
};其中,H1代表事件ent1的语义特征向量,H2代表事件ent2的语义特征向量,依此类推,H
N
代表事件ent
N
的语义特征向量;对于任意事件ent
i
,通过以下公式,得到其语义特征向量H
i
:其中:事件ent
i
具有K个事件元素e1,e2,...,e
K
,形成事件元素集合,形成事件元素集合对事件元素e1,e2,...,e
K
分别通过语义模型向量化,得到对应的事件元素向量通过对事件元素向量加和平均,得到事件ent
i
的语义特征向量H
i
;步骤4.2.3,构建图表示学习模型;所述图表示学习模型包括G层图卷积网络,分别表示
为:第1层图卷积网络,第2层图卷积网络,...,第G层图卷积网络;采用训练事件样本,对图表示学习模型进行训练,得到训练完成的图表示学习模型;具体训练方法为:步骤S1,构建训练样本库;所述训练样本库包括多个训练事件样本,每个训练事件样本具有邻域结构特征信息和语义特征向量;各个训练事件样本构成训练样本内容事件关联图G

;将当前的训练事件样本表示为ent
I
,其邻域结构特征信息为A
I
,语义特征向量为H
I
;步骤S2,将训练事件样本ent
I
的邻域结构特征信息A
I
和语义特征向量H
I
输入到所述图表示学习模型,输出训练事件样本ent
I
的表示向量R
I
,方法为:步骤S2.1,令x=1;步骤S2.2,通过下式,得到训练事件样本ent
I
的第x层表示向量的第x层表示向量其中:σ代表sigmod激活函数;代表输出时第x层图卷积网络的第1网络权重参数;代表输出时第x层图卷积网络的第2网络权重参数;代表输出时第x层图卷积网络的第3网络权重参数;代表训练事件样本ent
I
的第x

1层表示向量;1层表示向量;代表训练事件样本ent
I
的0阶邻域表示向量;为训练事件样本ent
I
的x阶邻域表示向量,通过下式计算:含义为:在训练样本内容事件关联图G

中,获得训练事件样本ent
I
的所有x阶邻域事件,由此形成训练事件样本ent
I
的x阶邻域事件集合其中,W代表训练事件样本ent
I
的x阶邻域事件的事件数量;训练事件样本ent
I
的x阶邻域事件是指:在训练事件样本的媒体内容事件关联图中,训练事件样本ent
I
连续经过x条边后到达的事件;代表集合内的事件样本数量;|A
I
|代表训练事件样本ent
I
的邻域结构特征信息A
I
的模;A
Iy
代表训练事件样本ent
...

【专利技术属性】
技术研发人员:郑晨烨孙剑
申请(专利权)人:北京中视广信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1