融合多粒度特征的汉越新闻事件相关性分析方法技术

技术编号:37268409 阅读:11 留言:0更新日期:2023-04-20 23:38
本发明专利技术涉及融合多粒度特征的汉越新闻事件相关性分析方法,属于自然语言处理领域。本发明专利技术通过融合多粒度特征进行汉越新闻相关性分析,可以从事件粒度衡量相似文本,在事件层次建立双语新闻文本间的语义联系,利用事件特征进行新闻相关性分析。本发明专利技术首先,提取出汉越新闻文本中事件关键词、关键句和主题特征;其次,在文本语义的基础上融入以上多粒度事件信息;然后,利用多头自注意力机制提取不同粒度间事件信息的依赖关系;最后计算曼哈顿距离,获取汉越新闻文本中事件的相似关系。本发明专利技术在汉越新闻事件相关性分析任务中取得了很好的效果,为跨语言信息检索、跨语言新闻事件分类、舆情监测等任务提供了支撑。舆情监测等任务提供了支撑。舆情监测等任务提供了支撑。

【技术实现步骤摘要】
融合多粒度特征的汉越新闻事件相关性分析方法


[0001]本专利技术涉及一种融合多粒度特征的汉越新闻事件相关性分析方法,属于自然语言处理领域。

技术介绍

[0002]汉越新闻事件相关性分析旨在找到与中文新闻事件相关的越南语新闻文本。直接对汉越新闻文本通过文本表征进行相似度计算效果不佳。原因在于汉语和越南语不属于同一语系,语言差异性很大,内容和形式上都存在不同语种间的对齐问题,且同一事件在不同国家的关注点和报道角度有所区别。但新闻事件的关键词、关键句以及主题总保持一致,利用事件信息对汉越新闻事件进行相关性分析,能得到更加均衡合理的判断。对之后的面向跨语言新闻事件检索、跨语言新闻事件分类、虚假新闻检测、舆情监测等领域具有重要研究价值。

技术实现思路

[0003]本专利技术提供融合多粒度特征的汉越新闻事件相关性分析方法,通过提取新闻报道中不同粒度事件信息综合对汉越新闻文档进行相似度评判,从而保证相似度是基于新闻事件而不是新闻整体内容进行度量的,本专利技术提升汉越新闻事件文本相似度计算模型的性能。
[0004]本专利技术的技术方案是:融合多粒度特征的汉越新闻事件相关性分析方法,所述方法的具体步骤如下:
[0005]Step1、爬取各个领域的汉语、越南语新闻文档及其关键词;
[0006]Step2、过滤筛选爬取到的汉语、越南语新闻文档及其关键词;
[0007]Step3、进行汉越跨语言词向量预训练;
[0008]Step4、对汉越新闻文档进行短语级、句子级、主题级的特征提取及Embedding表示;
[0009]Step5、通过三层Stacked

LSTM学习到各种粒度特征,得到最终特征向量;
[0010]Step6、通过多头注意力机制计算,将所有注意力值拼接,再进行线性变换得到具有多粒度事件特征的新闻上下文表示;
[0011]Step7、采用曼哈顿距离计算实际文档距离,得到双语文档语义相似度。
[0012]作为本专利技术的进一步方案,所述Step3中,首先在各自语言的语料中训练词嵌入矩阵X和Y,将种子词典表示为二进制矩阵D,找到最优映射矩阵W
*
,使映射的汉语词嵌入矩阵和越南语词嵌入矩阵之间的欧氏距离平方和最小化:
[0013][0014]其中表示第i个汉语词嵌入,W是映射矩阵,表示第j个越南语词嵌入,如果第i
个汉语词与第j个越南语词对齐,则D
ij
=1;
[0015]然后对词嵌入矩阵X和Y进行归一化和中心化预处理操作:将W构建为正交矩阵以防止单语性能下降且提供更好的双语映射,优化后的公式为:
[0016]W
*
=arg
W
maxTr(XWY
T
D
T
)
[0017]其中Tr(
·
)表示主对角线所有元素之和,W
*
为最优映射矩阵;
[0018]最后使用映射源语言嵌入和目标语言嵌入之间的点积作为相似度度量。
[0019]作为本专利技术的进一步方案,所述Step4中,选择关键短语、关键句和双语主题作为词级、句子级和篇章级粒度特征,分别使用TF

IDF、TextRank、双语LDA对各粒度特征进行提取。
[0020](1)关键短语特征提取
[0021]通过TF

IDF对关键短语进行提取。计算方法如下:
[0022]tfidf
i,j
=tf
i,j
*idf
i,j
[0023]其中,式中tfidf
i,j
表示词频tf
i,j
和倒文档词频idf
i,j
的乘积。TF

IDF值越大表示该特征短语对这个文档的重要性越大。TF表示某个关键短语在整篇文档中出现的频率。IDF表示计算倒文档频率。文档频率是指某个关键短语在整个语料所有文档中出现的次数。倒文档频率又称为逆文档频率,它是文档频率的倒数,主要用于降低所有文档中一些常见却对文档影响不大的短语的作用。
[0024]TF词频的计算公式如下:
[0025][0026]其中,n
i,j
为特征短语t
i
在文档d
j
中出现的次数,∑
k
n
k,j
是文档d
j
中所有特征短语的个数。计算的结果即为某个特征短语的词频。
[0027]IDF的计算公式如下:
[0028][0029]其中,|D|表示语料中文档的总数,表示文档中包含特征词短语的数量。为防止该短语在语料库中不存在,即分母为0,则使用作为分母。
[0030](2)关键句特征提取
[0031]通过TextRank对关键句进行提取。TextRank是一种基于图的文本处理排序模型,其主要思想是把文档分割为若干句子,每个句子作为图节点构建图关系,通过迭代计算得到每个图节点的排序分数,最终得到文档中的重要句子排名。
[0032]具体来说,每个节点代表文档中的一个句子,然后以节点构建无向图,节点间的边代表两个句子的相似性权重,计算公式如下:
[0033][0034]其中,WS(V
i
)表示句子i的权重,d为阻尼系数,数值在0与1之间,一般取0.85,In(V
i
)表示指向节点V
i
的节点集合,Out(V
j
)表示节点V
j
出发的边指向的节点集合,W
ij
为节点V
i
和节点V
j
间的权重值,WS(V
j
)表示句子j的权重。
[0035]文本中的每个句子作为一个节点,其相似度基于词的共现个数计算,公式如下:
[0036][0037]其中,S
i
和S
j
表示句子,w
k
表示句子中的词,分子部分表示两个句子中共现词个数,分母部分表示对句子中的词数求对数后再求和,以减少长句子在相似度计算中的影响。
[0038]通过以上公式计算任意两个节点间的相似度并构建节点连接图,然后迭代计算每个节点的TextRank值,最后选择排序值最高的几个节点对应的句子作为关键句。
[0039](3)双语主题特征提取
[0040]使用双语LDA检测双语文档之间的主题相似度,对文档主题进行提取。
[0041]LDA是一种概率主题模型,它将每篇文档主题以概率分布的形式给出,每一个主题由词语概率分布组成。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。双语LDA是LDA模型的双语扩展,用于检测双语文档之间的主题相似度。图2为双语LDA的概率图。
[0042]其中S和T分别代表源语言和目标语言,K表示主题数量,和代表主题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述方法的具体步骤如下:Step1、爬取各个领域的汉语、越南语新闻文档及其关键词;Step2、过滤筛选爬取到的汉语、越南语新闻文档及其关键词;Step3、进行汉越跨语言词向量预训练;Step4、对汉越新闻文档进行短语级、句子级、主题级的特征提取及Embedding表示;Step5、通过三层Stacked

LSTM学习到各种粒度特征,得到最终特征向量;Step6、通过多头注意力机制计算,将所有注意力值拼接,再进行线性变换得到具有多粒度事件特征的新闻上下文表示;Step7、采用曼哈顿距离计算实际文档距离,得到双语文档语义相似度。2.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step3中,首先在各自语言的语料中训练词嵌入矩阵X和Y,将种子词典表示为二进制矩阵D,找到最优映射矩阵W
*
,使映射的汉语词嵌入矩阵和越南语词嵌入矩阵之间的欧氏距离平方和最小化:其中表示第i个汉语词嵌入,W是映射矩阵,表示第j个越南语词嵌入,如果第i个汉语词与第j个越南语词对齐,则D
ij
=1;然后对词嵌入矩阵X和Y进行归一化和中心化预处理操作:将W构建为正交矩阵以防止单语性能下降且提供更好的双语映射,优化后的公式为:W
*
=arg
W
maxTr(XWR
T
D
T
)其中Tr(
·
)表示主对角线所有元素之和,W
*
为最优映射矩阵;最后使用映射源语言嵌入和目标语言嵌入之间的点积作为相似度度量。3.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step4中,选择关键短语、关键句和双语主题作为词级、句子级和篇章级粒度特征,分别使用TF

IDF、TextRank、双语LDA对各粒度特征进行提取。4.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step5中,采用孪生循环神经网络结构来对汉语和越南语新闻进行相似度计算,孪生神经网络由结构相同的两个神经网络构成,该网络能学习区分两个输入是否相似;孪生循环神经网络主体部分由两个Stacked
...

【专利技术属性】
技术研发人员:高盛祥梁晨余正涛黄于欣
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1