【技术实现步骤摘要】
融合多粒度特征的汉越新闻事件相关性分析方法
[0001]本专利技术涉及一种融合多粒度特征的汉越新闻事件相关性分析方法,属于自然语言处理领域。
技术介绍
[0002]汉越新闻事件相关性分析旨在找到与中文新闻事件相关的越南语新闻文本。直接对汉越新闻文本通过文本表征进行相似度计算效果不佳。原因在于汉语和越南语不属于同一语系,语言差异性很大,内容和形式上都存在不同语种间的对齐问题,且同一事件在不同国家的关注点和报道角度有所区别。但新闻事件的关键词、关键句以及主题总保持一致,利用事件信息对汉越新闻事件进行相关性分析,能得到更加均衡合理的判断。对之后的面向跨语言新闻事件检索、跨语言新闻事件分类、虚假新闻检测、舆情监测等领域具有重要研究价值。
技术实现思路
[0003]本专利技术提供融合多粒度特征的汉越新闻事件相关性分析方法,通过提取新闻报道中不同粒度事件信息综合对汉越新闻文档进行相似度评判,从而保证相似度是基于新闻事件而不是新闻整体内容进行度量的,本专利技术提升汉越新闻事件文本相似度计算模型的性能。
[0004]本专利技术的技术方案是:融合多粒度特征的汉越新闻事件相关性分析方法,所述方法的具体步骤如下:
[0005]Step1、爬取各个领域的汉语、越南语新闻文档及其关键词;
[0006]Step2、过滤筛选爬取到的汉语、越南语新闻文档及其关键词;
[0007]Step3、进行汉越跨语言词向量预训练;
[0008]Step4、对汉越新闻文档进行短语级、句子级、主题级的特征提取 ...
【技术保护点】
【技术特征摘要】
1.融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述方法的具体步骤如下:Step1、爬取各个领域的汉语、越南语新闻文档及其关键词;Step2、过滤筛选爬取到的汉语、越南语新闻文档及其关键词;Step3、进行汉越跨语言词向量预训练;Step4、对汉越新闻文档进行短语级、句子级、主题级的特征提取及Embedding表示;Step5、通过三层Stacked
‑
LSTM学习到各种粒度特征,得到最终特征向量;Step6、通过多头注意力机制计算,将所有注意力值拼接,再进行线性变换得到具有多粒度事件特征的新闻上下文表示;Step7、采用曼哈顿距离计算实际文档距离,得到双语文档语义相似度。2.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step3中,首先在各自语言的语料中训练词嵌入矩阵X和Y,将种子词典表示为二进制矩阵D,找到最优映射矩阵W
*
,使映射的汉语词嵌入矩阵和越南语词嵌入矩阵之间的欧氏距离平方和最小化:其中表示第i个汉语词嵌入,W是映射矩阵,表示第j个越南语词嵌入,如果第i个汉语词与第j个越南语词对齐,则D
ij
=1;然后对词嵌入矩阵X和Y进行归一化和中心化预处理操作:将W构建为正交矩阵以防止单语性能下降且提供更好的双语映射,优化后的公式为:W
*
=arg
W
maxTr(XWR
T
D
T
)其中Tr(
·
)表示主对角线所有元素之和,W
*
为最优映射矩阵;最后使用映射源语言嵌入和目标语言嵌入之间的点积作为相似度度量。3.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step4中,选择关键短语、关键句和双语主题作为词级、句子级和篇章级粒度特征,分别使用TF
‑
IDF、TextRank、双语LDA对各粒度特征进行提取。4.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step5中,采用孪生循环神经网络结构来对汉语和越南语新闻进行相似度计算,孪生神经网络由结构相同的两个神经网络构成,该网络能学习区分两个输入是否相似;孪生循环神经网络主体部分由两个Stacked
...
【专利技术属性】
技术研发人员:高盛祥,梁晨,余正涛,黄于欣,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。