【技术实现步骤摘要】
基于跨语言神经主题模型的汉越新闻话题发现方法
本专利技术涉及基于跨语言神经主题模型的汉越新闻话题发现方法,属于自然语言处理
技术介绍
汉越新闻话题发现就是将汉越新闻报道进行聚类再发现相关的话题。这帮助人们更容易了解同一事件汉越不同的话题讨论。汉越新闻话题发现任务可以看作是对双语新闻聚类的问题,其主要难点在于克服中文与越南文新闻报道之间的语言差异,将两种语言表征到同一语义空间下进行新闻事件聚类。以往跨语言话题发现方法主要分为基于翻译的方法和利用双语词典或平行语料训练双语词嵌入的方法。
技术实现思路
本专利技术提供了基于跨语言神经主题模型的汉越新闻话题发现方法,以解决在汉越低资源场景中,由于平行语料的稀缺,构建双语词典和训练高质量的双语词嵌入变得十分困难,汉越新闻文本很难对齐到同一语义空间中的问题。本专利技术主要针对新闻长文本聚类,使用双语词嵌入对长文本进行表示的方法不能很好的提取到长文本中重要的词的信息,从而导致新闻长文本的聚类效果欠佳。针对新闻文本而言,通常类属于同一事件的新闻报道大多都 ...
【技术保护点】
1.基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述方法包括:/nStep1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;/nStep2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;/nStep3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为事件的相关话题。/n
【技术特征摘要】 【专利技术属性】
1.基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述方法包括:
Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量;
Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵,将汉越新闻的主题向量表征到同一语义空间下;
Step3、对汉越可比新闻篇章处理得到各自的主题向量表示,通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中,进行主题向量的聚类,提取每个簇的主题词作为事件的相关话题。
2.根据权利要求1所述的基于跨语言神经主题模型的汉越新闻话题发现方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先输入一篇新闻文档X,将其进行词切分,对新闻文本编码为词袋表示Xs,使用两层多层感知机将词袋表示Xs编码为低维稠密的统计特征向量h:
Xs=fbow(X)(1)
h=MLP(Xs)(2)
fbow(·)表示将新闻篇章表征为词袋,X表示输入的新闻文档,Xs表示进行词切分后的新闻样本,即词袋表示,MLP表示多层感知机;
为了能通过统计特征向量h得到新闻的主题向量,将传统概率主题模型中的狄利克雷先验分布转化为高斯先验,假设每一篇新闻文本X的样本分布δ都属于正态分布,经过线性变换后的h同样属于正态分布:
μ∈N(0,I)(3)
h∈N(0,I)(4)
然后使用神经网络学习到h的正态分布均值μ与方差σ参数:
μ=wμh+bμ(5)
σ=wσh+bσ(6)
其中,w和b分别是权重矩阵和偏置矩阵,利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z:
Z=με+σ(7)
ε通过采样标准正态分布得到,通过编码器训练得到输入新闻文本X的主题向量Z;
Step1.2、对词表中的词进行向量化后,将Step1.1中得到的主题向量Z作为锚点,与词向量矩阵ρ进行点乘计算,计算每个词与主题的相关性生成主题-词的相关性矩阵α,在向量空间中与主题向量Z更相关的词会在距离上逼近它,计算公式如下:
α=softmax(ρT·Z)(8)
ρ代表词表的词向量矩阵,在这一步中,引用了CBOW的思想,CBOW每个词的计算过程如下:
wdn~softmax(ρTαdn)(9)
wdn是第d篇文档中第n个目标词,αdn表示目标词wdn周围窗口生成的上下文词向量;将主题向量Z作为词的上下文向量,对词表中的每个词都进行与主题向量Z进行一致性计算,在得到主题-词的相关性矩阵α;
Step1.3、将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β:
β=softmax(Z·αT)(10)
技术研发人员:余正涛,夏琳杰,高盛祥,黄于欣,朱恩昌,张勇丙,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。