基于主题相关的异构图神经网络跨语言文本分类方法技术

技术编号:36744129 阅读:25 留言:0更新日期:2023-03-04 10:24
本发明专利技术公开一种基于主题相关的异构图神经网络跨语言文本分类方法,属于文本分类技术领域,包括:步骤1.获取训练集;步骤2.文本预处理;步骤3.构建主题相关词概率模型;步骤4.构建跨语言异构图;步骤5.对节点进行编码;步骤6.在图卷积网络上进行分类预测。本发明专利技术通过将异构图卷积网络应用于跨语言文本分类,利用主题相关词概率模型与图卷积网络相结合的方法进行跨语言文本分类;本发明专利技术提高源文档的翻译概率,在一定程度上提高了文本分类的准确性;本发明专利技术只需少数的标注文档,就可以实现较强的分类功能,并学习词和文档节点的嵌入;本发明专利技术很好的解决了神经网络机器翻译所需训练预料不足的问题。不足的问题。不足的问题。

【技术实现步骤摘要】
基于主题相关的异构图神经网络跨语言文本分类方法


[0001]本专利技术涉及一种基于主题相关的异构图神经网络跨语言文本分类方法,属于文本分类


技术介绍

[0002]1.文本分类和跨语言文本分类
[0003]文本分类,是指在确定的分类体系下,根据本文的特征,将给定的文本分配到分类体系的类别之中。文本分类能够有效地组织信息资源,让信息不再杂乱无章,从而使得人们获取信息的速度和精确性也得到有效的保证。它将一个或多个分类、标签或类别指派给文档或文本的其它主体。可以以各种方式(例如,根据主题、意图、类型和/或其它属性)并且出于各种原因(例如,为了组织文本、对文本进行排序、搜索文本等)来对文本进行分类。
[0004]由于互联网的普及,互联网上以英语以外的语言提供的文档数量不断增加。这些异构文档集合的组织大大增加了人力成本。一方面,需要懂不同语言的专家来组织这些收藏;另一方面,一种语言中可能存在大量带标签的文档,这些文档与另一种语言中的未标记文档处于相同的类结构中。如何利用某些语言中现有的标记文档对多语言场景中除该语言之外的未标记文档本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于主题相关的异构图神经网络跨语言文本分类方法,其特征在于:该方法具体过程如下:步骤1.获取训练集获取到原始Web网页数据,并将Web页面转化成为纯净统一的文本格式和元数据格式;步骤2.文本预处理步骤3.构建主题相关词概率模型使用E[count
E
(e)|F]记录预期单词出现次数作为特征,E为源语音文档F的一个翻译;步骤4.构建跨语言异构图基于生成对抗神经网络的机器翻译并利用上述步骤3构建的主题相关词概率模型,将源文档具有代表性的词语进行翻译,将不同语言的源文档进行相同形式的表示,将来自不同语言的源文档和所筛选的特征单词表示为图结点来构建异构图,从两个方向使用生成对抗神经网络机器翻译方法翻译文档,并在图中定义两类边;步骤5.对节点进行编码构建好所述的跨语言异构图后,利用BERT模型对所有节点进行编码,将句子压缩成序列,并获取序列第一个令牌特殊分类嵌入的隐藏状态,将其作为分类任务的聚合序列表示,用于后续的分类任务,同时使用多标签映射将输出的文本中各个字/词融合了全文语义的信息按照不同的词性、相似文档以及翻译文档将文本输入到不同子图中;步骤6.在图卷积网络上进行分类预测对每一层由不同类型边分隔的子图进行图卷积,通过隐藏层表示所有的单词和文本,将所有文本信息通过隐藏层聚合在一起,在异构图卷积网络上,计算每个节点的高阶表示和聚合信息:和聚合信息:是仅包含τ型边的对称归一化邻接矩阵的子矩阵,是每个节点τ型相邻节点的特征矩阵,是可训练参数,σ(
·
)表示非线性激活函数;最后使用两个图卷积层来聚集二阶邻域内的信息,然后对文档节点应用线性变换来获得预测;通过与标记文档相连的相似边和翻译边对文档分类进行预测。2.根据权利要求1所述的基于主题相关的异构图神经网络跨语言文本分类方法,其特征在于:在所述的概率模型下,有:首先,该模型根据给定的输入源文档,确定潜在主题的概率分布,即条件概率p(z|F);其次,该模型使用条件概率p(z|F)来确定源文档中每个单词的翻译概率,即p(e
j
|f
j
,z);其中f
j
是F中的第j个单词,k是源文档F中的单词数;随机变量e
j
表示F中第j个单词的翻
译。3.根据权利要求2所述的基于主题相关的异构图神经网络跨语言文本分类方法,其特征在于:该概率模型允许翻译一个单词f
j
时考虑整个源文档F上下文,具体生成过程如下:(1)对于每个源文档,生成一个具有概率v
c
的类标签c,只考虑类标签为“正”或“负”的二元分类任务;(2)对于每个源文档,生成一个概率为π
z|c
的主题z;(3)给定主题z,独立于类标签并以概率生成目标语言文档中的每个单词e;(4)对于目标语言文档中的每个单词e,独立于类标签并以...

【专利技术属性】
技术研发人员:李刚李雄
申请(专利权)人:中科紫东信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1