【技术实现步骤摘要】
一种基于元结构学习的异构图转换的文本挖掘方法
[0001]本专利技术属于文本挖掘
,特别是涉及一种基于元结构学习的异构图转换的文本挖掘方法。
技术介绍
[0002]随着互联网技术的发展,全球信息化数据呈现出爆发增长、海量集聚、传播迅速等特点,我们已经进入了一个“大数据时代”,这对文化传播、信息管理等产生了重大影响,自然语言处理技术受到越来越多的关注,并成为当下的热点。自然语言处理是指让计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息,实现人与计算机之间用自然语言进行有效通信的各种理论和方法。让计算机能够确切理解人类的语言,并自然地与人进行交互。
[0003]预定义的元路径意味着这些方法依赖于启发式学习,并且是特定于任务的。由于人工经验的局限性,手工构建的特征工程只能捕获部分信息。且元路径分别考虑节点之间的每种类型的关系,然而,异构环境中的真实关系往往相当复杂 ...
【技术保护点】
【技术特征摘要】
1.一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,包括步骤:S10,针对文本数据,提取文本中的信息构造异构信息网络图;S20,通过图转换层,以获取元路径来捕捉节点间的关系;S30,通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况;S40,对提取出的包含元路径和元图的元结构使用图卷积网络,生成节点嵌入;S50,利用获得的节点嵌入挖掘下游文本。2.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S10中,针对文本数据,提取文本中的信息构造异构信息网络图,包括步骤:S11,收集大量文本数据,使用N
×
D的原始特征矩阵U来存储文本的原始特征,其中N和D分别为文本的数量和文本特征的维度;并利用自然语言处理工具从文本数据中提取单词类型、文本类型、主题类型和实体类型;S12,将文本中的单词提取为单词类型节点,学习单词向量,结果用于文本表示;如果文本中存在单词,则在文本节点和单词节点之间建立边;通过计算单词向量的相似度确定单词之间的联系;S13,探索文本中潜在的主题,作为主题类型节点;主题分布通过计算语料库内单词的条件概率确定;为每个文本筛选出概率值最高的前K个主题;如果一个主题被文本所包含,就在这两个节点之间建立一条边;S14,对于实体类型,建立文本和实体之间的联系以及实体之间的联系;S15,将文本类型、单词类型、主题类型、实体类型信息作为异构信息网络图的节点,进而根据各个节点的关系建立异构信息网络图。3.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S20中,通过图转换层,以获取元路径来捕捉节点间的关系,包括步骤:S21,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积;S22,使用第一图转换层的输出通过矩阵乘法生成基于元路径的邻接矩阵;S23,堆叠多个图转换层,第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵,第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同,将对于每个通道中的所有边类型计算一个新的权重矩阵,并对每层生成基于邻接矩阵的元路径;S24,元路径是与不同类型的边连接的路径,邻接矩阵通过沿路径的每种边类型的邻接矩阵经过卷积后相乘产生;S25,根据沿该路径的所有边类型的权重的累积乘积,获得每个元路径的重要性得分。4.根据权利要求3所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S20中,通过图转换层,以获取元路径来捕捉节点间的关系,包括步骤:S21,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中,通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积;S22,使用两个卷积的输出通过矩阵乘法生成基于元路径的邻接矩阵P1,即P1=O1O2,其中,O1和O2分别为卷积层的两个输出;
S23,堆叠多个图转换层,第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵,第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同,将对于每个通道中的所有边类型计算一个新的权重矩阵W
α(i+1)
,第i层生成的基于邻接矩阵的...
【专利技术属性】
技术研发人员:王书海,彭浩,刘明瑞,刘欣,
申请(专利权)人:石家庄铁道大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。