一种基于图神经网络的化工制备领域长文本分类方法技术

技术编号:32787769 阅读:13 留言:0更新日期:2022-03-23 19:48
本发明专利技术提出了一种基于图神经网络的化工制备领域长文本分类方法,该方法包括:首先,融合词语统计特征和词向量特征,将多维特征作为RNN+CRF模型输入,提取化工制备领域文本新词,构建分词词典;然后,将全部文档、分词(包括训练数据、预测数据)作为节点初始化,构建全局语法、顺序张量图;下来,通过图消息传递机制,进行图上(节点、边、全局信息)、图间信息迭代,更新特征表示;接着,将语法、顺序张量图降维融合得到全局语义图;最后,将全局语义图作为输入,通过图卷积网络训练获取信息表征,接入softmax层分类,输出待预测文档节点的类别信息,得到最终预测结果。得到最终预测结果。

【技术实现步骤摘要】
一种基于图神经网络的化工制备领域长文本分类方法


[0001]本专利技术属于自然语言处理领域,涉及一种基于图神经网络的化工制备领域长文本分类方法。

技术介绍

[0002]近年来,大数据技术与人工智能技术的突破为传统行业注入了新的增长点,对行业发展、研究、决策的影响日益加深。化工行业是我国第二产业的重要支撑,我国也是公认的化工大国,绝大多数化工品产能已居于世界第一。
[0003]对传统化工行业带来了新的挑战和机遇。一方面,化工行业作为传统碳排放大户减排任务艰巨,但另一方面,化工行业在二氧化碳资源化利用等方面也享有独特优势。因此,化工制备领域的方法选择与路径探究显得尤为关键与紧迫。当前,针对任一化工产品的制备工艺、流程等信息,都可以通过从互联网查找该制品相关专利、查询相关卷宗等方法得到大量的文本数据。将这些文本知识按制备工艺分类变得至关重要。因此,如何将这些海量的数据文本分类,按类别获取到文本进行分析是研究的关键环节。
[0004]对文本分类问题的研究一直是自然语言处理领域的基本问题之一。从浅层的机器学习到深度学习,研究者一直在关注文本的远程相关性。直到BERT (Bidirectional Encoder Representations from Transformers)模型出现,通过大量语料训练双向编码生成与上下文语意相关的词向量,成为文本分类等自然语言处理领域下游任务的重要转折。
[0005]但BERT及其改进的预训练模型仍存在两个重要问题,BERT限定输入文本的长度为512字符,而在化工制备领域的生产工作中存在大量长度超过512字的长文本,这使得语义预训练模型无法推广到长文本分类任务上,而近几年基于 GNN图神经网络文本分类技术的探索可以很好的捕获长文本结构信息;另外, BERT没有中文分词功能,针对每个字进行字嵌入映射到向量空间,而化工制备领域存在大量领域新词,这也会影响BERT的向量嵌入学习。
[0006]因此,本专利技术设计了一种基于图神经网络的化工制备领域长文本分类方法,通过新词发现算法识别化工领域新词实现领域中文分词,通过节点与节点间多源关系融合实现全局图结构构建,通过图卷积神经网络迭代分类特征,全连接层接入softmax实现文本节点分类。以此来解决化工制备领域的长文本分类问题。

技术实现思路

[0007]基于图神经网络在化工制备领域的长文本分类主要包含四个步骤:化工领域新词发现、全局知识图构建、图卷积神经网络获取节点分类信息、输出层。
[0008]本专利技术主要针对化工制备领域长文本分类问题中无法有效获取全局语义特征的问题,提出一种基于图神经网络在化工制备领域的长文本分类方法。该方法,基于多维词语特征融合方法和深度学习方法实现化工领域新词发现,对字典词 Glove向量嵌入、新词图结构嵌入实现全局知识图节点嵌入,构建节点间句法与顺序的张量图,融合节点间关系特
征实现全局知识图边嵌入,构建全局知识图。利用图卷积神经网络获取节点分类信息,最后全连接层接入softmax对文本节点分类,输出分类结果。方法步骤如下:
[0009](1)构建新词词典,利用自定义词典对文本进行专有领域契合地分词。融合词语统计特征和词向量特征,将多维特征作为RNN+CRF模型输入,提取文本新词。
[0010](2)构建多维张量图,将全部文档、分词(包括训练数据、预测数据)作为节点Glove初始化,构建全局语法、顺序张量图表示;
[0011](3)通过图消息传递机制,将图中的节点、边、全局信息传递迭代更新特征表示;
[0012](4)将语法、顺序特征张量图融合得到全局语义图;
[0013](5)图卷积神经网络获取节点分类信息,在全局知识图构建完后,将其作为输入,放入图卷积神经网络训练迭代,获取文档节点分类信息,网络全连接层接入softmax作为输出层,输出待预测文档节点的类别信息,得到最终预测结果。
[0014]附图和附表说明
[0015]图1为本专利技术的整体算法结构图。
[0016]图2为本专利技术的RNN文本词语特征提取示意图。
[0017]图3为本专利技术的语法张量图类别编码对照图。
[0018]图4为本专利技术的图消息传递机制迭代嵌入示意图。
具体实施方式
[0019]下面将结合本专利技术实例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述。
[0020]如图1所示,本专利技术主要针对化工制备领域长文本分类问题,提出基于图神经网络在化工制备领域的长文本分类方法。利用多维特征融合并结合深度学习方法实现化工领域新词发现,对字典词Glove向量嵌入、新词图结构嵌入实现全局知识图节点嵌入,构建节点间句法与顺序的张量图,融合节点间关系特征实现全局知识图边嵌入,构建全局知识图。利用图卷积神经网络获取节点分类信息,利用全连接层接入softmax对文本节点分类。本专利技术利用多元全局语义图构建与卷积图神经网络的方式来解决化工制备领域长文本分类准确度较低的问题。具体实体方式如下:
[0021]步骤一:化工领域新词发现
[0022]为了提高化工领域文本分词的准确率,需要提取出化工领域的新词词典。因为普通的分词工具已有的词典是针对通用领域的,对化工领域专业词汇分词错误率高。因此,提出了一种改进的化工领域文本分词方法,具体过程有如下四步:
[0023]1.1原始语料预处理
[0024]中文语法特点较清晰,因此,将大规模化工领域语料文本按逗号、句号等标点符号进行句子划分,并去除特殊符号,减少噪声字符。提取每个句子中所有字符长度不超过5的文本片段作为新词候选词。
[0025]1.2提取词语特征
[0026]根据统计模型提取词语词频、词长、互信息和上下文信息熵作为特征,再加上词向量以增加词语特征丰富度
[0027]本专利技术采用互信息作为词语特征。互信息是衡量变量间相互依赖的程度,词语互
信息是衡量字符间相互关联的程度。具体如公式(1)所示
[0028][0029]其中p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。
[0030]本专利技术采用上下文信息熵来衡量某一字符片段左右字符的不确定性。信息熵越大,则该字符片段单独成词概率越高。具体如公式(2)所示
[0031]H(X)=


x∈X
p(x)log2p(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0032]其中p(x)是X的概率分布。
[0033]1.3融合词语多维特征
[0034]将多维特征输入RNN+CRF模型,得到文本中化工领域新词词典。
[0035]循环神经网络(Recurrent Neural Network,RNN)相比一般的神经网络来说,能够处理序列变化的数据。应用于新词发现领域,该网络能更好地联系上下文信息提取文本中的新词。如图2所示循环神经网络的隐藏层的值不仅仅取决于当前的输入文本,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的化工制备领域长文本分类方法,其特征在于,包括下列步骤:步骤1:化工领域新词发现步骤2:初始多维张量图构建步骤3:图消息传递特征迭代步骤4:张量图融合构建全局语义图步骤5:图卷积神经网络获取节点分类信息。2.如权利要求1所述方法,其特征在于,步骤1中提出化工领域新词发现的具体方法为:步骤1.1 原始语料预处理中文语法特点较清晰,因此,将大规模化工领域语料文本按逗号、句号等标点符号进行句子划分,并去除特殊符号,减少噪声字符。提取每个句子中所有字符长度不超过5的文本片段作为新词候选词。步骤1.2 提取词语特征根据统计模型提取词语词频、词长、互信息和上下文信息熵作为特征,再加上词向量以增加词语特征丰富度本发明采用互信息作为词语特征。互信息是衡量变量间相互依赖的程度,词语互信息是衡量字符间相互关联的程度。具体如公式(1)所示其中p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。本发明采用上下文信息熵来衡量某一字符片段左右字符的不确定性。信息熵越大,则该字符片段单独成词概率越高。具体如公式(2)所示H(X)=


x∈X
p(x)log2p(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中p(x)是X的概率分布。步骤1.3 融合词语多维特征将多维特征输入RNN+CRF模型,得到文本中化工领域新词词典。循环神经网络(Recurrent Neural Network,RNN)相比一般的神经网络来说,能够处理序列变化的数据。应用于新词发现领域,该网络能更好地联系上下文信息提取文本中的新词。如图1所示循环神经网络的隐藏层的值不仅仅取决于当前的输入文本,还取决于上一次隐藏层的值s。权重矩阵W就是隐藏层上一次的值作为这一次的输入的权重。条件随机场(Conditional Random Fields,以下简称CRF)是马尔科夫随机场的特例。在化工领域新词发现领域中,每个词的标签大概率受到相邻标签的影响。CRF针对新词发现任务,学习相应的标签规则,使最终标签结果在符合当前字符片段的同时,也使整个句子最为合理。步骤1.4 新词词典分词将化工领域新词词典添加到分词工具中,得到化工领域文本分词结果。在分词工具jieba中添加用户自定义词典,分词工具会优先考虑用户词典,提高分词结果在专业领域的适用度。使用优化后的分词方法,得到高准确率的化工领域文本分词结果。3.根据权利要求2所述的基于图神经网络在化工制备领域的长文本分类方法,其特征
在于,所述步骤2中的初始多维张量图构建的方法具体为:步骤2.1 初始化节点嵌入全局图中节点采用某一化工产品制备领域语料库中包括训练集和测试集的所有文档节点、分词节点。其中分词节点采用Glove进行初始化嵌入到向量空间;字典外的化工领域新词节点初始化为0;文档节点按照顺序进行编码。维数d设为300。由此,得到每个节点维数为300的向量空间表示。步骤2.2 多维张量图构建构建全局语法张量图与顺序张量图。语法图与句法图有着相同的节点。其中,文档节点与分词(新词)节点间存在边相同,权重均采用tf

idf词频逆文档频率计算,如公式(3)所示。其中i为文档,j为词语(新词),C
i
表示文档i的总词数,T
ij
表示j在i中出现的次数,CP为语料库中文档总数,CP
j
为语料库中包含词语j的文档数。下来,构建分词(新词)与分词(新词)节点之间的边:G
Syn
语法张量图,对于每个文档首先利用ltp解析器提取单词之间语法依赖关系,将各种关系看作是无向的边。计算整个语料库中具有句法依存关系的每对词的次数定义没对词语(句法图节点)间边的权重如公式(4)所示。其中,A
j1j2
表示词语j1与j2之间边的权重,N
syntactic
(w
j1
,w
j2
)表示两个词在语料库所有文档中具有句法依存关系的次数,N
total
(w
j1
,w
j2
)表示两个词在同一文档中在整个语料库中存在的次数,num代表两个词语间句法依存关系的编码,如图2所示。G...

【专利技术属性】
技术研发人员:周焕来张博阳陈璐唐小龙高源孙靖哲贾海涛王俊
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1