【技术实现步骤摘要】
一种基于图神经网络的化工制备领域长文本分类方法
[0001]本专利技术属于自然语言处理领域,涉及一种基于图神经网络的化工制备领域长文本分类方法。
技术介绍
[0002]近年来,大数据技术与人工智能技术的突破为传统行业注入了新的增长点,对行业发展、研究、决策的影响日益加深。化工行业是我国第二产业的重要支撑,我国也是公认的化工大国,绝大多数化工品产能已居于世界第一。
[0003]对传统化工行业带来了新的挑战和机遇。一方面,化工行业作为传统碳排放大户减排任务艰巨,但另一方面,化工行业在二氧化碳资源化利用等方面也享有独特优势。因此,化工制备领域的方法选择与路径探究显得尤为关键与紧迫。当前,针对任一化工产品的制备工艺、流程等信息,都可以通过从互联网查找该制品相关专利、查询相关卷宗等方法得到大量的文本数据。将这些文本知识按制备工艺分类变得至关重要。因此,如何将这些海量的数据文本分类,按类别获取到文本进行分析是研究的关键环节。
[0004]对文本分类问题的研究一直是自然语言处理领域的基本问题之一。从浅层的机器学习到深度学习,研究者一直在关注文本的远程相关性。直到BERT (Bidirectional Encoder Representations from Transformers)模型出现,通过大量语料训练双向编码生成与上下文语意相关的词向量,成为文本分类等自然语言处理领域下游任务的重要转折。
[0005]但BERT及其改进的预训练模型仍存在两个重要问题,BERT限定输入文本的长度为512字符,而在化工制 ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络的化工制备领域长文本分类方法,其特征在于,包括下列步骤:步骤1:化工领域新词发现步骤2:初始多维张量图构建步骤3:图消息传递特征迭代步骤4:张量图融合构建全局语义图步骤5:图卷积神经网络获取节点分类信息。2.如权利要求1所述方法,其特征在于,步骤1中提出化工领域新词发现的具体方法为:步骤1.1 原始语料预处理中文语法特点较清晰,因此,将大规模化工领域语料文本按逗号、句号等标点符号进行句子划分,并去除特殊符号,减少噪声字符。提取每个句子中所有字符长度不超过5的文本片段作为新词候选词。步骤1.2 提取词语特征根据统计模型提取词语词频、词长、互信息和上下文信息熵作为特征,再加上词向量以增加词语特征丰富度本发明采用互信息作为词语特征。互信息是衡量变量间相互依赖的程度,词语互信息是衡量字符间相互关联的程度。具体如公式(1)所示其中p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。本发明采用上下文信息熵来衡量某一字符片段左右字符的不确定性。信息熵越大,则该字符片段单独成词概率越高。具体如公式(2)所示H(X)=
‑
∑
x∈X
p(x)log2p(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中p(x)是X的概率分布。步骤1.3 融合词语多维特征将多维特征输入RNN+CRF模型,得到文本中化工领域新词词典。循环神经网络(Recurrent Neural Network,RNN)相比一般的神经网络来说,能够处理序列变化的数据。应用于新词发现领域,该网络能更好地联系上下文信息提取文本中的新词。如图1所示循环神经网络的隐藏层的值不仅仅取决于当前的输入文本,还取决于上一次隐藏层的值s。权重矩阵W就是隐藏层上一次的值作为这一次的输入的权重。条件随机场(Conditional Random Fields,以下简称CRF)是马尔科夫随机场的特例。在化工领域新词发现领域中,每个词的标签大概率受到相邻标签的影响。CRF针对新词发现任务,学习相应的标签规则,使最终标签结果在符合当前字符片段的同时,也使整个句子最为合理。步骤1.4 新词词典分词将化工领域新词词典添加到分词工具中,得到化工领域文本分词结果。在分词工具jieba中添加用户自定义词典,分词工具会优先考虑用户词典,提高分词结果在专业领域的适用度。使用优化后的分词方法,得到高准确率的化工领域文本分词结果。3.根据权利要求2所述的基于图神经网络在化工制备领域的长文本分类方法,其特征
在于,所述步骤2中的初始多维张量图构建的方法具体为:步骤2.1 初始化节点嵌入全局图中节点采用某一化工产品制备领域语料库中包括训练集和测试集的所有文档节点、分词节点。其中分词节点采用Glove进行初始化嵌入到向量空间;字典外的化工领域新词节点初始化为0;文档节点按照顺序进行编码。维数d设为300。由此,得到每个节点维数为300的向量空间表示。步骤2.2 多维张量图构建构建全局语法张量图与顺序张量图。语法图与句法图有着相同的节点。其中,文档节点与分词(新词)节点间存在边相同,权重均采用tf
‑
idf词频逆文档频率计算,如公式(3)所示。其中i为文档,j为词语(新词),C
i
表示文档i的总词数,T
ij
表示j在i中出现的次数,CP为语料库中文档总数,CP
j
为语料库中包含词语j的文档数。下来,构建分词(新词)与分词(新词)节点之间的边:G
Syn
语法张量图,对于每个文档首先利用ltp解析器提取单词之间语法依赖关系,将各种关系看作是无向的边。计算整个语料库中具有句法依存关系的每对词的次数定义没对词语(句法图节点)间边的权重如公式(4)所示。其中,A
j1j2
表示词语j1与j2之间边的权重,N
syntactic
(w
j1
,w
j2
)表示两个词在语料库所有文档中具有句法依存关系的次数,N
total
(w
j1
,w
j2
)表示两个词在同一文档中在整个语料库中存在的次数,num代表两个词语间句法依存关系的编码,如图2所示。G...
【专利技术属性】
技术研发人员:周焕来,张博阳,陈璐,唐小龙,高源,孙靖哲,贾海涛,王俊,
申请(专利权)人:一拓通信集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。