联合预训练和图神经网络的政策文本标注方法及系统技术方案

技术编号：35702547 阅读：20 留言：0更新日期：2022-11-23 14:57

本发明专利技术公开了联合预训练和图神经网络的政策文本标注方法及系统；其中所述方法包括：获取待标注的政策文本，对待标注的政策文本进行预处理；对预处理后的政策文本输入到训练后的政策文本标注模型中，输出政策文本的标注结果；其中，训练后的政策文本标注模型，其工作原理包括：对于处理后的政策文本提取单词向量和句子向量；基于预处理后的政策文本构建文本级图结构，获取文本级图结构对应的邻接矩阵；基于单词向量和句子向量，提取出政策文本的语义特征；基于单词向量和邻接矩阵，提取出政策文本的结构特征；基于语义特征和结构特征，确定政策文本标注结果。政策文本标注结果。政策文本标注结果。

全部详细技术资料下载

【技术实现步骤摘要】
联合预训练和图神经网络的政策文本标注方法及系统

[0001]本专利技术涉及数据处理
，特别是涉及联合预训练和图神经网络的政策文本标注方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。
[0003]当前政策文本信息具有结构复杂多样，存在长短不一、信息密度大、分类体系不统一等特点。目前政策文本标注主要是依赖主观人工标注，其缺点是在某些没有明确标注标准的问题上，会根据不同的主观因素做出不同的判断，还有一个方法就是使用深度学习里的单一模型，但它对政策文本的信息表示不足，无法结合政策文本的结构信息和语义上下文信息，限制了政策文本分类的准确性。因此，如何从政策文本的语义表达完整性与准确性角度对政策文本信息进行分析、标注成为解决政策文本精确标注的关键。

技术实现思路

[0004]为了解决现有技术的不足，本专利技术提供了联合预训练和图神经网络的政策文本标注方法及系统。本专利技术综合利用了政策文本的结构信息和语义信息，其中图神经网络用于获取文本的结构性信息，预训练语言模型则侧重于获取文本的语义信息，从而能够更好地对政策文件的基本信息进行提取、分类和标注，更准确地为企业所有者获取跟本企业有关的政策信息，解决了人工标注的主观性和现有标注系统标注算法模型单一，标注准确性不稳定问题。
[0005]第一方面，本专利技术提供了联合预训练和图神经网络的政策文本标注方法；
[0006]联合预训练和图神经网络的政策文本标注方法，包括：
[0...

【技术保护点】

【技术特征摘要】
1.联合预训练和图神经网络的政策文本标注方法，其特征是，包括：获取待标注的政策文本，对待标注的政策文本进行预处理；对预处理后的政策文本输入到训练后的政策文本标注模型中，输出政策文本的标注结果；其中，训练后的政策文本标注模型，其工作原理包括：对于处理后的政策文本提取单词向量和句子向量；基于预处理后的政策文本构建文本级图结构，获取文本级图结构对应的邻接矩阵；基于单词向量和句子向量，提取出政策文本的语义特征；基于单词向量和邻接矩阵，提取出政策文本的结构特征；基于语义特征和结构特征，确定政策文本标注结果。2.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法，其特征是，所述训练后的政策文本标注模型，其模型结构包括：第一预训练语言模型和文本级图构建层；第一预训练语言模型的输入端和文本级图构建层的输入端，均用于输入预处理后的政策文本；所述第一预训练语言模型的输出为第1、5、9、12隐藏层的词向量；所述文本级图构建的输出端为单个政策文本的图结构所表示的邻接矩阵；第一预训练语言模型的输出端与第二预训练语言模型的输入端连接，第二预训练语言模型的输出端与全连接层的输入端连接，全连接层的输出端与第一sigmoid激活函数层的输入端连接，第一sigmoid激活函数层的输出端与联合输出层的输入端连接；文本级图构建层的输出端和第一预训练语言模型的输出端均与图神经网络层的输入端连接；图神经网络层的输出端与最大池化层的输入端连接，最大池化层的输出端与sigmoid激活函数层的输入端连接，第二sigmoid激活函数层的输出端与联合输出层的输入端连接；联合输出层的输出端用于输出政策文本标注结果。3.如权利要求2所述的联合预训练和图神经网络的政策文本标注方法，其特征是，所述文本级图构建层，是对政策文本的分词结果采用滑动窗口进行滑动，滑动窗口的长度为N个词汇，滑动窗口的滑动步长为M个词汇；N和M均为正整数；将每个词汇视为节点，根据滑动窗口的内容，计算窗口内任意两个节点之间的权重，当权重为正值时，将两个节点之间设置连接边，当权重为零或负值时，不设置连接边，滑动结束后，得到构建的文本级图结构，根据文本级图结构得到对应的邻接矩阵。4.如权利要求2所述的联合预训练和图神经网络的政策文本标注方法，其特征是，所述图神经网络层，包括依次串联的第一图神经网络GCN子层和第二图神经网络GCN子层，其中第一图神经网络GCN子层的输入端分别与文本级图构建层的输出端和第一预训练语言模型的输出端连接；其中，第二图神经网络GCN子层的输出端与最大池化层的输入端连接。5.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法，其特征是，获取待标注的政策文本，对待标注的政策文本进行预处理，具体包括：采用正则表达式，去除待标注政策文本中的HTML标签和非文本内容；对待标注政策文本进行分词处理；对分词后的词汇，去除停用词。6.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法，其特征是，所述...

【专利技术属性】
技术研发人员：刘祥志，薛许强，吴晓明，侯冬冬，于洋，李胜男，张建强，张鹏，汪付强，郝秋赟，马晓凤，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人