联合预训练和图神经网络的政策文本标注方法及系统技术方案

技术编号:35702547 阅读:20 留言:0更新日期:2022-11-23 14:57
本发明专利技术公开了联合预训练和图神经网络的政策文本标注方法及系统;其中所述方法包括:获取待标注的政策文本,对待标注的政策文本进行预处理;对预处理后的政策文本输入到训练后的政策文本标注模型中,输出政策文本的标注结果;其中,训练后的政策文本标注模型,其工作原理包括:对于处理后的政策文本提取单词向量和句子向量;基于预处理后的政策文本构建文本级图结构,获取文本级图结构对应的邻接矩阵;基于单词向量和句子向量,提取出政策文本的语义特征;基于单词向量和邻接矩阵,提取出政策文本的结构特征;基于语义特征和结构特征,确定政策文本标注结果。政策文本标注结果。政策文本标注结果。

【技术实现步骤摘要】
联合预训练和图神经网络的政策文本标注方法及系统


[0001]本专利技术涉及数据处理
,特别是涉及联合预训练和图神经网络的政策文本标注方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]当前政策文本信息具有结构复杂多样,存在长短不一、信息密度大、分类体系不统一等特点。目前政策文本标注主要是依赖主观人工标注,其缺点是在某些没有明确标注标准的问题上,会根据不同的主观因素做出不同的判断,还有一个方法就是使用深度学习里的单一模型,但它对政策文本的信息表示不足,无法结合政策文本的结构信息和语义上下文信息,限制了政策文本分类的准确性。因此,如何从政策文本的语义表达完整性与准确性角度对政策文本信息进行分析、标注成为解决政策文本精确标注的关键。

技术实现思路

[0004]为了解决现有技术的不足,本专利技术提供了联合预训练和图神经网络的政策文本标注方法及系统。本专利技术综合利用了政策文本的结构信息和语义信息,其中图神经网络用于获取文本的结构性信息,预训练语言模型则侧重于获取文本的语义信息,从而能够更好地对政策文件的基本信息进行提取、分类和标注,更准确地为企业所有者获取跟本企业有关的政策信息,解决了人工标注的主观性和现有标注系统标注算法模型单一,标注准确性不稳定问题。
[0005]第一方面,本专利技术提供了联合预训练和图神经网络的政策文本标注方法;
[0006]联合预训练和图神经网络的政策文本标注方法,包括:
[0007]获取待标注的政策文本,对待标注的政策文本进行预处理;
[0008]对预处理后的政策文本输入到训练后的政策文本标注模型中,输出政策文本的标注结果;
[0009]其中,训练后的政策文本标注模型,其工作原理包括:对于处理后的政策文本提取单词向量和句子向量;基于预处理后的政策文本构建文本级图结构,获取文本级图结构对应的邻接矩阵;基于单词向量和句子向量,提取出政策文本的语义特征;基于单词向量和邻接矩阵,提取出政策文本的结构特征;基于语义特征和结构特征,确定政策文本标注结果。
[0010]第二方面,本专利技术提供了联合预训练和图神经网络的政策文本标注系统;
[0011]联合预训练和图神经网络的政策文本标注系统,包括:
[0012]获取模块,其被配置为:获取待标注的政策文本,对待标注的政策文本进行预处理;
[0013]标注模块,其被配置为:对预处理后的政策文本输入到训练后的政策文本标注模型中,输出政策文本的标注结果;
[0014]其中,训练后的政策文本标注模型,其工作原理包括:对于处理后的政策文本提取
单词向量和句子向量;基于预处理后的政策文本构建文本级图结构,获取文本级图结构对应的邻接矩阵;基于单词向量和句子向量,提取出政策文本的语义特征;基于单词向量和邻接矩阵,提取出政策文本的结构特征;基于语义特征和结构特征,确定政策文本标注结果。
[0015]第三方面,本专利技术还提供了一种电子设备,包括:
[0016]存储器,用于非暂时性存储计算机可读指令;以及
[0017]处理器,用于运行所述计算机可读指令,
[0018]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0019]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0020]第五方面,本专利技术还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022](1)本专利技术使用可学习的方式联合训练了预训练语言模型和图卷积网络,同时学习文本的结构性信息和语义信息;其中,图神经网络用于获取文本的结构性信息,预训练语言模型则重点关注获取文本的语义信息,然后再将图神经网络和预训练的结果通过融合运算进行输出。
[0023](2)本专利技术仅使用单词为每个政策文本构造同构图,可以同时在预训练语言模型和图卷积网络上进行小批量归纳训练,减少了系统资源的占用,并且可以做到对新词以及新文本的归纳;
[0024](3)使用可学习的方式联合训练了预训练语言模型和图卷积网络,同时学习文本的结构性信息和语义信息,同时为每个文本构建一张同构图,可以同时在预训练语言模型和图卷积网络上进行小批量归纳训练,减少了系统资源的占用,并且可以做到对新词以及新文本的归纳;
[0025](4)大大降低人工对政策分类标注的成本,同时也避免过多计算资源的浪费,本专利技术标注方法相较于人工标准更精准、高效,不会因为文本信息量过大而导致标注准确率降低,也避免了使用人工标注的个人主观性不同而造成对政策文件标注的误差。
附图说明
[0026]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0027]图1是本专利技术实施例一模型方法的流程图;
[0028]图2为本专利技术实施例一的模型结构图;
[0029]图3为本专利技术实施例一中特征联合输出层结构图;
[0030]图4为本专利技术实施例一中图神经网络层结构图。
具体实施方式
[0031]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0032]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0033]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0034]本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
[0035]实施例一
[0036]本实施例提供了联合预训练和图神经网络的政策文本标注方法;
[0037]如图1所示,联合预训练和图神经网络的政策文本标注方法,包括:
[0038]S101:获取待标注的政策文本,对待标注的政策文本进行预处理;
[0039]S102:对预处理后的政策文本输入到训练后的政策文本标注模型中,输出政策文本的标注结果;
[0040]其中,训练后的政策文本标注模型,其工作原理包括:
[0041]对于处理后的政策文本提取单词向量和句子向量;
[0042本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.联合预训练和图神经网络的政策文本标注方法,其特征是,包括:获取待标注的政策文本,对待标注的政策文本进行预处理;对预处理后的政策文本输入到训练后的政策文本标注模型中,输出政策文本的标注结果;其中,训练后的政策文本标注模型,其工作原理包括:对于处理后的政策文本提取单词向量和句子向量;基于预处理后的政策文本构建文本级图结构,获取文本级图结构对应的邻接矩阵;基于单词向量和句子向量,提取出政策文本的语义特征;基于单词向量和邻接矩阵,提取出政策文本的结构特征;基于语义特征和结构特征,确定政策文本标注结果。2.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法,其特征是,所述训练后的政策文本标注模型,其模型结构包括:第一预训练语言模型和文本级图构建层;第一预训练语言模型的输入端和文本级图构建层的输入端,均用于输入预处理后的政策文本;所述第一预训练语言模型的输出为第1、5、9、12隐藏层的词向量;所述文本级图构建的输出端为单个政策文本的图结构所表示的邻接矩阵;第一预训练语言模型的输出端与第二预训练语言模型的输入端连接,第二预训练语言模型的输出端与全连接层的输入端连接,全连接层的输出端与第一sigmoid激活函数层的输入端连接,第一sigmoid激活函数层的输出端与联合输出层的输入端连接;文本级图构建层的输出端和第一预训练语言模型的输出端均与图神经网络层的输入端连接;图神经网络层的输出端与最大池化层的输入端连接,最大池化层的输出端与sigmoid激活函数层的输入端连接,第二sigmoid激活函数层的输出端与联合输出层的输入端连接;联合输出层的输出端用于输出政策文本标注结果。3.如权利要求2所述的联合预训练和图神经网络的政策文本标注方法,其特征是,所述文本级图构建层,是对政策文本的分词结果采用滑动窗口进行滑动,滑动窗口的长度为N个词汇,滑动窗口的滑动步长为M个词汇;N和M均为正整数;将每个词汇视为节点,根据滑动窗口的内容,计算窗口内任意两个节点之间的权重,当权重为正值时,将两个节点之间设置连接边,当权重为零或负值时,不设置连接边,滑动结束后,得到构建的文本级图结构,根据文本级图结构得到对应的邻接矩阵。4.如权利要求2所述的联合预训练和图神经网络的政策文本标注方法,其特征是,所述图神经网络层,包括依次串联的第一图神经网络GCN子层和第二图神经网络GCN子层,其中第一图神经网络GCN子层的输入端分别与文本级图构建层的输出端和第一预训练语言模型的输出端连接;其中,第二图神经网络GCN子层的输出端与最大池化层的输入端连接。5.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法,其特征是,获取待标注的政策文本,对待标注的政策文本进行预处理,具体包括:采用正则表达式,去除待标注政策文本中的HTML标签和非文本内容;对待标注政策文本进行分词处理;对分词后的词汇,去除停用词。6.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法,其特征是,所述...

【专利技术属性】
技术研发人员:刘祥志薛许强吴晓明侯冬冬于洋李胜男张建强张鹏汪付强郝秋赟马晓凤
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1