一种基于半监督学习的电网领域实体关系抽取制造技术

技术编号:39055913 阅读:13 留言:0更新日期:2023-10-12 19:49
本发明专利技术提供了一种基于半监督学习的电网领域实体关系抽取,在用于基于Seq2seq的实体关系抽取的基础上,通过对传统的用注意力机制的方法进行关系抽取做改进,加入了半监督学习,能够充分挖掘大规模无标注电力文本中蕴含的实体知识,实现更高效的领域迁移,减少人工语料的标注,缓解自然语言处理NLP研究时由于标注语料工作带来的人工和时间的压力,降低了数据标注工作耗费的人力时间成本;同时我们引入了多粒度掩码预训练语言模型ERNIE应用在实体关系抽取任务上,用于捕获实体级别的语义信息,更有效的挖掘无标注数据中的实体识别知识,提升电力实体识别性能,从而更好完成电网领域实体关系抽取任务。领域实体关系抽取任务。领域实体关系抽取任务。

【技术实现步骤摘要】
一种基于半监督学习的电网领域实体关系抽取


[0001]本专利技术涉及互联网
,尤其涉及一种基于半监督学习的电网领域实体关系抽取。

技术介绍

[0002]当今,在互联网技术飞速发展的时代,网络中的数据也在成指数式的增长,人们也会获取海量的信息,那么如何从海量的电子文档中快速准确的找到自己需要的问题已经成为了十分关键的问题。然而,想要从结构化文本甚至非结构化文本中提取知识,并非易事,它们来源广泛、种类繁多、信息量丰富,但同时又存在着冗余而又未知的问题。为了节约人力成本,并且能更快更准确的抽取文本中有价值的信息,信息抽取任务收到人们广泛关注。信息抽取并不试图全面理解文章的意思,只是从文章的文本中识别并抽取人们感兴趣的信息,并且进行结构化的处理。目前信息抽取的研究方向有很多,包括实体识别,实体关系抽取,事件抽取等。其中,实体关系抽取受到研究者们的广泛关注,并且为其他自然语言处理技术进步有着很关键的作用。
[0003]实体关系抽取是指从一个句子中抽取出关系三元组。若有两个存在着关系的实体,则将两个实体分别成为主体和客体,那么关系抽取就是在非结构或半结构化数据中找出主体与客体之间存在的关系,并将其表示为实体关系三元组,即(主体,关系,客体)。传统的监督式实体关系抽取,是规定实体之间关系类型,并对标注的文本进行训练。然而,针对实际情况中各种领域的新文本,无法只通过前期规定的关系类型对其进行定义。目前已有的数据集存在一个普遍问题是对旧文本数据进行标注,无法满足实体关系抽取对实时性的需求,随着时间地推移,实时性变得愈加重要。而电网领域实体关系抽取是指将关系抽取任务应用在电网领域,从而有效的辅助调度人员进行故障处理。
[0004]随着特高压电网和电力系统的快速发展,电网故障形态日趋复杂,故障后的调度处置工作难度也不断提高。传统电力系统调度体系中,实时调度决策主要依赖调度员知识储备、经验积累和应变能力,调度员必须记忆并反复查阅规程、文件、预案等文本,效率低且易出现疏漏,制约了电力系统安全管控能力的进一步提升。在电力实体识别、知识图谱建模等电网多个领域中,现有的深度学习的方法均基于全监督学习(Supervised Learning)范式。在全监督学习中,每一个训练集的数据都是由数据和标签共同构成的,但是一般情况下,只能获取大量的数据,而标签很难得到,并且给数据加上标签需要很多的先验知识,这就花掉了大量的成本,并且全监督的方式只学习到了标注数据的表征,而对于开放域文本的实体关系抽取鲁棒性往往不足。电力系统在不断发展中积累了大量的电网调控文本,其中绝大部分都是无标注数据,仅有一小部分被人工标注成为有标注文本。而以往基于全监督学习的方法在模型训练时仅能利用有标注的文本数据,无法对无标注数据中蕴含的知识加以利用。因此。本文提出了基于半监督学习的电网领域实体关系抽取。
[0005]现有的实体关系抽取,一部分方法是流水线方法,先从文本中抽取全部实体,然后针对实体对判断其之间的关系类别;另一部分方法则是联合抽取方法,通过修改标注方法
和模型结构直接输出文本中包含的三元组。
[0006]如图1所示,现有技术之一的“基于Seq2seq实体关系联合抽取的电力知识图谱构建”文章中,提出了seq2seq半指针半标准的方法对电力规程进行实体关系抽取,并构建了电力的知识图谱:
[0007]首先,三元组(SPO)的抽取采用Seq2seq模型先抽取头实体(S),再抽取关系(P)和尾实体(O),从而提高了实体关系抽取的准确性,并解决了实体关系抽取中的实体边界模糊问题。其次,使用指针网络进行解码。实体(S)的编码器选用预训练好的BERT模型获取编码层的向量,实体(S)的解码器为单层指针解码的网络;实体关系(PO)的编码器也是BERT编码层向量,并且融入了S向量特征,PO的解码器是多层指针网络。文章采用指针网络解码以提高实体抽取的准确性,共享编码层降低了串联抽取方法误差积累问题。最后,文章中使用了查询匹配系数法,优化了实体关系抽取中三元组数据集的筛选和排序,以便用户以直观的易用的方式对数据进行查询和浏览,并且提高了电力知识图谱中的查准率和查全率。
[0008]如图2所示,现有技术之二的“Attention

Based Bidirectional LongShort

Term Memory Networks for Relation Classification”文章中,提出了一种自顶向下与自底向上相结合的知识图谱构建方法,并针对预案文本的特点提出了一套基于深度学习的电力领域知识抽取方法:
[0009]首先,针对通用领域的分词工具不能很好地对预案文本进行分词的情况,构建了基于字向量的TextCNN模型,避免了分词错误带来的影响,实现了预案文本高准确率的自动分类;其次,针对预案文本实体成分复杂和实体边界难以界定的情况,构建了LSTM模型进行命名实体识别,利用高层CNN的字词信息对低层CNN的候选词的权重进行调整,提高了模型识别的准确率;最后,在命名实体识别结果的基础上,构建Attention模型进行关系的抽取,将预案文本转化为三元组信息。其中Attention如下表示:
[0010]M=tanh(H) 式(2

1)
[0011]其中H=[h1,h2,

h
T
]为LSTM的输出向量,T是句子长度。tanh为双曲正切非线性函数。
[0012]a=softmax(w
T
M)
ꢀꢀ
式(2

2)
[0013]其中a的维度是T。M为权重矩阵,为待训练的矩阵参数。Softmax是一种激活函数,它可以将一个数值向量归一化为一个概率分布向量,且各个概率之和为1。
[0014]r=Ha
T
ꢀꢀ
式(2

3)
[0015]其中r的维度是d,r为LSTM输出H经过加权求和后的结果。
[0016]专利技术人在研究的过程中发现:对于“基于Seq2seq实体关系联合抽取的电力知识图谱构建”、“Attention

Based Bidirectional Long Short

TermMemory Networks for Relation Classification”现有技术中:
[0017]1、序列标注方式采用BIO的标注方式,即将每个元素标注为“B

X”、“I

X”或者“O”,分别代表名词短语的开头位置,名词短语的中间位置,非名词短语,由于BIO按文本顺序进行标注,所以可能会导致重叠实体标注不正确的问题;
[0018]2、采用基于全监督学习的实体关系抽取,需要领域专家预先制定详细的词典和匹配规则,并以此去匹配电力文本中的实体,这种方法的人工成本很高,灵活性较差;
[0019]由于上述技术问题导致于现有技术中存在以下缺点:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的电网领域实体关系抽取,其特征在于,训练中引入多粒度掩码预训练模型(ERNIE)并且加入半监督学习模块,该方法包括:步骤一、将待关系抽取的文本输入到多粒度掩码预训练语言模型ERNIE编码电力文本以捕获实体和短语级别的语义信息,即将每个词输入ERNIE得到每个词的文本编码,由此可以将不常用的词用常用的词进行表示;步骤二、将得到的每个词的文本编码进行跨度枚举。与经典的实体关系分类不同,此方法检测所有文本编码的子序列(即跨度)中的实体。通过不断的枚举跨度,找到可能存在实体编码;步骤三、将实体编码中的任意大小文本编码取出,对取出的所有文本编码做最小池化操作(min

pooling),用最小池化后的文本编码作为实体特征;步骤四、将整个句子所有的token都进行平均池化操作,得到整体句意表示的文本编码,记作cls;步骤五、将文本的编码宽度进行嵌入层(embedding)的构建,用来衡量文本跨度的宽度;步骤六、将最小池化后的文本编码,整个句子的文本编码cls,以及embedding共同输入到宽度分类器(span

classifying)中,通过对其进行softmax操作,计算出每个文本编码宽度对应的得分;步骤七、将不同文本编码宽度所对应的得分输入到宽度筛选器(span

filtering)中判断每个编码宽度构成的是否是实体,从找到的实体中筛选出备选的主体实体和客体实体;步骤八、将主体实体和客体实体中各取出一个主体实体和一个客体实体,组成实体关系对,并将主体实体和客体实体之间的文本编码经过最小池化操作(min

pooling),表示为关系的文本编码;步骤九、将主体实体的文本编码,关系的文本编码和客体实体的文本编码共同输入到关系分类器(relation

classification)中,算出得分,如果大于置信阈值a,那么则说明主体实体和客体实体存在关系,如果小于置信阈值a,那么则说明主体实体和客体实体不存在关系;步骤十、将无标注文本输入到训练好的初始模型中进行实体识别,生成无标注文本的实体伪标签。最后,将带有伪标签的无标注数据加入训练数据中,通过半监督损失函数调度机制,重新训练得到最终的电力实体识别模型。2.如权利要求1所述的方法,其特征在于,训练中数据全部为有标注的电网文本数据时,将步骤十予以替换,替换如下:步骤十、将所有有标注的电网文本数据进行训练,通过半监督损失函数调度机制,得到最终的模型。3.如权利要求1所述的方法,其特征在于,非训练情况下,中文分词时,将步骤一到步骤十予以替换,替换如下:步骤一、将需要进行实体关系抽取的数据作为模型的输入;步骤二、将需要进行实体关系抽取的数据通过预训练好的多粒度掩码预训练模型(ERNIE),将电网文本映射为向量表示;步骤三、将向量表示输入到训练好的实体识别器中,找到文本中的实体,包括主体实体
和客体实体;步骤四、将主体实体,文本内容,客体实体输入到训练好的关系分类器中,算出得分,从而判断主体实体和客体实体是否存在关系。4.如权利要求1所述的方法,其特征在于,所述步骤一中,ERNIE模型主要由两...

【专利技术属性】
技术研发人员:刘剑青赵刚王凯宋磊李思张锐王明轩翟丙旭孙巍张沛瑄高欣康伟
申请(专利权)人:国家电网有限公司北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1