一种基于半监督学习的电网领域实体关系抽取制造技术

技术编号：39055913 阅读：13 留言：0更新日期：2023-10-12 19:49

本发明专利技术提供了一种基于半监督学习的电网领域实体关系抽取，在用于基于Seq2seq的实体关系抽取的基础上，通过对传统的用注意力机制的方法进行关系抽取做改进，加入了半监督学习，能够充分挖掘大规模无标注电力文本中蕴含的实体知识，实现更高效的领域迁移，减少人工语料的标注，缓解自然语言处理NLP研究时由于标注语料工作带来的人工和时间的压力，降低了数据标注工作耗费的人力时间成本；同时我们引入了多粒度掩码预训练语言模型ERNIE应用在实体关系抽取任务上，用于捕获实体级别的语义信息，更有效的挖掘无标注数据中的实体识别知识，提升电力实体识别性能，从而更好完成电网领域实体关系抽取任务。领域实体关系抽取任务。领域实体关系抽取任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督学习的电网领域实体关系抽取

[0001]本专利技术涉及互联网
，尤其涉及一种基于半监督学习的电网领域实体关系抽取。

技术介绍

[0002]当今，在互联网技术飞速发展的时代，网络中的数据也在成指数式的增长，人们也会获取海量的信息，那么如何从海量的电子文档中快速准确的找到自己需要的问题已经成为了十分关键的问题。然而，想要从结构化文本甚至非结构化文本中提取知识，并非易事，它们来源广泛、种类繁多、信息量丰富，但同时又存在着冗余而又未知的问题。为了节约人力成本，并且能更快更准确的抽取文本中有价值的信息，信息抽取任务收到人们广泛关注。信息抽取并不试图全面理解文章的意思，只是从文章的文本中识别并抽取人们感兴趣的信息，并且进行结构化的处理。目前信息抽取的研究方向有很多，包括实体识别，实体关系抽取，事件抽取等。其中，实体关系抽取受到研究者们的广泛关注，并且为其他自然语言处理技术进步有着很关键的作用。
[0003]实体关系抽取是指从一个句子中抽取出关系三元组。若有两个存在着关系的实体，则将两个实体分别成为主体和客体，那么关系抽取就是在非结构或半结构化数据中找出主体与客体之间存在的关系，并将其表示为实体关系三元组，即(主体，关系，客体)。传统的监督式实体关系抽取，是规定实体之间关系类型，并对标注的文本进行训练。然而，针对实际情况中各种领域的新文本，无法只通过前期规定的关系类型对其进行定义。目前已有的数据集存在一个普遍问题是对旧文本数据进行标注，无法满足实体关系抽取对实时性的需求，随着时间地推移，实时性变得愈加重...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的电网领域实体关系抽取，其特征在于，训练中引入多粒度掩码预训练模型(ERNIE)并且加入半监督学习模块，该方法包括：步骤一、将待关系抽取的文本输入到多粒度掩码预训练语言模型ERNIE编码电力文本以捕获实体和短语级别的语义信息，即将每个词输入ERNIE得到每个词的文本编码，由此可以将不常用的词用常用的词进行表示；步骤二、将得到的每个词的文本编码进行跨度枚举。与经典的实体关系分类不同，此方法检测所有文本编码的子序列(即跨度)中的实体。通过不断的枚举跨度，找到可能存在实体编码；步骤三、将实体编码中的任意大小文本编码取出，对取出的所有文本编码做最小池化操作(min
‑
pooling),用最小池化后的文本编码作为实体特征；步骤四、将整个句子所有的token都进行平均池化操作，得到整体句意表示的文本编码，记作cls；步骤五、将文本的编码宽度进行嵌入层(embedding)的构建，用来衡量文本跨度的宽度；步骤六、将最小池化后的文本编码，整个句子的文本编码cls，以及embedding共同输入到宽度分类器(span
‑
classifying)中，通过对其进行softmax操作，计算出每个文本编码宽度对应的得分；步骤七、将不同文本编码宽度所对应的得分输入到宽度筛选器(span
‑
filtering)中判断每个编码宽度构成的是否是实体，从找到的实体中筛选出备选的主体实体和客体实体；步骤八、将主体实体和客体实体中各取出一个主体实体和一个客体实体，组成实体关系对，并将主体实体和客体实体之间的文本编码经过最小池化操作(min
‑
pooling)，表示为关系的文本编码；步骤九、将主体实体的文本编码，关系的文本编码和客体实体的文本编码共同输入到关系分类器(relation
‑
classification)中，算出得分，如果大于置信阈值a，那么则说明主体实体和客体实体存在关系，如果小于置信阈值a，那么则说明主体实体和客体实体不存在关系；步骤十、将无标注文本输入到训练好的初始模型中进行实体识别，生成无标注文本的实体伪标签。最后，将带有伪标签的无标注数据加入训练数据中，通过半监督损失函数调度机制，重新训练得到最终的电力实体识别模型。2.如权利要求1所述的方法，其特征在于，训练中数据全部为有标注的电网文本数据时，将步骤十予以替换，替换如下：步骤十、将所有有标注的电网文本数据进行训练，通过半监督损失函数调度机制，得到最终的模型。3.如权利要求1所述的方法，其特征在于，非训练情况下，中文分词时，将步骤一到步骤十予以替换，替换如下：步骤一、将需要进行实体关系抽取的数据作为模型的输入；步骤二、将需要进行实体关系抽取的数据通过预训练好的多粒度掩码预训练模型(ERNIE)，将电网文本映射为向量表示；步骤三、将向量表示输入到训练好的实体识别器中，找到文本中的实体，包括主体实体
和客体实体；步骤四、将主体实体，文本内容，客体实体输入到训练好的关系分类器中，算出得分，从而判断主体实体和客体实体是否存在关系。4.如权利要求1所述的方法，其特征在于，所述步骤一中，ERNIE模型主要由两...

【专利技术属性】
技术研发人员：刘剑青，赵刚，王凯，宋磊，李思，张锐，王明轩，翟丙旭，孙巍，张沛瑄，高欣，康伟，
申请(专利权)人：国家电网有限公司北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人