一种基于BERT的中文关系抽取方法及系统技术方案

技术编号：31894717 阅读：12 留言：0更新日期：2022-01-15 12:24

本发明专利技术公开了一种基于BERT的中文关系抽取方法及系统，包括以下步骤，处理模块下载中文语料并进行处理，得到词序列；深度学习模块构建神经网络模型；训练模块对所述神经网络模型进行训练；使用训练后的神经网络模型进行关系抽取。本发明专利技术的有益效果：使用本发明专利技术提供的关系抽取方法，不需要构建特征工程，能够有效地减少噪声的影响，提高抽取的准确性，最终得到较高质量的特征，并提高关系抽取的性能。并提高关系抽取的性能。并提高关系抽取的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT的中文关系抽取方法及系统

[0001]本专利技术涉及自然语言处理的
，尤其涉及一种基于BERT的中文关系抽取方法及系统。

技术介绍

[0002]信息抽取是指从海量的非结构化文本中抽取出有意义的信息，并且结构化下游工作可用的形式，在现代互联网时代，信息抽取在自然语言处理中是十分重要的工作，能够便于检查和比较。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析，至于哪些信息是相关的，将由系统设计时定下的领域范围而定。信息抽取中包括关系抽取，关系抽取解决了原始文本数据中的关系分类问题，它是构建知识库的的重要前提。关系抽取不仅仅要抽取出实体，还需刻画实体间的关系，例如李白是《侠客行》的作者，那么李白和《侠客行》两个实体间的关系就是“创作”关系。
[0003]早期的关系抽取依赖于机器学习算法，需要构建特征工程。近年来，在实体关系抽取领域的方法主要分为三类：基于特征的方法；基于传统机器学习的方法，例如SVM；以及基于深度学习的方法。其中，基于特征的方法主要依赖的是词汇特征，句法特征以及语义特征。之后将特征和相关方法，例如最大熵模型结合进行关系的分类。显而易见，此类方法依赖于大量的特征工程，十分耗费人力和精力。基于传统机器学习的方法以核函数为主。基于核函数的方法利用了本身文本的结构信息，节省了构建大量特征的工作。但是由于结构信息中隐含着大量噪声，同时又面对这形同语义的复杂表达，因此核函数的性能受到了极大的影响。基于深度学习方法目前是关系抽取的重要研究方向，因为深度学习的优势在

【技术保护点】

【技术特征摘要】
1.一种基于BERT的中文关系抽取方法，其特征在于：包括以下步骤，处理模块(100)下载中文语料并进行处理，得到词序列；深度学习模块(200)构建神经网络模型；训练模块(300)对所述神经网络模型进行训练；使用训练后的神经网络模型进行关系抽取。2.如权利要求1所述的基于BERT的中文关系抽取方法，其特征在于：所述中文语料包括，为sougou新闻语料，是可公开下载的内容。3.如权利要求2所述的基于BERT的中文关系抽取方法，其特征在于：所述处理模块(100)进行处理得到词序列包括，使用LTP
‑
Could对语句进行分析从而得到最短依存路径、词性标记、实体的类别以及语法关系。4.如权利要求3所述的基于BERT的中文关系抽取方法，其特征在于：所述词序列包括，表示为(w_0,w_1,
…
,w_n),其中每一个w表示为[Word,POS,NR,GR]。5.如权利要求1～4任一所述的基于BERT的中文关系抽取方法，其特征在于：所述神经网络模型包括，BERT模型、BILSTM模型、CNN层、MAX
‑
pooling层和softmax层，所述BERT模型提取语句的词向量，所述BILSTM模型将提取的所述词向量进行向前、向后的向量编码，编码完成后通过所述CNN层进行卷积操作，卷积完成后通过所述MAX
‑

【专利技术属性】
技术研发人员：李成广，
申请(专利权)人：的卢技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人