一种基于BERT的中文关系抽取方法及系统技术方案

技术编号:31894717 阅读:12 留言:0更新日期:2022-01-15 12:24
本发明专利技术公开了一种基于BERT的中文关系抽取方法及系统,包括以下步骤,处理模块下载中文语料并进行处理,得到词序列;深度学习模块构建神经网络模型;训练模块对所述神经网络模型进行训练;使用训练后的神经网络模型进行关系抽取。本发明专利技术的有益效果:使用本发明专利技术提供的关系抽取方法,不需要构建特征工程,能够有效地减少噪声的影响,提高抽取的准确性,最终得到较高质量的特征,并提高关系抽取的性能。并提高关系抽取的性能。并提高关系抽取的性能。

【技术实现步骤摘要】
一种基于BERT的中文关系抽取方法及系统


[0001]本专利技术涉及自然语言处理的
,尤其涉及一种基于BERT的中文关系抽取方法及系统。

技术介绍

[0002]信息抽取是指从海量的非结构化文本中抽取出有意义的信息,并且结构化下游工作可用的形式,在现代互联网时代,信息抽取在自然语言处理中是十分重要的工作,能够便于检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析,至于哪些信息是相关的,将由系统设计时定下的领域范围而定。信息抽取中包括关系抽取,关系抽取解决了原始文本数据中的关系分类问题,它是构建知识库的的重要前提。关系抽取不仅仅要抽取出实体,还需刻画实体间的关系,例如李白是《侠客行》的作者,那么李白和《侠客行》两个实体间的关系就是“创作”关系。
[0003]早期的关系抽取依赖于机器学习算法,需要构建特征工程。近年来,在实体关系抽取领域的方法主要分为三类:基于特征的方法;基于传统机器学习的方法,例如SVM;以及基于深度学习的方法。其中,基于特征的方法主要依赖的是词汇特征,句法特征以及语义特征。之后将特征和相关方法,例如最大熵模型结合进行关系的分类。显而易见,此类方法依赖于大量的特征工程,十分耗费人力和精力。基于传统机器学习的方法以核函数为主。基于核函数的方法利用了本身文本的结构信息,节省了构建大量特征的工作。但是由于结构信息中隐含着大量噪声,同时又面对这形同语义的复杂表达,因此核函数的性能受到了极大的影响。基于深度学习方法目前是关系抽取的重要研究方向,因为深度学习的优势在于良好的特征抽取的能力,但表征能力还不够强大,抽取的准确性和抽取性能还有待提高。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述现有存在的问题,提出了本专利技术。
[0006]因此,本专利技术解决的一个技术问题是:提供一种基于BERT的中文关系抽取方法,提高关系抽取的准确率和召回率。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:一种基于BERT的中文关系抽取方法,包括以下步骤,处理模块下载中文语料并进行处理,得到词序列;深度学习模块构建神经网络模型;训练模块对所述神经网络模型进行训练;使用训练后的神经网络模型进行关系抽取。
[0008]作为本专利技术所述的基于BERT的中文关系抽取方法的一种优选方案,其中:所述中文语料为sougou新闻语料。
[0009]作为本专利技术所述的基于BERT的中文关系抽取方法的一种优选方案,其中:所述处
理模块使用LTP

Could对语句进行分析从而得到最短依存路径、词性标记、实体的类别以及语法关系。
[0010]作为本专利技术所述的基于BERT的中文关系抽取方法的一种优选方案,其中:所述词序列表示为,其中每一个w表示为[Word,POS,NR,GR]。
[0011]作为本专利技术所述的基于BERT的中文关系抽取方法的一种优选方案,其中:所述神经网络模型包括,BERT模型、BILSTM模型、CNN层、MAX

pooling层和softmax层,所述BERT模型提取语句的词向量,所述BILSTM模型将提取的所述词向量进行向前、向后的向量编码,编码完成后通过所述CNN层进行卷积操作,卷积完成后通过所述MAX

pooling层减少其数目特征,最终利益所述softmax层进行分类操作,若所述分类结果存在误差,则将编码重新返回至卷积层进行训练,直至输出结果与上一次训练结果没有差别。
[0012]作为本专利技术所述的基于BERT的中文关系抽取方法的一种优选方案,其中:所述softmax层进行分类操作包括,所述softmax层所得结果为系统的输出值,将词特征信息转化为节点概率值,所得的结果如下所示:
[0013][0014]其中:F
i
为softmax层输出值,为中的某个神经节点,j为神经元个数,为各个神经元即特征向量,ε为特征项数。
[0015]作为本专利技术所述的基于BERT的中文关系抽取方法的一种优选方案,其中:所述训练还包括以下步骤,将词序列输入神经网络模型中;根据神经网络模型的输出计算准确率;当准确率不再提高时,输出训练后的神经网络模型。
[0016]作为本专利技术所述的基于BERT的中文关系抽取方法的一种优选方案,其中:所述训练后的神经网络模型进行关系抽取后输出的结果为实体名称和实体间的关系。
[0017]本专利技术解决的另一个技术问题是:提供一种基于BERT的中文关系抽取系统,使得上述方法能够依托于该系统实现。
[0018]为解决上述技术问题,本专利技术提供如下技术方案:一种基于BERT的中文关系抽取系统,包括,处理模块能够下载中文语料并对其进行处理;深度学习模块连接于所述处理模块,用于构建神经网络模型;训练模块对所述深度学习模块构建的神经网络模型进行训练并输出训练后的神经网络模型,将其投入实际使用中。
[0019]本专利技术的有益效果:本专利技术提供的关系抽取方法,不需要构建特征工程,能够有效地减少噪声的影响,提高抽取的准确性,最终得到较高质量的特征,并提高关系抽取的性能。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0021]图1为本专利技术第一种实施例所述基于BERT的中文关系抽取方法的整体流程结构示
意图;
[0022]图2为本专利技术第一种实施例所述神经网络模型的结构示意图;
[0023]图3为本专利技术第二种实施例所述基于BERT的中文关系抽取系统的整体结构示意图。
具体实施方式
[0024]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明,显然所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护的范围。
[0025]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。
[0026]其次,此处所称的“一个实施例”或“实施例”是指可包含于本专利技术至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的中文关系抽取方法,其特征在于:包括以下步骤,处理模块(100)下载中文语料并进行处理,得到词序列;深度学习模块(200)构建神经网络模型;训练模块(300)对所述神经网络模型进行训练;使用训练后的神经网络模型进行关系抽取。2.如权利要求1所述的基于BERT的中文关系抽取方法,其特征在于:所述中文语料包括,为sougou新闻语料,是可公开下载的内容。3.如权利要求2所述的基于BERT的中文关系抽取方法,其特征在于:所述处理模块(100)进行处理得到词序列包括,使用LTP

Could对语句进行分析从而得到最短依存路径、词性标记、实体的类别以及语法关系。4.如权利要求3所述的基于BERT的中文关系抽取方法,其特征在于:所述词序列包括,表示为(w_0,w_1,

,w_n),其中每一个w表示为[Word,POS,NR,GR]。5.如权利要求1~4任一所述的基于BERT的中文关系抽取方法,其特征在于:所述神经网络模型包括,BERT模型、BILSTM模型、CNN层、MAX

pooling层和softmax层,所述BERT模型提取语句的词向量,所述BILSTM模型将提取的所述词向量进行向前、向后的向量编码,编码完成后通过所述CNN层进行卷积操作,卷积完成后通过所述MAX

【专利技术属性】
技术研发人员:李成广
申请(专利权)人:的卢技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1