【技术实现步骤摘要】
三元组抽取方法及系统
[0001]本专利技术涉及自然语言处理
,尤其涉及一种三元组抽取方法及系统。
技术介绍
[0002]当前实体关系三元组抽取主要有两类方法,基于传统规则的方法和基于机器学习(深度学习)的方法。基于传统规则的方法,例如基于依存句法分析的实体关系抽取,首先对一个句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系表述,并根据距离确定实体位置,最后输出三元组;基于机器学习的方法,分别识别三元组中的两个实体,然后对两个实体之间的关系进行分类,最后输出三元组。
[0003]然而,当前实体关系三元组抽取技术,在训练及评估阶段,将实体与关系分开抽取,没有使用其关系信息去抽取实体。如三元组(中国,首都,北京),这个三元组的实体“北京”可以从前面的实体“中国”以及关系“首都”推断而来,用实体及关系之间的关联信息进而可以抽取更加准确的三元组。因此如何利用文本的整体信息进行三元组的抽取成为亟待解决的技术问题。
技术实现思路
[0004]有鉴于此,本专利技术提供一种三元组抽取方法及系统 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种三元组抽取方法,其特征在于,包括:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。2.根据权利要求1所述的三元组抽取方法,其特征在于,所述根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息的步骤包括:将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。3.根据权利要求2所述的三元组抽取方法,其特征在于,所述根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组的步骤包括:根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。4.根据权利要求3所述的三元组抽取方法,其特征在于,所述将所述文本向量输入全连接层进行学习得到头实体向量的步骤中的头实体损失函数表示为:其中,Hp(s)表示头实体损失函数的二分类交叉熵损失;yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;对于正样本yi=1,loss=
‑
log(p(yi)),当p(yi)越大时,损失越小;对于负样本yi=0,loss=
‑
log(1
‑
p(yi)),当p(yi)越小时,损失越小。5.根据权利要求4所述的三元组抽取方法,其特征在于,将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量的步骤中的尾实体损失函数表示为:其中,Hp(o)表示尾实体损失函数的二分类交叉熵损失;yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=
‑
log(p(yi)),当p(yi)越大时,损失越小;对于负样本yi=0,loss=
‑
log(1
‑
技术研发人员:李文锋,侯乐,赵九州,赵从志,
申请(专利权)人:和美深圳信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。