一种基于自注意力的三元组抽取方法技术

技术编号:30345504 阅读:20 留言:0更新日期:2021-10-12 23:32
一种基于自注意力的三元组抽取方法,包括以下步骤:1)根据登记在数据库中案件的简要描述,预先设定好案件需要抽取的实体类型和描述案件的三元组的模板;2)在案件的简要描述中,通过标注工具根据设定好的模板标注出描述中的三元组;3)利用Transformer模型作为核心来构建管道式的抽取系统;4)利用模型自身的自注意力结构来对实体冗余情况下的三元组进行建模;5)使用共享位置信息的方式和带有偏差的自注意力对三元组预测进行加速;6)对预测结果进行评价和排序。本发明专利技术以管道式关系抽取算法对数据中的非结构化数据进行提取,从而获得结构化的三元组数据,对数据的后续分析提供有力的帮助。帮助。帮助。

【技术实现步骤摘要】
一种基于自注意力的三元组抽取方法


[0001]本专利技术涉及信息抽取、大数据、深度学习,提供了一种基于自注意力的三元组抽取方法。

技术介绍

[0002]随着互联网的不断发展,信息的增长进入到了一个爆炸性的时代,每天都会有成千上万的结构化和非结构化的文字数据在不断地生成和更新。但是,庞大的数据量仅只是一个数字,现实则是大量的数据基本处于一种冻结状态,在存储到数据库中之后就再也得不到二次开发的机会。
[0003]近几年云计算和人工智能兴起,通过云计算提供的强大的计算能力和人工智能领域专利技术的大量算法,使得这类数据可以被再一次利用起来,重新发掘其中的价值。
[0004]在2016年10月13日的云栖大会上,杭州市公布了一项计划,既在杭州这座城市安装一个人工智能中枢——杭州城市数据大脑,目标是依托云计算和人工智能,让数据帮助城市来做思考和决策。主要的实现手段则是通过整合,分析和计算政务、公共、企业和互联网方面的数据,再配合信息化的策略来让杭州城市大脑拥有对城市各方各面的管理能力。在交通领域,城市大脑已经取得了一定的效果,初步实验数据显示,配合智能调节的红绿灯,道路的通行能力有着5%左右的提升。近几年,自然语言处理领域又出现了知识图谱这种大型的综合性技术工程,可以让城市大脑在警务方面的处理能力得到质的提升,帮助警方从历史的案件中总结规律,提高破案的效率,而三元组抽取作为构建知识图谱的基础,自然具有重要的研究意义。
[0005]历史案件的简要描述中存在着大量的人地关系,人人关系,人物关系,但是通过人工标注这三种关系费时费力,而且需要富有经验的专业人士才能标注出有价值的三元组数据。不过,深度学习方法可以预先学习这类文本的特征,然后再自动化地预测大量后续输入文本。然而,受限制于当前深度学习的算力瓶颈,仅有少量的算法技术成功落地,且应用的场景需求十分简单。一旦面对复杂的情境,如多关系三元组抽取,长文本关系抽取,实体重叠关系抽取,现有的管道式三元组抽取算法就无法准确地实现预期的抽取目标,大大降低知识图谱的数据质量。
[0006]在这种情况下,通过引入自注意力机制和位置共享技术,可以极大地改善目前管道式抽取模型存在地问题,并且加速三元组抽取地速度,极大地提升了信息抽取这个任务地效率。

技术实现思路

[0007]为了解决复杂场景下地的三元组数据抽取的问题,本专利技术提出了一种基于自注意力的数据三元组抽取方法,在已有的案件描述中,抽取中对案件推理有帮助的人人关系,人物关系和人地关系,为构建高质量的知识图谱,加速案件推理起到一定的作用。
[0008]为了解决上述技术问题,本专利技术提供如下的技术方案:
[0009]一种基于自注意力的三元组抽取方法,所述方法包括以下步骤:
[0010]1)获取已登记在数据库中案件的描述文本,预先设定好需要标注的实体和三元组的schema,所述实体包括人名、地名、时间、罪名和作案方式,所述三元组包括犯案时间、犯案地点、犯案方式,犯案罪名和犯案人同被害人的社会关系;
[0011]2)根据上述的标注schema,在web端的标注平台上人工标注出描述文本中的三元组关系,并生成确定格式的标注文本作为训练数据和验证数据;
[0012]3)将描述文本和标注文本一一对应后,再根据标注的结果分别生成两个子文件;
[0013]4)三元组抽取方法的训练使用的是管道式的策略,先利用Transformer网络模型作为编码器,指针网络作为解码器,来对BIEO标注的文本作实体抽取的训练;同时,再用另一个transformer网络模型作为编码器,全连接网络作为解码器对标注出实体的文本进行关系分类的训练;
[0014]5)训练完成后,将实体模型和关系模型分别保存;
[0015]6)预测的方法是将一段文本先输入实体模型中,预测出其中所有潜在的实体,并将其两两配对,以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型,得到每个实体对的关系。
[0016]7)整理两个模型的输出,得到最终的三元组抽取结果。
[0017]进一步,所述步骤3)的过程为:子文件之一是以BIEO标注法标注出所有实体的命名实体识别标注文本;另一个子文件是通过marker标记法在实体span 级别上标注出实体关系的关系分类标注文本。
[0018]再进一步,所述步骤4)的过程为:
[0019]4.1)给定token化的文本X=[x1,x2……
x
n
],其中x
t
为在文本t位置的token,将X输入Transformer模型后,得到文本的隐藏表示H=[h1,h2……
h
n
],其过程表示为:
[0020]H=Transformer(X)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0021]4.2)根据BIEO的标注文本,可以构造出实体识别的gold标签G= [g1,g2……
g
n
],再将4.1)当中得到的隐藏表示H输入至指针网络中,得到文本在每个token上的标注分类概率P=[p1,p2……
p
n
],然后使用交叉熵损失函数对实体识别任务进行训练:
[0022][0023]其中N为token的数量,i为句子中token的位置,L为标注类别的数量,c为标注的类别;
[0024]4.3)关系分类的模型需要构造额外的文本向量,给定token化的文本 X=[x1,x2……
x
n
],其中x
t
为在文本t位置的token,并在文本X之后加入实体的marker标记,记为M=[m
s1
,m
e1
,m
s2
,m
e2
……
m
sk
‑1,m
ek
‑1,m
sk
,m
ek
],每对 marker与实体的起始位置和结束位置共享位置编码,用于标注含有关系的实体对,此外,利用Transformer自带的自注意力层,提取出每个实体对中头实体和尾实体起始位置marker的注意力矩阵A
s
和A
o
,并作以下的计算来得到每个实体对用于分类的关系特征向量C
i

[0025]A=A
s
·
A
o
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0026][0027][0028]C=H
T
a
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0029]其中,h为多头注意力头数,H为经过transformer得到的隐藏表述;
[0030]4.4)再通过交叉熵损失函数,将本地标注的关系同预测出的关系计算损失:
[0031][0032]其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力的三元组抽取方法,其特征在于,所述方法包括以下步骤:1)获取已登记在数据库中案件的描述文本,预先设定好需要标注的实体和三元组的schema,所述实体包括人名、地名、时间、罪名和作案方式,所述三元组包括犯案时间、犯案地点、犯案方式,犯案罪名和犯案人同被害人的社会关系;2)根据上述的标注schema,在web端的标注平台上人工标注出描述文本中的三元组关系,并生成确定格式的标注文本作为训练数据和验证数据;3)将描述文本和标注文本一一对应后,再根据标注的结果分别生成两个子文件;4)三元组抽取方法的训练使用的是管道式的策略,先利用Transformer网络模型作为编码器,指针网络作为解码器,来对BIEO标注的文本作实体抽取的训练;同时,用另一个transformer网络模型作为编码器,全连接网络作为解码器对标注出实体的文本进行关系分类的训练;5)训练完成后,将实体模型和关系模型分别保存;6)预测时将一段文本先输入实体模型中,预测出其中所有潜在的实体,并将其两两配对,以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型,得到每个实体对的关系。7)整理两个模型的输出,得到最终的三元组抽取结果。2.根据权利要求1所述的基于自注意力的三元组抽取方法,其特征在于,所述步骤3)的过程为:子文件之一是以BIEO标注法标注出所有实体的命名实体识别标注文本;另一个子文件是通过marker标记法在实体span级别上标注出实体关系的关系分类标注文本。3.根据权利要求1或2所述的基于自注意力的三元组抽取方法,其特征在于,所述步骤4)的过程为:4.1)给定token化的文本X=[x1,x2......x
n
],其中x
t
为在文本t位置的token,将X输入Transformer模型后,得到文本的隐藏表示H=[h1,h2......h
n
],其过程表示为:H=Transformer(X)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ

【专利技术属性】
技术研发人员:李永强周宇冯远静陆超伦陈成姚辉赵永智李文伟
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1