一种基于自注意力的三元组抽取方法技术

技术编号：30345504 阅读：20 留言：0更新日期：2021-10-12 23:32

一种基于自注意力的三元组抽取方法，包括以下步骤：1)根据登记在数据库中案件的简要描述，预先设定好案件需要抽取的实体类型和描述案件的三元组的模板；2)在案件的简要描述中，通过标注工具根据设定好的模板标注出描述中的三元组；3)利用Transformer模型作为核心来构建管道式的抽取系统；4)利用模型自身的自注意力结构来对实体冗余情况下的三元组进行建模；5)使用共享位置信息的方式和带有偏差的自注意力对三元组预测进行加速；6)对预测结果进行评价和排序。本发明专利技术以管道式关系抽取算法对数据中的非结构化数据进行提取，从而获得结构化的三元组数据，对数据的后续分析提供有力的帮助。帮助。帮助。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自注意力的三元组抽取方法

[0001]本专利技术涉及信息抽取、大数据、深度学习，提供了一种基于自注意力的三元组抽取方法。

技术介绍

[0002]随着互联网的不断发展，信息的增长进入到了一个爆炸性的时代，每天都会有成千上万的结构化和非结构化的文字数据在不断地生成和更新。但是，庞大的数据量仅只是一个数字，现实则是大量的数据基本处于一种冻结状态，在存储到数据库中之后就再也得不到二次开发的机会。
[0003]近几年云计算和人工智能兴起，通过云计算提供的强大的计算能力和人工智能领域专利技术的大量算法，使得这类数据可以被再一次利用起来，重新发掘其中的价值。
[0004]在2016年10月13日的云栖大会上，杭州市公布了一项计划，既在杭州这座城市安装一个人工智能中枢——杭州城市数据大脑，目标是依托云计算和人工智能，让数据帮助城市来做思考和决策。主要的实现手段则是通过整合，分析和计算政务、公共、企业和互联网方面的数据，再配合信息化的策略来让杭州城市大脑拥有对城市各方各面的管理能力。在交通领域，城市大脑已经取得了一定的效果，初步实验数据显示，配合智能调节的红绿灯，道路的通行能力有着5％左右的提升。近几年，自然语言处理领域又出现了知识图谱这种大型的综合性技术工程，可以让城市大脑在警务方面的处理能力得到质的提升，帮助警方从历史的案件中总结规律，提高破案的效率，而三元组抽取作为构建知识图谱的基础，自然具有重要的研究意义。
[0005]历史案件的简要描述中存在着大量的人地关系，人人关系，人物关系，但是通过人工标...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力的三元组抽取方法，其特征在于，所述方法包括以下步骤：1)获取已登记在数据库中案件的描述文本，预先设定好需要标注的实体和三元组的schema，所述实体包括人名、地名、时间、罪名和作案方式，所述三元组包括犯案时间、犯案地点、犯案方式，犯案罪名和犯案人同被害人的社会关系；2)根据上述的标注schema，在web端的标注平台上人工标注出描述文本中的三元组关系，并生成确定格式的标注文本作为训练数据和验证数据；3)将描述文本和标注文本一一对应后，再根据标注的结果分别生成两个子文件；4)三元组抽取方法的训练使用的是管道式的策略，先利用Transformer网络模型作为编码器，指针网络作为解码器，来对BIEO标注的文本作实体抽取的训练；同时，用另一个transformer网络模型作为编码器，全连接网络作为解码器对标注出实体的文本进行关系分类的训练；5)训练完成后，将实体模型和关系模型分别保存；6)预测时将一段文本先输入实体模型中，预测出其中所有潜在的实体，并将其两两配对，以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型，得到每个实体对的关系。7)整理两个模型的输出，得到最终的三元组抽取结果。2.根据权利要求1所述的基于自注意力的三元组抽取方法，其特征在于，所述步骤3)的过程为：子文件之一是以BIEO标注法标注出所有实体的命名实体识别标注文本；另一个子文件是通过marker标记法在实体span级别上标注出实体关系的关系分类标注文本。3.根据权利要求1或2所述的基于自注意力的三元组抽取方法，其特征在于，所述步骤4)的过程为：4.1)给定token化的文本X＝[x1，x2......x
n
]，其中x
t
为在文本t位置的token，将X输入Transformer模型后，得到文本的隐藏表示H＝[h1，h2......h
n
]，其过程表示为：H＝Transformer(X)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ

【专利技术属性】
技术研发人员：李永强，周宇，冯远静，陆超伦，陈成，姚辉，赵永智，李文伟，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人