【技术实现步骤摘要】
一种基于深度学习的地铁设计规范中实体关系联合抽取方法
本专利技术属于计算机自然语言处理
,涉及一种基于深度学习的地铁设计规范中实体关系联合抽取方法。
技术介绍
随着大数据的兴起,面对海量数据信息如何正确合理利用是大数据分析的关键所在。而知识图谱可以将结构化、半结构化数据用图的方式表示出来,从而简化知识,方便数据的进一步处理利用。地铁是新兴的建筑行业,由于地铁设计规范多为文本形式表示,其陈述结构也与知识图谱表示相契合,故可利用知识图谱来对地铁设计规范进行知识表示,从而推动轨道交通行业信息化进程。实体关系抽取是建立知识图谱的关键任务之一。实体关系抽取是级联任务,分为实体抽取和关系抽取两个子任务,如何更好地处理这种级联任务是自然语言处理的一个热点研究方向。传统的实体关系抽取多使用PIPline方法,即先抽取实体再抽取关系,虽然该类方法易于实现,实体模型和关系模型可以使用独立的数据集,但存在误差积累、实体冗余、交互缺失等缺点。针对地铁规范中实体与关系的联合抽取方法可以解决这些问题。目前,关于实体关系联合抽取方法 ...
【技术保护点】
1.一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于,按照以下步骤实施:/n步骤1,利用词典文件构建名词哈希词典索引,词典文件采用IFC实体类标准构建,之后将词典文件包含的所有实体类定义为实体类集合E,并定义关系类集合R;/n步骤2,将待处理《地铁设计规范》的句子作为输入文本S1;/n步骤3,对步骤2得到的输入文本S1进行正向最大匹配算法处理得到实体集C1_1,再对输入文本S1进行逆向最大匹配算法处理得到实体集C1_2,取C1_1与C1_2的交集得到实体集C1;/n步骤4,将步骤2得到的输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集 ...
【技术特征摘要】
1.一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于,按照以下步骤实施:
步骤1,利用词典文件构建名词哈希词典索引,词典文件采用IFC实体类标准构建,之后将词典文件包含的所有实体类定义为实体类集合E,并定义关系类集合R;
步骤2,将待处理《地铁设计规范》的句子作为输入文本S1;
步骤3,对步骤2得到的输入文本S1进行正向最大匹配算法处理得到实体集C1_1,再对输入文本S1进行逆向最大匹配算法处理得到实体集C1_2,取C1_1与C1_2的交集得到实体集C1;
步骤4,将步骤2得到的输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;
步骤5,在步骤4字嵌入集合S2中选择文段,对所有选择的文段构造文段嵌入,通过卷积分类器进行实体分类过滤,得到实体集合C2;
步骤6,将步骤3中的实体集合C1与步骤5中的实体集合C2合并后得到实体集合C3;从C3中任意选择两个实体构成若干实体对,为实体对构造关系嵌入;经过卷积分类器分类得到实体对的双向关系r,并通过分类过滤,得到最终的实体关系集合C4。
2.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤5具体为:
对步骤4中得到的字嵌入集合S2在所有长度在1到10之间的跨度上选择文段,集合S2是通过BERT模型得到的文本向量表示(e1,e2,...,en),即对于任意ei,选择文段(ei,ei+1,ei+2...ei+k),其中k取值在0到10之间,对于输入第一结果集C1的实体不予选择;利用语义嵌入、位置嵌入与上下文嵌入对所有选择的文段构造文段嵌入span_em,将span_em输入卷积分类器进行实体分类;对所有文段完成分类后,过滤结果中不属于已定义实体类集合E的实体;得到实体集合C2。
3.根据权利要求2所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤5中,文段嵌入部分的具体构造过程如下:
5.1)对于步骤5中选择的文段的字嵌入,进行最大池化得到向量span_max、进行平均池化得到向量span_ave、进行最小池化得到向量span_min。连接三个向量,得到词义嵌入
5.2)对于步骤5中选择的文段获取三个位置,即本文段的第一个字h...
【专利技术属性】
技术研发人员:黑新宏,李育璠,朱磊,王一川,姬文江,孟海宁,姜琨,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。