基于目录主题分类的轨道交通规范实体识别方法技术

技术编号:30783974 阅读:15 留言:0更新日期:2021-11-16 07:45
本发明专利技术主要是基于目录主题分类的轨道交通规范实体识别方法,采用RoBERTa预训练语言模型以及全词遮盖(Whole Word Masking)机制,通过采集较大规模的建筑规范文本实现领域自适应预训练,并加入主题分类信息,提高命名实体识别任务的性能。另外将训练得到的预训练语言模型应用到命名实体识别任务中,为构建领域知识图谱提供重要支持;会带来很多好处:使命名实体识别模型更好地对领域文本进行表示,提高对于建筑实体的识别性能。逐步增加文本语料库,对已经完成的预训练语言模型进行扩展,从而使预训练语言模型适应更多样多复杂的文本内容;一次训练、多次使用,经过领域自适应预训练的语言模型可以直接应用于其他自然语言处理任务中。理任务中。理任务中。

【技术实现步骤摘要】
基于目录主题分类的轨道交通规范实体识别方法


[0001]本专利技术属于自然语言处理的信息抽取领域,涉及一种基于目录主题分类的轨道交通规范实体识别方法。

技术介绍

[0002]2013

2020年,我国城轨交通运营线路长度逐年增长。截至2020年底,中国内地累计有40个城市开通城轨交通运营,运营线路达到7978.19公里。轨道交通建设工程属于复杂的工程,在规划、设计、审查和建设过程中设计众多规范。住建部发布的工程设计规范一般都是以文字的形式存在,纸质规范不能直接处理,需要先将其进行数字化存储。但是规范中的数据类型非常复杂,这对处理精度提出了更高的要求。近年来,使用以深度学习为主的算法模型对自然语言进行处理的方法成为主流,尤其是2018年以来,以BERT为代表的预训练语言模型可以很好地理解自然语言文本,从而在更多下游任务中得到很好的结果,如信息抽取、文本分类、智能问答等。与此同时,一些研究者针对垂直领域的自然语言进行数据增强方向的研究,从而更好地理解领域知识。
[0003]本专利技术的核心任务是命名实体识别,虽然在开放领域以及公开的数据集中,该任务已经取得了不错的进展。但是对于特定领域,尤其是在面对轨道交通工程设计规范时,由于缺少必要的知识库,命名实体识别研究仍然面临很多挑战。
[0004](1)规范数据非常复杂
[0005]规范内容一般包含文本、图片、表格、公式等多种类型的数据格式。在采集到的数据中常常会出现多种类型数据嵌套的情况,并且会出现同一类型的数据的前后形式不一致的情况,数据之间的层级结构也不统一。
[0006](2)跨学科,多领域的长难句理解困难
[0007]由于轨道交通工程设计涉及数十个学科、数百个工种,而国家规范都是由专业人员进行编写的,对专业知识要求极高,文本中包含大量专业术语且都是以复杂句式为主,对于进一步的结构化处理带来很多困难。
[0008](3)低资源与高质量的矛盾
[0009]低资源是指无完整术语词典、无明确的实体分类标准、无公开数据集。而下游应用对知识图谱的质量要求极高,以自动合规性检查为例,知识图谱的质量及其完整性直接决定了检查结果的精确性和完备性。
[0010]随着深度学习在自然语言处理任务中的深入应用,预训练模型的参数量也迅速增加,为了防止过拟合则需要更大的数据集来充分训练模型参数。然而,对于大多数NLP任务而言,构建大规模的标注数据是一个巨大的挑战,因为标注成本非常巨大,特别是涉及到垂直领域中语义相关的任务时标注难度会急剧上升。相比之下,构建大规模的未标记语料库相对容易,预训练语言模型(Pre

train Models,PTMs)可以利用这些未标记数据从中提取大量的语义信息,并将这些语义表征应用于其他任务。最近的研究表明,PTMs在许多NLP任务中都取得了显著的提高。开源的预训练语言模型与下游任务适配时比较困难,不同的下
游任务一般需要不同的语言模型,如文本生成任务通常需要一个特定的任务来预训练编码器和解码器,而文本匹配任务则需要为句子对设计特定的预训练任务。如果不考虑模型的数据分布以及所属领域,任务的差异性可能导致适得其反的结果。
[0011]本项目是面向轨道交通领域,将对此领域的未标注文本进行领域自适应预训练,可以利用这些未标记数据从中提取大量的语义信息和领域相关知识,并将这些语义表征应用于其他任务;根据规范目录中的章名或节名对每一条规范文本进行主题分类,加入主题信息。然后将轨道交通规范信息化处理和存储,通过对结构化数据的学习,使模型对非结构化数据信息抽取,可以自动分析提取有用信息。这项研究的推进可以在缩短工程项目审查时间的前提下,保证工程设计的质量,并以特定的数据结构知识图谱进行存储,为智能化应用提供最基础的数据支持,从而提高搜索引擎的速度与智能问答系统的准确性,极大地简化工作的复杂程度,提高了轨道交通领域智能化水平。

技术实现思路

[0012]本专利技术的目的是提供一种基于目录主题分类的轨道交通规范实体识别方法,解决使用开源预训练语言模型对垂直领域文本不适配导致模型实体识别准确率较低问题。
[0013]本专利技术所采用的技术方案是,基于目录主题分类的轨道交通规范实体识别方法,首先对Google发布的原始RoBERTa预训练模型作为基准模型,通过采集较大规模的轨道交通规范文本实现领域自适应预训练。结合轨道交通规范领域词典给加入全词遮盖(Whole Word Masking)机制,使RoBERTa预训练模型具备轨道交通领域知识的能力;然后将具备领域知识的预训练模型进行主题分类训练,基于每本国家规范都包含的目录数据,使用目录中的章名或节名对每一条规范文本进行主题分类;然后将生成的预训练模型应用到命名实体识别任务中,模型文件输入到主流的NER模型BiLSTM

CRF模型中进行实体识别训练,提出CAT

RailRoBERTa

BiLSTM

CRF模型;最后,将测试集数据输入到训练好的模型中,根据评价指标判断模型的效果;设置经过训练的实体识别模型作为服务端测试模型效果,把预测数据输入进模型后可以输出这条规范的实体和实体类别,并根据识别效果判断模型的可用性。
[0014]实验数据来源于国家建标库地铁设计规范,领域自适应预训练数据集采用大量国家制定的轨道交通规范和建筑领域信息规范等语料。
[0015]具体包括以下步骤:
[0016]步骤1,获取轨道交通规范实验语料;
[0017]本专利技术的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB 50157

2013》,使用爬虫技术爬取这本规范进行实体识别研究。
[0018]步骤2,对获取的轨道交通规范语料进行数据清洗;
[0019]去除脏数据包括删除重复信息,纠正存在的错误,检查数据的一致性,对无效值和缺失值进行处理。
[0020]步骤3,对清洗完成的数据进行文本分析;
[0021]结合《建筑信息模型分类编码标准》和术语标注与术语学标准,专家定义地铁设计规范问题的实体类别。
[0022]步骤4,人工标注数据集。
[0023]从规范化处理的语料库中,选取1650条规范进行数据标注。结合专家定义的实体类别和专业术语两个方面,人工标注每条规范中的所包含的实体,即标注出实体边界与实体类别。经过对标记数据的实体进行统计集,可得出,标注数据集中实体长度分布如图3所示,各个长度实体出现的频次分布如图4所示,数据集中最长的实体包含45个字符,最短的实体包含2个字符,平均长度为5.33,实体长度主要集中在5,3,7和4。这部分的统计数据对模型训练时超参数设置以及预测结果的分析有重要意义。
[0024]步骤5,数据集划分;
[0025]本实验数据以地铁设计规范条目信息对数据集进行划分,训练集、验证集与测试集的比例大约为7:2:1。
[0026]步骤6,构建实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于目录主题分类的轨道交通规范实体识别方法,其特征在于,首先对Google发布的原始RoBERTa预训练模型作为基准模型,通过采集较大规模的轨道交通规范文本实现领域自适应预训练。结合轨道交通规范领域词典给加入全词遮盖机制,使RoBERTa预训练模型具备轨道交通领域知识的能力;然后将具备领域知识的预训练模型进行主题分类训练,基于每本国家规范都包含的目录数据,使用目录中的章名或节名对每一条规范文本进行主题分类;然后将生成的预训练模型应用到命名实体识别任务中,模型文件输入到主流的NER模型BiLSTM

CRF模型中进行实体识别训练,提出CAT

RailRoBERTa

BiLSTM

CRF模型;最后,将测试集数据输入到训练好的模型中,根据评价指标判断模型的效果;设置经过训练的实体识别模型作为服务端测试模型效果,把预测数据输入进模型后可以输出这条规范的实体和实体类别,并根据识别效果判断模型的可用性。2.根据权利要求1所述的基于目录主题分类的轨道交通规范实体识别方法,其特征在于,实验数据来源于国家建标库地铁设计规范,领域自适应预训练数据集采用大量国家制定的轨道交通规范和建筑领域信息规范等语料。3.根据权利要求1所述的基于目录主题分类的轨道交通规范实体识别方法,其特征在于,具体包括以下步骤:步骤1,获取轨道交通规范实验语料;本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB 50157

2013》,使用爬虫技术爬取这本规范进行实体识别研究;步骤2,对获取的轨道交通规范语料进行数据清洗;去除脏数据包括删除重复信息,纠正存在的错误,检查数据的一致性,对无效值和缺失值进行处理;步骤3,对清洗完成的数据进行文本分析;结合《建筑信息模型分类编码标准》和术语标注与术语学标准,专家定义地铁设计规范问题的实体类别;步骤4,人工标注数据集;从规范化处理的语料库中,选取1650条规范进行数据标注;结合专家定义的实体类别和专业术语两个方面,人工标注每条规范中的所包含的实体,即标注出实体边界与实体类别;经过对标记数据的实体进行统计集;步骤5,数据集划分;本实验数据以地铁设计规范条目信息对数据集进行划分,训练集、验证集与测试集的比例大约为7:2:1;步骤6,构建实验数据集;利用标注过实体的规范语料构建实验数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,实验数据文件中只包含两列信息,实体和实体对应的标签;步骤7,构建领域自适应预训练数据集;通过各种渠道采集与建筑设计规范相关联的文本数据,经过简单清洗后,去除特殊符号,如换行符、制表符、HTML标签等,生成统一格式的json数据;数据集中包括《地铁设计规范》语料,还采集了其他建筑领域的语料,共811,120条规范文本;步骤8,构建轨道交通领域自适应预训练语言模型;
将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa

base预训练模型中,加入地铁设计规范的术语词典,生成中文轨道交通领域预训练语言模型;步骤9,构建主题分类数据集;利用未标注过的规范语料构建主题分类数据集,生成用于主题分类任务的轨道交通数据集;本方法先采用节名对规范进行主题标记;步骤10,构建主题分类模型,将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入,生成CAT

RailRoBERTa预训练模型;步骤11,构建实体识别模型,将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入;步骤12,设置训练的实体识别模型作为服务端测试模型效果,将测试数据集输入模型,可识别出测试数据的实体边界和实体类别标签,最终实现轨道交通规范文本中命名实体的自动识别。4.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法,其特征在于,所述步骤8中,构建轨道交通领域自适应预训练语言模型;将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa

base预训练模型中,加入地铁设计规范的术语词典,生成中文轨道交通领域预训练语言模型;步骤8.1,本发明采用全词Mask机制,如果一个完整的词的部分子词被Mask,则同属该词的其他部分也会被Mask;步骤8.2,将人工标注的实体抽取形成实体词典,在调用jieba分词工具时,加入实体词典对输入的文本规范进行分词,以80%的概率将输入的token替换为[mask],10%的概率保持不变,以10%的概率替换为一个随机的token;将此机制引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时轨道交通规范文本实体完整的语义;以“站台门噪声峰值不应超过70分贝”为例,加入了术语词典之后,预训练语言模型可以更加正确得表示“站台门”和“分贝”这两个实体;步骤8.3,将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型,设置训练迭代次数为200次,得到轨道交通领域的预训练模型RoBERTa_800k;BERT模型是通过联合所有层中的上下文信息;它使用多层的双向Transformer作为编码器模块预先训练深度双向表示,BERT

Base包含12层Transformer结构,每层隐状态的维度是768,使用12个头的多头注意力,总参数量约为110M;Transformer的每个编码器首先将输入的句子经过一个多头注意力层;多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词,然后将输入传递到前馈神经网络中,每个位置的单词对应的前馈神经网络完全相同并且没有共享参数;Multi

Head Attention上方还包括一个Add&Norm层,Add表示残差连接用于防止网络退化,Norm表示Layer Normalization,用于对每一层的激活值进行归一化;Transformer中最关键的部分就是自注意力计算,在NER任务中,注意力机制可被用于寻找输入句子中相对重要的字或词,使用一个隐藏层和softmax函数计算句子中每个字或词的权重,使模型对于关键信息特别关注并进行充分学习;因为Transformer在进行计算时输入句子和输出句...

【专利技术属性】
技术研发人员:黑新宏董林靖朱磊方潇颖焦瑞
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1