基于目录主题分类的轨道交通规范实体识别方法技术

技术编号：30783974 阅读：15 留言：0更新日期：2021-11-16 07:45

本发明专利技术主要是基于目录主题分类的轨道交通规范实体识别方法，采用RoBERTa预训练语言模型以及全词遮盖(Whole Word Masking)机制，通过采集较大规模的建筑规范文本实现领域自适应预训练，并加入主题分类信息，提高命名实体识别任务的性能。另外将训练得到的预训练语言模型应用到命名实体识别任务中，为构建领域知识图谱提供重要支持；会带来很多好处：使命名实体识别模型更好地对领域文本进行表示，提高对于建筑实体的识别性能。逐步增加文本语料库，对已经完成的预训练语言模型进行扩展，从而使预训练语言模型适应更多样多复杂的文本内容；一次训练、多次使用，经过领域自适应预训练的语言模型可以直接应用于其他自然语言处理任务中。理任务中。理任务中。

全部详细技术资料下载

【技术实现步骤摘要】
基于目录主题分类的轨道交通规范实体识别方法

[0001]本专利技术属于自然语言处理的信息抽取领域，涉及一种基于目录主题分类的轨道交通规范实体识别方法。

技术介绍

[0002]2013
‑
2020年，我国城轨交通运营线路长度逐年增长。截至2020年底，中国内地累计有40个城市开通城轨交通运营，运营线路达到7978.19公里。轨道交通建设工程属于复杂的工程，在规划、设计、审查和建设过程中设计众多规范。住建部发布的工程设计规范一般都是以文字的形式存在，纸质规范不能直接处理，需要先将其进行数字化存储。但是规范中的数据类型非常复杂，这对处理精度提出了更高的要求。近年来，使用以深度学习为主的算法模型对自然语言进行处理的方法成为主流，尤其是2018年以来，以BERT为代表的预训练语言模型可以很好地理解自然语言文本，从而在更多下游任务中得到很好的结果，如信息抽取、文本分类、智能问答等。与此同时，一些研究者针对垂直领域的自然语言进行数据增强方向的研究，从而更好地理解领域知识。
[0003]本专利技术的核心任务是命名实体识别，虽然在开放领域以及公开的数据集中，该任务已经取得了不错的进展。但是对于特定领域，尤其是在面对轨道交通工程设计规范时，由于缺少必要的知识库，命名实体识别研究仍然面临很多挑战。
[0004](1)规范数据非常复杂
[0005]规范内容一般包含文本、图片、表格、公式等多种类型的数据格式。在采集到的数据中常常会出现多种类型数据嵌套的情况，并且会出现同一类型的数据的前后形式不一致的情...

【技术保护点】

【技术特征摘要】
1.基于目录主题分类的轨道交通规范实体识别方法，其特征在于，首先对Google发布的原始RoBERTa预训练模型作为基准模型，通过采集较大规模的轨道交通规范文本实现领域自适应预训练。结合轨道交通规范领域词典给加入全词遮盖机制，使RoBERTa预训练模型具备轨道交通领域知识的能力；然后将具备领域知识的预训练模型进行主题分类训练，基于每本国家规范都包含的目录数据，使用目录中的章名或节名对每一条规范文本进行主题分类；然后将生成的预训练模型应用到命名实体识别任务中，模型文件输入到主流的NER模型BiLSTM
‑
CRF模型中进行实体识别训练，提出CAT
‑
RailRoBERTa
‑
BiLSTM
‑
CRF模型；最后，将测试集数据输入到训练好的模型中，根据评价指标判断模型的效果；设置经过训练的实体识别模型作为服务端测试模型效果，把预测数据输入进模型后可以输出这条规范的实体和实体类别，并根据识别效果判断模型的可用性。2.根据权利要求1所述的基于目录主题分类的轨道交通规范实体识别方法，其特征在于，实验数据来源于国家建标库地铁设计规范，领域自适应预训练数据集采用大量国家制定的轨道交通规范和建筑领域信息规范等语料。3.根据权利要求1所述的基于目录主题分类的轨道交通规范实体识别方法，其特征在于，具体包括以下步骤：步骤1，获取轨道交通规范实验语料；本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB 50157
‑
2013》，使用爬虫技术爬取这本规范进行实体识别研究；步骤2，对获取的轨道交通规范语料进行数据清洗；去除脏数据包括删除重复信息，纠正存在的错误，检查数据的一致性，对无效值和缺失值进行处理；步骤3，对清洗完成的数据进行文本分析；结合《建筑信息模型分类编码标准》和术语标注与术语学标准，专家定义地铁设计规范问题的实体类别；步骤4，人工标注数据集；从规范化处理的语料库中，选取1650条规范进行数据标注；结合专家定义的实体类别和专业术语两个方面，人工标注每条规范中的所包含的实体，即标注出实体边界与实体类别；经过对标记数据的实体进行统计集；步骤5，数据集划分；本实验数据以地铁设计规范条目信息对数据集进行划分，训练集、验证集与测试集的比例大约为7:2:1；步骤6，构建实验数据集；利用标注过实体的规范语料构建实验数据，生成用于命名实体识别任务的轨道交通数据集；采用BIO标注模式，实验数据文件中只包含两列信息，实体和实体对应的标签；步骤7，构建领域自适应预训练数据集；通过各种渠道采集与建筑设计规范相关联的文本数据，经过简单清洗后，去除特殊符号，如换行符、制表符、HTML标签等，生成统一格式的json数据；数据集中包括《地铁设计规范》语料，还采集了其他建筑领域的语料，共811,120条规范文本；步骤8，构建轨道交通领域自适应预训练语言模型；
将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa
‑
base预训练模型中，加入地铁设计规范的术语词典，生成中文轨道交通领域预训练语言模型；步骤9，构建主题分类数据集；利用未标注过的规范语料构建主题分类数据集，生成用于主题分类任务的轨道交通数据集；本方法先采用节名对规范进行主题标记；步骤10，构建主题分类模型，将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入，生成CAT
‑
RailRoBERTa预训练模型；步骤11，构建实体识别模型，将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入；步骤12，设置训练的实体识别模型作为服务端测试模型效果，将测试数据集输入模型，可识别出测试数据的实体边界和实体类别标签，最终实现轨道交通规范文本中命名实体的自动识别。4.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法，其特征在于，所述步骤8中，构建轨道交通领域自适应预训练语言模型；将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa
‑
base预训练模型中，加入地铁设计规范的术语词典，生成中文轨道交通领域预训练语言模型；步骤8.1，本发明采用全词Mask机制，如果一个完整的词的部分子词被Mask，则同属该词的其他部分也会被Mask；步骤8.2，将人工标注的实体抽取形成实体词典，在调用jieba分词工具时，加入实体词典对输入的文本规范进行分词，以80％的概率将输入的token替换为[mask]，10％的概率保持不变，以10％的概率替换为一个随机的token；将此机制引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时轨道交通规范文本实体完整的语义；以“站台门噪声峰值不应超过70分贝”为例，加入了术语词典之后，预训练语言模型可以更加正确得表示“站台门”和“分贝”这两个实体；步骤8.3，将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型，设置训练迭代次数为200次，得到轨道交通领域的预训练模型RoBERTa_800k；BERT模型是通过联合所有层中的上下文信息；它使用多层的双向Transformer作为编码器模块预先训练深度双向表示，BERT
‑
Base包含12层Transformer结构，每层隐状态的维度是768，使用12个头的多头注意力，总参数量约为110M；Transformer的每个编码器首先将输入的句子经过一个多头注意力层；多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词，然后将输入传递到前馈神经网络中，每个位置的单词对应的前馈神经网络完全相同并且没有共享参数；Multi
‑
Head Attention上方还包括一个Add&Norm层，Add表示残差连接用于防止网络退化，Norm表示Layer Normalization，用于对每一层的激活值进行归一化；Transformer中最关键的部分就是自注意力计算，在NER任务中，注意力机制可被用于寻找输入句子中相对重要的字或词，使用一个隐藏层和softmax函数计算句子中每个字或词的权重，使模型对于关键信息特别关注并进行充分学习；因为Transformer在进行计算时输入句子和输出句...

【专利技术属性】
技术研发人员：黑新宏，董林靖，朱磊，方潇颖，焦瑞，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人