一种基于半监督学习和聚类的轨道交通实体识别方法技术

技术编号:29490615 阅读:34 留言:0更新日期:2021-07-30 19:02
本发明专利技术是基于半监督学习和聚类的实体识别方法。通过本体库预定义实体类别对轨道交通规范非结构化数据进行标注;对标签数据使用word2vec进行向量化表示,然后对带标签的实体词向量进行层次聚类算法;接着将实体类别与聚类结果联合分析,校对实体类别定义,最终确定轨道交通领域本体库实体类型;最后重新整理数据集,生成的词向量输入到BiLSTM‑CRF深度学习模型中训练命名实体识别模型,使用Softmax函数对识别的实体特征进行标签分类,评估实体标签分类结果。本发明专利技术能提高轨道交通规范中实体抽取速度和准确率,从而缩短自动问答统和语义网标注对轨道交通规范的处理时间,提高建筑领域从业人员对轨道交通规范的查询速率,提高了用户体验度。

【技术实现步骤摘要】
一种基于半监督学习和聚类的轨道交通实体识别方法
本专利技术属于人工智能自然语言处理
,涉及一种基于半监督学习和聚类的轨道交通实体识别方法。
技术介绍
近几年,人工智能的发展成为了行业重要的发展方向,其中自然语言处理作为该领域的重要研究方向,其研究成果已经应用于医疗、法律、金融等行业中,大大提高了领域智能化水平。但是,轨道交通领域中也存在大量的文本信息,针对此领域的相关研究少之又少。在现有的自然语言处理研究领域,现存涉及到轨道交通规范信息提取的相关方法主要是针对英文的轨道交通法规,而对中文轨道交通设计规范的研究处于起步阶段。因此,人们急需要找到一种能够对中文轨道交通设计规范进行信息化处理的方法,构建轨道交通领域知识图谱,实现利用计算机去思考语义并且推理预测,提升轨道交通设计阶段的信息化水平,提高设计阶段的生产效率。命名实体识别和关系抽取是自然语言处理的重要子任务,直接影响自然语言处理后续工作的性能。其主要的目的是从非结构化文本中识别实体并抽取实体间的语义关系。将关系抽取技术应用到轨道交通领域,对此领域的非结构化知识进行结构化处理与存本文档来自技高网...

【技术保护点】
1.一种基于半监督和聚类的轨道交通规范命名实体识别方法,其特征在于,通过专家构建轨道交通领域本体库,人工标注部分数据;首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据与训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。/n

【技术特征摘要】
1.一种基于半监督和聚类的轨道交通规范命名实体识别方法,其特征在于,通过专家构建轨道交通领域本体库,人工标注部分数据;首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据与训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。


2.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,具体包括以下步骤:
步骤1:获取轨道交通规范语料;
步骤2:对获取的道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;
步骤3:构建轨道交通领域本体库,然后预定义实体类别;
步骤4:从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体与实体类别;
步骤5,利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,数据集中只包含两列信息,实体和标签;
步骤5.1我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息;
步骤5.2将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注,其中B(Begin)、I(Intermediate)、O(Other)的缩写,其Begin指所识别对象开始位置上的字符,Intermediate指所识别对象最中间的字符,Other指所识别对象中的非实体字符;
步骤5.3序列标注后将其处理为深度学习模型规定的数据格式,数据文件中每个字符占一行,共包含实体和实体标签两列信息,生成轨道交通数据集;
步骤6:将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中,生成实体文本特征向量;
步骤7:将文本特征向量进行层次聚类,初始参数为专家预定义实体类别数,引入BiLSTM-CRF命名实体识别模型验证实体聚类效果,根据实验表现依次调整阈值条件,将每次聚类结果输入到BiLSTM-CRF命名实体识别模型中对比验证其聚类效果,重复实验,选取命名实体识别实验结果中F1值最高的聚类参数,保存此参数下的聚类结果;
步骤8:将步骤2中构建本体库预定义的实体类别与步骤7中层次聚类结果对比校对,合并,拆分预定义类别,人工定义与聚类联合,确定轨道...

【专利技术属性】
技术研发人员:黑新宏董林靖朱磊
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1