【技术实现步骤摘要】
基于混合自注意力机制的长短时记忆神经网络的中文命名实体识别方法
[0001]本专利技术涉及一种面向水环境的中文命名实体识别的方法,特别是涉及一种基于混合自注意力机制的长短时记忆神经网络的中文命名实体识别方法。
技术介绍
[0002]工业与农业的快速发展使得水污染问题变得更加严重。近年来,自然语言处理成为人工智能领域的一个研究热点,人们提出了许多获取文本信息的方法。命名实体识别(Named Entity Recognition,NER)旨在识别与特定语义相关的实体,找到句子中实体的开始和结束,并最终为实体分配语义类型。准确快速地识别水环境文本中的关键实体可以帮助管理人员提取重要信息,成为改善水质的一大重要辅助手段。传统的命名实体识别方法依赖于大量语言专家制定带有标点符号、关键字等的规则模板。但由于一套规则模板难以涵盖所有的语言现象,导致系统可移植性不好,对于不同的系统需要语言学专家重新书写规则,编制过程耗时且容易产生错误。而传统的机器学习方法虽然将统计算法与人工特征相结合,对模型进行训练和优化,但也存在预测精度低,难以充分提取
【技术保护点】
【技术特征摘要】
1.一种基于混合自注意力机制的长短时记忆神经网络的中文命名实体识别方法,其特征在于,该方法包括以下步骤:1)获取北京市生态环境局过去一段时间发布的关于水环境的文本数据,并对文本数据所属类别打上标签;2)对打好标签的水环境中文文本数据用预先训练好的词典进行词嵌入处理,根据不同文本的长度,自适应地将中文字符与词语映射成相同维度的向量;3)使用Lattice双向长短时记忆(Lattice Bi
‑
directional Long Short Term Memory,Lattice BiLSTM)神经网络层从两个方向对数据的字符级和词语级特征进行提取;4)使用带有位置编码的自注意力机制对数据的位置以及句子级特征进行提取;5)使用CRF来解码特征,并获取精准度较高的命名实体所属类别的预测结果。2.根据权利要求1所述的方法,其特征在于,所述基于真实的水环境中文文本数据,训练所述中文命名实体识别模型,包括:获取水环境中文文本数据,并对文本数据所属类别打上标签;将打好标签的水环境中文文本数据进行词嵌入处理;将词嵌入处理后的水环境中文文本数据按照初始比例划分为训练集和测试集,根据训练集训练所述中文命名实体识别模型,以获得命名实体识别模型的参数。3.根据权利要求1所述的方法,其特征在于,所述基于所述中文命名实体识别模型预测命名实体所属类别,包括:获取水环境中文文本数据并打好标签;对所述已打好标签的水环境中文文本数据进行词嵌入处理,自适应地映射成相同维度的向量,将词嵌入处理后的数据输入到所述中文命名实体识别模型;解码所述中文命名实体识别模型的输出数据,最终获得命名实体所属类别的预测数据。4.根据权利要求2和权利要求3所述的方法,其特征在于,所述基于Lattice BiLSTM,带有位置编码的自注意力机制与CRF混合神经网络来构建中文命名实体识别模型,具体包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。