一种命名实体识别模型的训练方法、应用方法及其系统技术方案

技术编号：32231755 阅读：24 留言：0更新日期：2022-02-09 17:36

本发明专利技术涉及一种命名实体识别模型的训练方法、应用方法及其系统，属于轨道交通自然语言处理领域，模型训练方法包括对故障文本进行预处理，得到字向量和词向量；字向量包括命名实体识别任务的字向量和分词任务的字向量；词向量用于判断一个句子中的连续的两个字向量是否关联为同一个词；建立命名实体识别模型；命名实体识别模型包括命名实体识别任务子模型、分词任务子模型和对抗训练结构；将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行训练，得到训练好的命名实体识别模型。利用该命名实体识别模型进行命名实体类别的识别，具有很高的识别精度和识别效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
一种命名实体识别模型的训练方法、应用方法及其系统

[0001]本专利技术涉及自然语言处理方法在轨道交通领域的应用，特别是涉及一种面向故障文本的命名实体识别模型的训练方法、应用方法及其系统。

技术介绍

[0002]自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、知识提取、文本分类、语音识别、中文OCR等方面。其中，知识提取是从文本型知识源中抽取出隐含的、有价值的知识的过程。为了有效挖掘文本信息，可以通过知识提取技术从非结构化的文本数据中获取结构化数据。知识提取通常包括命名实体识别、命名实体消歧、关系抽取和事件抽取，其中，命名实体识别是最重要的子任务之一。
[0003]然而，铁路领域中的中文命名实体识别方法仍然存在如下缺陷：
[0004](1)铁路领域缺乏能公开使用的标注数据集，仍然依靠人工标注数据，由于人工标注数据存在清晰度和准确度的问题，会直接影响中文命名实体的识别精度和识别效果；
[0005](2)中文语言具有多语义、常省略等复杂特性，导致实体与实体之间没有明确的边界，使得最终中文命名实体的识别精度低，识别效果差；
[0006](3)铁路领域现有的中文命名实体识别方法都是基于字符的输入，没有引入词汇信息，实体识别效果较差。
[0007]因此，上述缺陷使得轨道交通铁路领域中现...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别模型的训练方法，其特征在于，包括：对故障文本进行预处理，得到字向量和词向量；所述字向量包括命名实体识别任务的字向量和分词任务的字向量；所述词向量用于判断一个句子中的连续的两个所述字向量是否关联为同一个词；建立命名实体识别模型；所述命名实体识别模型包括命名实体识别任务子模型、分词任务子模型和对抗训练结构，所述命名实体识别任务子模型包括依次级联的第一字向量嵌入层、词向量嵌入层、Lattice LSTM层和第一条件随机场层，所述分词任务子模型包括依次级联的第二字向量嵌入层、第一双向长短期记忆网络层和第二条件随机场层；所述对抗训练结构包括生成器和判别器，所述生成器包括依次级联的所述第一字向量嵌入层、所述第二字向量嵌入层和第二双向长短期记忆网络层；所述判别器包括最大池化层和Softmax层；所述生成器和所述判别器之间进行对抗训练，以提取出所述命名实体识别任务和所述分词任务之间的共同特征，并通过所述最大池化层降低提取出的所述共同特征的维度，然后通过所述Softmax层归一化后输出任务类型的概率结果，从而识别出当前输入的字符序列来自所述命名实体识别任务还是所述分词任务；将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行训练，得到训练好的命名实体识别模型。2.根据权利要求1所述的命名实体识别模型的训练方法，其特征在于，所述对故障文本进行预处理，得到字向量和词向量，具体包括：对所述故障文本进行分词处理，得到分词结果；采用BIO标注法对所述分词结果进行字符标注，并基于“时间、地点、人物、起因、经过和结果”的事件六要素对命名实体进行定义，构建语料库；对所述语料库进行预训练，得到所述字向量；对所述分词结果进行预训练，得到所述词向量。3.根据权利要求1所述的命名实体识别模型的训练方法，其特征在于，在所述命名实体识别模型中，所述命名实体识别任务子模型、所述分词任务子模型和所述对抗训练结构还各具有一层自注意力机制层；所述命名实体识别任务子模型的自注意力机制层分别与所述Lattice LSTM层和所述第一条件随机场层级联；所述分词任务子模型的自注意力机制层分别与所述第一双向长短期记忆网络层和所述第二条件随机场层级联；所述对抗训练结构的自注意力机制层分别与所述第二双向长短期记忆网络层和所述最大池化层级联。4.根据权利要求3所述的命名实体识别模型的训练方法，其特征在于，所述将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行训练，得到训练好的命名实体识别模型，具体包括：将所述命名实体识别任务的字符序列和所述分词任务的字符序列交替输入至所述对抗训练结构中，通过所述判别器判断当前输入的字符序列来自于所述命名实体识别任务还是所述分词任务；所述字符序列上带有采用BIO标注法标注的标签；其中，所述命名实体识别任务的字符序列包括所述命名实体识别任务的字向量和相应的标签，所述分词任务的字
符序列包括所述分词任务的字向量和相应的标签；当所述判别器判断当前输入的字符序列来自于所述命名实体识别任务时，则利用所述命名实体识别任务的字向量和所述词向量对所述命名实体识别任务子模型进行训练；当所述判别器判断当前输入的字符序列来自于所述分词任务时，则利用所述分词任务的字向量对所述分词任务子模型进行训练；训练完成后，得到所述训练好的命名实体识别模型。5.根据权利要求4所述的命名实体识别模型的训练方法，其特征在于，所述将所述命名实体识别任务的字符序列和所述分词任务的字符序列交替输入至所述对抗训练结构中，通过所述判别器判断当前输入的字符序列来自于所述命名实体识别任务还是所述分词任务，具体包括：将所述命名实体任务的字符序列和所述分词任务的字符序列作为所述对抗训练结构的输入，交替地输入至所述生成器中对应的字向量嵌入层中，分别得到所述命名实体任务的字向量表示和所述分词任务的字向量表示；其中，所述字向量嵌入层包括输入所述命名实体任务的字符序列的第一字向量嵌入层以及输入所述分词任务的字符序列的第二字向量嵌入层；根据所述命名实体任务的字向量表示和所述分词任务的字向量表示，利用所述第二双向长短期记忆...

【专利技术属性】
技术研发人员：宿帅，李若青，曹源，曲佳，谢正光，徐会杰，楚柏青，陈文，魏运，吕楠，豆飞，禹丹丹，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人