基于高效指针网络面向矛盾调解文本的命名实体识别方法技术

技术编号：39326082 阅读：9 留言：0更新日期：2023-11-12 16:04

本发明专利技术公开了一种基于高效指针网络面向矛盾调解文本的命名实体识别方法，通过基于注意力机制的模型自动识别和提取实体信息，从而提高实体识别的准确性和效率；同时，本发明专利技术基于高效指针网络的实体矩阵解析方法，减少了由于实体类别增加而产生的大规模的参数增加，每增加一种实体类别，只需要线性级别参数的增加，并且融合多层输出向量，进一步优化指针网络打分方式，提高模型性能。因此，本发明专利技术方法在实际应用中具有较高的可靠性和实用性，可以帮助解决实体识别中遇到的各种挑战和难题。助解决实体识别中遇到的各种挑战和难题。助解决实体识别中遇到的各种挑战和难题。

全部详细技术资料下载

【技术实现步骤摘要】
基于高效指针网络面向矛盾调解文本的命名实体识别方法

[0001]本专利技术属于自然语言处理
，具体涉及一种基于高效指针网络面向矛盾调解文本的命名实体识别方法。

技术介绍

[0002]在自然语言处理领域，深度神经网络模型经过良好的训练能够完成多种自然语言处理的子任务，例如命名实体抽取等，并且展现出较好的性能。命名实体任务旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名、时间、日期、货币等，这些实体通常是文本中需要特殊处理和理解的重要信息单元。命名实体识别的应用非常广泛，特别是在信息抽取、文本分类、问答系统、知识图谱构建等领域中扮演着重要的角色，通过识别出文本中的命名实体，计算机能够更好地理解和处理文本信息，从而为后续的任务提供更准确的上下文理解和语义分析。对于一些特定领域，命名实体识别还可以帮助人类专家快速的获取信息。
[0003]近年来，随着信息化、数字化、智能化的加速发展，人们对基层治理主体多元化、手段信息化、方式灵活化提出了新要求，加快构建基层智慧治理体系，已经成为解决基层治理任务重、头绪多、难点多的有效方式。日渐成熟和发展的人工智能和计算机信息处理技术，帮助人类社会迈进智慧社会；随着社会治理的需要，当涉及到矛盾调解时，海量的基层矛盾调解文本需要进行处理分析，进而在预防疏通、辅助调解等方面发挥积极作用，对于复杂的矛盾调解数据，如何快速准确的定位相关人员，厘清事件脉络，为基层的治理人员提供辅助支撑，具有广阔的应用价值和发展前景。
[0004]文献[Lin Yao，Hong Liu，Y...

【技术保护点】

【技术特征摘要】
1.一种基于高效指针网络面向矛盾调解文本的命名实体识别方法，包括如下步骤：(1)对数据库中的矛盾调解文本进行预处理；(2)对矛盾调解文本进行实体标注，并划分成训练集、验证集和测试集；(3)构建RoBERTa预训练语言模型，其包括：编码层，用于对文本进行特征提取得到序列向量、字向量、位置向量，并将三者融合拼接得到初始嵌入向量；自注意力机制层，利用初始嵌入向量学习文本中的上下文信息，输出文本的隐藏特征向量；高效指针网络，基于隐藏特征向量进行抽取和分类，通过得分函数来计算文本中每一序列属于实体的概率分布；(4)利用训练集文本对RoBERTa预训练语言模型进行训练；(5)将测试集文本输入至训练好的模型中，即可输出得到对应的实体识别结果。2.根据权利要求1所述的命名实体识别方法，其特征在于：所述步骤(1)的具体实现方式为：首先使用自然语言处理库NLTK去除矛盾调解文本中一些无用的符号、标点符号、停用词，并对文本进行补充和切分，然后对文本数据进行标准化处理，使得文本长度归一化。3.根据权利要求1所述的命名实体识别方法，其特征在于：所述步骤(2)的具体实现方式为：首先将预处理后的矛盾调解文本划分为若干条目标语句，使用指针标注方法对每条目标语句中的实体部分和非实体部分进行标注，标注信息包括实体的开始字符start position、实体的结束字符end position、实体类别，进而将标注好的所有文本划分成训练集、验证集和测试集。4.根据权利要求1所述的命名实体识别方法，其特征在于：所述编码层利用词库字典将文本中每个字符转换为序列ID，然后在每条目标语句的开始位置插入特殊字符CLS，结束位置插入特殊字符SEP；进而将转换为序列ID的目标语句分别输入至word_embedding层、token_type_embedding层以及position_embedding层中进行特征提取，word_embedding层输出字向量，字向量中保存着每个文字的语义信息，token_type_embedding层输出序列向量，序列向量可区分文本中不同的语句，position_embedding层输出位置向量，位置向量保存着连续文字间的位置信息，最后将字向量、序列向量以及位置向量融合拼接，得到文本的初始嵌入向量。5.根据权利要求1所述的命名实体识别方法，其特征在于：所述自注意力机制层将文本的初始嵌入向量...

【专利技术属性】
技术研发人员：姚传彪，董慧，许永恩，马汉杰，陈子豪，
申请(专利权)人：杭州码全信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人