本发明专利技术公开了一种基于高效指针网络面向矛盾调解文本的命名实体识别方法,通过基于注意力机制的模型自动识别和提取实体信息,从而提高实体识别的准确性和效率;同时,本发明专利技术基于高效指针网络的实体矩阵解析方法,减少了由于实体类别增加而产生的大规模的参数增加,每增加一种实体类别,只需要线性级别参数的增加,并且融合多层输出向量,进一步优化指针网络打分方式,提高模型性能。因此,本发明专利技术方法在实际应用中具有较高的可靠性和实用性,可以帮助解决实体识别中遇到的各种挑战和难题。助解决实体识别中遇到的各种挑战和难题。助解决实体识别中遇到的各种挑战和难题。
【技术实现步骤摘要】
基于高效指针网络面向矛盾调解文本的命名实体识别方法
[0001]本专利技术属于自然语言处理
,具体涉及一种基于高效指针网络面向矛盾调解文本的命名实体识别方法。
技术介绍
[0002]在自然语言处理领域,深度神经网络模型经过良好的训练能够完成多种自然语言处理的子任务,例如命名实体抽取等,并且展现出较好的性能。命名实体任务旨在从文本中识别出具有特定意义的实体,如人名、地名、组织名、时间、日期、货币等,这些实体通常是文本中需要特殊处理和理解的重要信息单元。命名实体识别的应用非常广泛,特别是在信息抽取、文本分类、问答系统、知识图谱构建等领域中扮演着重要的角色,通过识别出文本中的命名实体,计算机能够更好地理解和处理文本信息,从而为后续的任务提供更准确的上下文理解和语义分析。对于一些特定领域,命名实体识别还可以帮助人类专家快速的获取信息。
[0003]近年来,随着信息化、数字化、智能化的加速发展,人们对基层治理主体多元化、手段信息化、方式灵活化提出了新要求,加快构建基层智慧治理体系,已经成为解决基层治理任务重、头绪多、难点多的有效方式。日渐成熟和发展的人工智能和计算机信息处理技术,帮助人类社会迈进智慧社会;随着社会治理的需要,当涉及到矛盾调解时,海量的基层矛盾调解文本需要进行处理分析,进而在预防疏通、辅助调解等方面发挥积极作用,对于复杂的矛盾调解数据,如何快速准确的定位相关人员,厘清事件脉络,为基层的治理人员提供辅助支撑,具有广阔的应用价值和发展前景。
[0004]文献[Lin Yao,Hong Liu,Yi Liu,Xinxin Li,and Muhammad Waqas Anwar.Biomedical named entity recognition based on deep neutral network.Int.J.Hybrid Inf.Technol,8(8):279
‑
288,2015]使用卷积神经网络进行命名实体识别,提出了一种基于深度神经网络结构的生物医学命名实体识别(Bio
‑
NER)方法,该方法具有多层结构,每一层根据下层生成的特征对特征进行抽象;该神经网络模型通过滑动窗口按照时间顺序控制单词输入,滑动窗口内的单词,表示为实值向量,经过线性层和sigmoid层的变换,生成该个单词的针对每个标签的节点得分;最后输出一个句子的分数框格,每一列的节点表示在特定时间的标签得分,采用Viterbi算法获得最优标签序列。但该模型的重点在于是否正确识别左边界词,它可以影响整个实体的识别,而实体可能包含几个词,因此一旦第一个单词标记错误,接下来的单词也将是不正确的。
[0005]文献[Peng
‑
Hsuan Li,Ruo
‑
Ping Dong,Yu
‑
Siang Wang,Ju
‑
Chieh Chou,and Wei
‑
Yun Ma.Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks.In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing,pages 2664
‑
2669,2017]利用文本的语言结构来改进BRNN
‑
CNN的命名实体识别,BRNN
‑
CNN是一种特殊的双向递归网络,附加了一个卷积网络,作者基于命名实体与语言成分高度相关的观察,提出了一种基于成
分的BRNN
‑
CNN命名实体识别方法。与传统的顺序标记方法相比,该系统首先通过文本块是否为语言成分来识别哪些文本块可能是命名实体,然后通过递归地将语法和语义信息传播到每个组成节点,对这些块进行分类。
[0006]文献[DAI Z,WANG X,NI P,et al.Named entity recognition using BERT BiLSTM CRF for Chinese electronic health records[C]//2019 12th International Congress on Image and Signal Processing,Biomedical Engineering and Informatics(CISP
‑
BMEI).2019:1
‑
5]使用了一种Bert
‑
BiLSTM
‑
CRF的架构,该模型一种基于预训练BERT模型、双向长短期记忆网络(BiLSTM)和条件随机场(CRF)的命名实体抽取模型,该模型的整体技术方案为:首先利用大规模的文本语料对BERT进行预训练,以获取丰富的语义表示,BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer的预训练模型,具有强大的语义表达能力;然后将文本序列中的每个单词或字符转换为对应的词向量,通常使用预训练BERT模型对文本序列进行编码,得到每个单词或字符的上下文相关的词向量,将词向量输入到BiLSTM层中,BiLSTM能够从两个方向分别对输入序列进行建模,获得双向上下文信息,从而更好地理解文本序列的语义;在BiLSTM层后添加一个CRF层来对命名实体进行标注,CRF是一种序列建模方法,它考虑了标签之间的依赖关系,并可以在整个序列上进行全局最优标注。Bert
‑
BiLSTM
‑
CRF模型将预训练的BERT模型与BiLSTM和CRF相结合,充分利用了BERT的语义表示能力和BiLSTM的上下文建模能力,同时通过CRF层来建模实体标签之间的关系,从而在命名实体抽取任务中取得了较好的效果。但是该模型架构也存在一定问题:首先BERT参数量较少,词向量维度为768维,表征能力有所欠缺,对于复杂语义的语义理解不够深入,模型整体性能还有较大提升空间;其次CRF模型在是序列标注任务的主流解码器,但是其输出的结果为全局最优结果,且序列标注对于单个字的识别结果只有一种,无法识别出嵌套实体,对于包含嵌套实体的数据集,效果较差。
[0007]综上分析,命名实体识别作为自然语言处理中的一个重要任务,已经有了很多成熟的技术和方法,但仍然存在一些缺点和局限性,这些缺点包括:
[0008]1.数据稀缺和标注困难;获取大规模高质量的标注数据是训练NER模型的关键,但对于一些特定领域和低资源语言,标注数据往往很难获得;手动标注数据也是一项耗时且繁重的工作,需要专业人员进行标注,导致标注成本较高。
[0009]2.长文本实体识别不清问题;一些实际应用中的文本长度可能较长,但传统的序列标注模型(如BiL本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于高效指针网络面向矛盾调解文本的命名实体识别方法,包括如下步骤:(1)对数据库中的矛盾调解文本进行预处理;(2)对矛盾调解文本进行实体标注,并划分成训练集、验证集和测试集;(3)构建RoBERTa预训练语言模型,其包括:编码层,用于对文本进行特征提取得到序列向量、字向量、位置向量,并将三者融合拼接得到初始嵌入向量;自注意力机制层,利用初始嵌入向量学习文本中的上下文信息,输出文本的隐藏特征向量;高效指针网络,基于隐藏特征向量进行抽取和分类,通过得分函数来计算文本中每一序列属于实体的概率分布;(4)利用训练集文本对RoBERTa预训练语言模型进行训练;(5)将测试集文本输入至训练好的模型中,即可输出得到对应的实体识别结果。2.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤(1)的具体实现方式为:首先使用自然语言处理库NLTK去除矛盾调解文本中一些无用的符号、标点符号、停用词,并对文本进行补充和切分,然后对文本数据进行标准化处理,使得文本长度归一化。3.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤(2)的具体实现方式为:首先将预处理后的矛盾调解文本划分为若干条目标语句,使用指针标注方法对每条目标语句中的实体部分和非实体部分进行标注,标注信息包括实体的开始字符start position、实体的结束字符end position、实体类别,进而将标注好的所有文本划分成训练集、验证集和测试集。4.根据权利要求1所述的命名实体识别方法,其特征在于:所述编码层利用词库字典将文本中每个字符转换为序列ID,然后在每条目标语句的开始位置插入特殊字符CLS,结束位置插入特殊字符SEP;进而将转换为序列ID的目标语句分别输入至word_embedding层、token_type_embedding层以及position_embedding层中进行特征提取,word_embedding层输出字向量,字向量中保存着每个文字的语义信息,token_type_embedding层输出序列向量,序列向量可区分文本中不同的语句,position_embedding层输出位置向量,位置向量保存着连续文字间的位置信息,最后将字向量、序列向量以及位置向量融合拼接,得到文本的初始嵌入向量。5.根据权利要求1所述的命名实体识别方法,其特征在于:所述自注意力机制层将文本的初始嵌入向量...
【专利技术属性】
技术研发人员:姚传彪,董慧,许永恩,马汉杰,陈子豪,
申请(专利权)人:杭州码全信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。