一种基于对抗训练的审计领域命名实体识别方法技术

技术编号：33391440 阅读：35 留言：0更新日期：2022-05-11 23:08

随着新审计法的颁布，从审计领域语料中自动识别有效实体信息，有利于提高审计政策落实的效率。命名实体识别(Named Entity Recognition，NER)旨在识别语料中的实体，且深度学习方法在该任务上应用成熟且成果显著，但审计领域语料的数据库不够完善，对于实体边界划分也不够清晰。本发明专利技术提出了一种基于对抗训练的审计领域命名实体识别方法。中文分词(Chinese Word Segmentation，CWS)用于识别词的边界，与NER有许多相同的词边界信息，使用相同之处来辅助NER任务并帮助进行边界的划分。使用BERT得到词向量，通过对抗训练来提取NER任务和CWS任务的共享信息，同时有效防止CWS任务的私有信息带来的噪声，并将任务共享的词边界信息融合到NER任务中，提高审计领域命名实体识别的精确度。体识别的精确度。体识别的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗训练的审计领域命名实体识别方法

[0001]本专利技术涉及命名实体识别
，具体为一种基于对抗训练的审计领域命名实体识别方法。

技术介绍

[0002]命名实体识别(Named Entity Recognition，NER)是自然语言处理(Natural Language Processing，NLP)最重要的基础任务，是关系提取、问答系统等的前置任务。其主要任务是从非结构化文本中标记出预定义的实体类型，譬如地名、机构名等。传统命名实体识别方法多从改进模型和特征工程着手，以减少对规则方法和专家知识的依赖，但对实体边界的问题却关注甚少。随着新审计法的颁布，审计政策也划分的越来越详细，审计政策文本也逐日增加。同时，审计政策落实在审计过程中也越来越重要，现有的审计政策落实多以人工为主，加大了审计人员的工作量。此外，审计政策多是非结构化文本，提取其中的实体有利于帮助提高审计政策落实的效率。在审计领域中，审计领域语料的数据库不够完善，对于实体边界划分也不够详细。中文分词(Chinese Word Segmentation...

【技术保护点】

【技术特征摘要】
1.一种基于对抗训练的审计领域命名实体识别方法，其特征在于：包括以下步骤：S1)：数据集的获取：使用审计领域数据集作为本发明的NER数据集；使用新时代人民日报分词语料作CWS数据集；使用CWS辅助NER任务。S11)：NER数据集审计领域数据集利用网络爬虫从政府网站上收集扶贫政策相关语料，通过筛选字数在10到100的语句构建语料，并对原始数据进行预处理，包括删除非正文部分、统一编码、字段化；按照7：2：1方式划分成训练集、验证集和测试集，并使用人工对4种实体类型：人名、地名、机构名和专有名词，采用BIO方式进行语料标注。S12)：CWS数据集新时代人民日报分词语料通过南京农业大学人文与社会计算研究中心网站http://corpus.njau.edu.cn获取。S2)：模型的构建：本发明提出的模型框架，纵向包括三个任务，左边命名为实体识别任务，包括NER BERT Embedding模块、NER Private BiLSTM模块和NER CRF模块；右边为中文分词任务，包括CWS BERT Embedding模块、CWS Private BiLSTM模块和CWS CRF模块；中间为对抗训练任务，包括Shared BiLSTM模块和对抗训练模块；三个任务横向均包括嵌入层、共享
‑
私有特征提取层和CRF层或对抗训练层，下面根据三个任务横向对结构进行介绍。S21)：嵌入层将语料输入嵌入层，BERT采用了Transformer进行编码，引入了Self
‑
attention机制预测词间的依赖关系及捕获句子内部结构的信息，对输入句子的长度超过n的进行截断，同时对句子的长度少于n的使用0进行补全；在句子首位添加输入表示的向量[CLS]和划分句子对的向量[SEP]，对句子进行训练可以获得更准确的语义信息；之后使用Segment嵌入判断给定句子间是否是连续的方式获得句子级别特征；由于文本的字词顺序对句子含义至关重要，BERT对每个字符位置进行独立编码，学习输入序列的顺序特征，从而获得各自位置的信息；最后将Token嵌入、Segment嵌入和Position嵌入获得的向量进行相加，即为BERT的输出序列。S211)：NER BERT Embedding模块使用审计领域数据集用于NER任务，将给定的句子W＝[w1，w2，...，w
n
]输入NER BERT Embedding模块后，可以输出每个词的词向量的序列X＝[x1，x2，...，x
n
]，其中，w
i
为句子中的词，x
i
为w
i
对应的词向量，n为句子的长度。S212)：CWS BERT Embedding模块使用新时代人民日报分词语料用于CWS任务，将给定的句子W
′
＝[w
′1，w
′2，...，w
′
m
]输入CWS BERT Embedding模块后，可以输出每个词的词向量的序列X
′
＝[x
′1，x
′2，...，x
′
m
]，其中，w
′
i
为句子中的词，x
′
i
为w
′
i
对应的词向量，m为句子的长度，并规定n＞m；综上，将X
′
中每维向量进行补全到n，将补全后的X
′
整体连接到X的下方，得到序列用于对抗训练任务提取共享信息的输入。S22)：共享
‑
私有特征提取层采用双向LSTM进行特征提取；给定输入序列进行特征提取，可以获得的输出特征，在第
i时刻的隐藏状态表示如式(1)到(3)所示：i时刻的隐藏状态表示如式(1)到(3)所示：i时刻的隐藏状态表示如式(1)到(3)所示：其中，和分别表示第i时刻的前向和后向的隐藏状态，表示连接操作。S221)：NER Private BiLSTM模块将序列X＝[x1，x2，...，x
n
]输入NER Private BiLSTM模块进行私有特征提取，可以获得NER任务私有BiLSTM的输出特征其中，表示第i时刻输出的NER任务私有特征；对于审计领域数据集中的任意句子，私有的BiLSTM的隐藏状态表示如式(4)所示：其中，θ
np
为NER私有BiLSTM参数，用于隐藏状态的维度设置。S222)：CWS Private BiLSTM模块将序列X
′
＝[x
′1，x
′2，...，x
′
m
]输入CWS Private B...

【专利技术属性】
技术研发人员：钱泰羽，陈一飞，乔红岩，
申请(专利权)人：南京审计大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人