一种基于对抗训练的命名实体识别方法技术

技术编号：24252001 阅读：43 留言：0更新日期：2020-05-22 23:48

本发明专利技术公开了一种基于对抗训练的命名实体识别方法，分别通过RoBERTa模型训练和Bi‑LSTM的训练获得司法领域文字之间关联性特征；然后将两种关联性特征拼接在一起，利用条件随机场模型对训练样本进行预测获得预测的结果；本发明专利技术能够引入不同维度的外部词向量与字向量与不同维度的司法领域文本字词混合向量相结合，并且针对司法领域文本中混合词向量进行对抗扰动，增加模型识别的准确率。

A named entity recognition method based on confrontation training

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗训练的命名实体识别方法
本专利技术属于命名实体识别的
，具体涉及一种基于对抗训练的命名实体识别方法。
技术介绍
命名实体识别在各个领域已经有了广泛的应用，各领域也针对命名实体识别进行了不同程度的优化，在传统的命名实体识别中需要耗费大量的人员针对特定的领域进行特征提取,并利用概率图模型进行命名实体识别，随着近几年深度学习的兴起，各领域已经利用深度学习的方法对命名实体识别进行了大量的探索，目前在金融，医疗，法律领域已经有大量的探索与实践，减少了大量的人工成本，并提高了准确率，如何利用这些信息尤为关键，在利用命名实体识别技术，对某些特定领域中具有特定意义的实体，比如在司法文本中(嫌疑人，被告，原告等)，通过这些实体的识别可以为之后信息提取、问答系统、句法分析、知识推理，构建知识图谱等重要任务打下来重要的基础。目前，命名实体识别在司法领域中的主要方法分为三大类：第一类基于概率图模型，该方法主要使用条件随机场(CRF)模型，是给定一组输入序列条件下另一组输出序列的条件概率分布模型，通过输入带标签特定领...

【技术保护点】
1.一种基于对抗训练的命名实体识别方法，其特征在于，包括以下步骤：/n步骤一、将司法领域的裁判文书切分为单个文字作为训练样本，通过RoBERTa模型训练获得司法领域文字之间关联性特征；/n将司法领域的裁判文书切分为单个文字和词组，利用Word2Vec方法将词组转换为词向量，利用Fasttext方法将单个文字转换为基于字的词向量；引入司法领域之外的利用Word2Vec方法得到的词向量，引入司法领域之外的利用Fasttext方法得到的基于字的词向量；将所有词向量混合；/n步骤二、对混合的词向量矩阵进行扰动，通过损失函数的最大值来找到最坏情况的扰动，利用外部经验风险的最小化来得到模型的最佳鲁棒参数，...

【技术特征摘要】
1.一种基于对抗训练的命名实体识别方法，其特征在于，包括以下步骤：
步骤一、将司法领域的裁判文书切分为单个文字作为训练样本，通过RoBERTa模型训练获得司法领域文字之间关联性特征；
将司法领域的裁判文书切分为单个文字和词组，利用Word2Vec方法将词组转换为词向量，利用Fasttext方法将单个文字转换为基于字的词向量；引入司法领域之外的利用Word2Vec方法得到的词向量，引入司法领域之外的利用Fasttext方法得到的基于字的词向量；将所有词向量混合；
步骤二、对混合的词向量矩阵进行扰...

【专利技术属性】
技术研发人员：袁超逸，刘忠麟，王立才，张起闻，罗琪彬，郝韫宏，李孟书，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人