一种命名实体识别模型的训练方法及命名实体识别的方法技术

技术编号:25836612 阅读:47 留言:0更新日期:2020-10-02 14:17
本发明专利技术实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明专利技术利用训练集训练BERT‑CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。

【技术实现步骤摘要】
一种命名实体识别模型的训练方法及命名实体识别的方法
本专利技术涉及自然语言处理
,具体来说涉及命名实体识别
,更具体地说,涉及一种命名实体识别模型的训练方法及命名实体识别的方法。
技术介绍
自然语言处理是为了让计算机理解人类的语言,从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理(NaturalLanguageProcessing,简称NLP)的一个重要组成部分。命名实体识别是指识别文本中具有特定意义的事物名称或者符号的过程,命名实体主要包括人名、地名、机构名、日期、专有名词等。许多下游NLP任务或应用程序都依赖NER进行信息提取,例如问题回答、关系提取、事件提取和实体链接等。若能更准确地识别出文本中的命名实体,有助于计算机更好地理解语言的语义、更好地执行任务,从而提高人机交互体验。命名实体识别当前并不是一个大热的研究方向,因为学术界普遍认为本文档来自技高网...

【技术保护点】
1.一种命名实体识别模型的训练方法,其中,所述命名实体识别模型包含BERT-CRF模型,其特征在于,所述训练方法包括:/nA1、获取初始训练集和待识别数据集;/nA2、用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛;其中,每轮训练包括:/n用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型;/n用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;/n从本轮得到的弱标注的待识别数据集中提取子集,将该子集与初始训练集组成用于下一轮训练的训练集。/n

【技术特征摘要】
1.一种命名实体识别模型的训练方法,其中,所述命名实体识别模型包含BERT-CRF模型,其特征在于,所述训练方法包括:
A1、获取初始训练集和待识别数据集;
A2、用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛;其中,每轮训练包括:
用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型;
用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;
从本轮得到的弱标注的待识别数据集中提取子集,将该子集与初始训练集组成用于下一轮训练的训练集。


2.根据权利要求1所述的命名实体识别模型的训练方法,其特征在于,所述初始训练集是对标注数据集进行如下预处理后得到的数据集:
将标注数据集中的文本按照分句规则进行分句得到多个句子;
根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子,每个单词带有标签;
查询单词词典和标签词典获取每个单词的单词ID和标签ID以将句子转换成以单词ID和标签ID形式表示;
将句子进行填充或截断以将所有句子统一为规定长度;
所述待识别数据集是对无标注数据集进行如下预处理后得到的数据集:
将无标注数据集中的文本按照分句规则进行分句得到多个句子;
根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子;
查询单词词典获取每个单词的单词ID以将句子转换成以单词ID形式表示;
将句子进行填充或截断以将所有句子统一为规定长度。


3.根据权利要求2所述的命名实体识别模型的训练方法,其特征在于,所述用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型包括:
将本轮数据集中的句子输入命名实体识别模型中BERT-CRF模型的BERT层,得到句子中单词的编码向量;
将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;
BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;
根据最优标注序列得到单词的识别标签ID,并用单词的识别标签ID与标注数据集中单词的标签ID调整命名实体识别模型中BERT-CRF模型的参数。


4.根据权利要求3述的命名实体识别模型的训练方法,其特征在于,所述用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集包括:

【专利技术属性】
技术研发人员:郭嘉丰范意兴刘艺菲张儒清程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1