【技术实现步骤摘要】
一种命名实体识别模型的训练方法及命名实体识别的方法
本专利技术涉及自然语言处理
,具体来说涉及命名实体识别
,更具体地说,涉及一种命名实体识别模型的训练方法及命名实体识别的方法。
技术介绍
自然语言处理是为了让计算机理解人类的语言,从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理(NaturalLanguageProcessing,简称NLP)的一个重要组成部分。命名实体识别是指识别文本中具有特定意义的事物名称或者符号的过程,命名实体主要包括人名、地名、机构名、日期、专有名词等。许多下游NLP任务或应用程序都依赖NER进行信息提取,例如问题回答、关系提取、事件提取和实体链接等。若能更准确地识别出文本中的命名实体,有助于计算机更好地理解语言的语义、更好地执行任务,从而提高人机交互体验。命名实体识别当前并不是一个大热的研究方向 ...
【技术保护点】
1.一种命名实体识别模型的训练方法,其中,所述命名实体识别模型包含BERT-CRF模型,其特征在于,所述训练方法包括:/nA1、获取初始训练集和待识别数据集;/nA2、用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛;其中,每轮训练包括:/n用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型;/n用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;/n从本轮得到的弱标注的待识别数据集中提取子集,将该子集与初始训练集组成用于下一轮训练的训练集。/n
【技术特征摘要】 【专利技术属性】
1.一种命名实体识别模型的训练方法,其中,所述命名实体识别模型包含BERT-CRF模型,其特征在于,所述训练方法包括:
A1、获取初始训练集和待识别数据集;
A2、用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛;其中,每轮训练包括:
用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型;
用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;
从本轮得到的弱标注的待识别数据集中提取子集,将该子集与初始训练集组成用于下一轮训练的训练集。
2.根据权利要求1所述的命名实体识别模型的训练方法,其特征在于,所述初始训练集是对标注数据集进行如下预处理后得到的数据集:
将标注数据集中的文本按照分句规则进行分句得到多个句子;
根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子,每个单词带有标签;
查询单词词典和标签词典获取每个单词的单词ID和标签ID以将句子转换成以单词ID和标签ID形式表示;
将句子进行填充或截断以将所有句子统一为规定长度;
所述待识别数据集是对无标注数据集进行如下预处理后得到的数据集:
将无标注数据集中的文本按照分句规则进行分句得到多个句子;
根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子;
查询单词词典获取每个单词的单词ID以将句子转换成以单词ID形式表示;
将句子进行填充或截断以将所有句子统一为规定长度。
3.根据权利要求2所述的命名实体识别模型的训练方法,其特征在于,所述用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型包括:
将本轮数据集中的句子输入命名实体识别模型中BERT-CRF模型的BERT层,得到句子中单词的编码向量;
将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;
BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;
根据最优标注序列得到单词的识别标签ID,并用单词的识别标签ID与标注数据集中单词的标签ID调整命名实体识别模型中BERT-CRF模型的参数。
4.根据权利要求3述的命名实体识别模型的训练方法,其特征在于,所述用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集包括:
技术研发人员:郭嘉丰,范意兴,刘艺菲,张儒清,程学旗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。