一种基于标签语义增强的中文微博命名实体识别方法技术

技术编号:40345664 阅读:33 留言:0更新日期:2024-02-09 14:31
本发明专利技术涉及一种基于标签语义增强的中文微博命名实体识别方法,包括:获取源域中文语料数据集和目标域中文语料数据集,并进行预处理;构建标签到自然语言的转换文件、以及标签到整数编码的转换字典;根据构建的转换文件对源域中文语料数据集进行预处理;利用预处理后的源域中文语料数据集对命名实体识别模型进行预训练;所述命名实体识别模型包括:BERT模型和CRF模型;根据目标域中文语料数据集预训练的命名实体识别模型进行微调得到训练好的命名实体识别模型;将待识别的中文预料通过训练好的命名实体识别模型和对待识别的中文预料进行命名实体识别,根据标签在语料集中的相似性来提升目标语料集上的准确性,提高预测精度。

【技术实现步骤摘要】

本专利技术涉及中文命名实体识别领域,具体涉及一种基于标签语义增强的中文微博命名实体识别方式。


技术介绍

1、命名实体识别是信息抽取和信息检索中一项重要的任务,其目的是在非结构化文本中定位实体跨度,并将其归类到预先定义的类别中,所以命名实体识别也是一项文本多分类任务。命名实体识别通常作为复杂任务的上游组件,比如自动问答、关系抽取等。随着计算机技术的发展,自然语言理解和文本挖掘研究不断深入,许多领域对于自然语言处理的需求不断提高,理解文本语义显得愈发重要。命名实体识别作为准确理解文本的前提,已成为了一项热门问题。

2、网络时代的到来以及信息技术的发展使得人们社交形式不断更新,其背后产生的大量数据成为不可忽视的难题。各类社交平台为了提升用户体验,更好地满足用户需求,对用户数据的信息提取需求日益增加。同时当前网络上各种信息混杂,为了更好的管理网络信息,也需要更加精确的识别用户数据。这些需求使得社交媒体领域的命名实体识别成为当下热点任务之一。

3、社交媒体作为网络时代的新产物,其命名实体识别主要有三个难点:第一,与英文的每句首字母大写不同,中本文档来自技高网...

【技术保护点】

1.一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述步骤S1中的预处理包括:去除中文语料中的标点符号、空格、大小写转换、分词等。

3.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述标签表示为中文语料对应的BIO标记。

4.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,根据步骤S2构建的转换文件对源域中文语料数据集进行预处理包括:

5.根据权利要求4所述的一种基于标...

【技术特征摘要】

1.一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述步骤s1中的预处理包括:去除中文语料中的标点符号、空格、大小写转换、分词等。

3.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述标签表示为中文语料对应的bio标记。

4.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,根据步骤s2构建的转换文件对源域中文语料数据集进行预处理包括:

5.根据权利要求4所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述利用预处理后的源域中文语料数据集对命名实体识别模型进行预训练包括:

6.根据权利要求5所述的一种基于标签语义增强的中文微...

【专利技术属性】
技术研发人员:杨富平冯沛林
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1