【技术实现步骤摘要】
本专利技术涉及中文命名实体识别领域,具体涉及一种基于标签语义增强的中文微博命名实体识别方式。
技术介绍
1、命名实体识别是信息抽取和信息检索中一项重要的任务,其目的是在非结构化文本中定位实体跨度,并将其归类到预先定义的类别中,所以命名实体识别也是一项文本多分类任务。命名实体识别通常作为复杂任务的上游组件,比如自动问答、关系抽取等。随着计算机技术的发展,自然语言理解和文本挖掘研究不断深入,许多领域对于自然语言处理的需求不断提高,理解文本语义显得愈发重要。命名实体识别作为准确理解文本的前提,已成为了一项热门问题。
2、网络时代的到来以及信息技术的发展使得人们社交形式不断更新,其背后产生的大量数据成为不可忽视的难题。各类社交平台为了提升用户体验,更好地满足用户需求,对用户数据的信息提取需求日益增加。同时当前网络上各种信息混杂,为了更好的管理网络信息,也需要更加精确的识别用户数据。这些需求使得社交媒体领域的命名实体识别成为当下热点任务之一。
3、社交媒体作为网络时代的新产物,其命名实体识别主要有三个难点:第一,与英文的每
...【技术保护点】
1.一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,包括:
2.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述步骤S1中的预处理包括:去除中文语料中的标点符号、空格、大小写转换、分词等。
3.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述标签表示为中文语料对应的BIO标记。
4.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,根据步骤S2构建的转换文件对源域中文语料数据集进行预处理包括:
5.根据权利要
...【技术特征摘要】
1.一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,包括:
2.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述步骤s1中的预处理包括:去除中文语料中的标点符号、空格、大小写转换、分词等。
3.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述标签表示为中文语料对应的bio标记。
4.根据权利要求1所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,根据步骤s2构建的转换文件对源域中文语料数据集进行预处理包括:
5.根据权利要求4所述的一种基于标签语义增强的中文微博命名实体识别方法,其特征在于,所述利用预处理后的源域中文语料数据集对命名实体识别模型进行预训练包括:
6.根据权利要求5所述的一种基于标签语义增强的中文微...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。