一种基于词汇增强的司法命名实体识别方法技术

技术编号:41013670 阅读:28 留言:0更新日期:2024-04-18 21:50
本发明专利技术属于自然语言处理技术领域,具体涉及一种基于词汇增强的司法命名实体识别方法。该方法使用司法文书数据集,通过引入基于词汇增强的字词网格结构,实现字词的联合嵌入以及多特征嵌入,能够提取字符在句子中的语义特征,从而融合汉字的字词特征和语义信息,获得更多的信息,进而得到全局最优系列标签。解决了传统中文命名实体识别模型难以迁移到司法领域以及在文本中仅使用字符向量表达存在的局限性。相较于传统的方法,本发明专利技术实现字词的联合嵌入以及多特征嵌入,融合汉字的字词特征和语义信息,提高了司法实体识别的有效性和准确性。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体涉及一种基于词汇增强的司法命名实体识别方法


技术介绍

1、在自然语言处理领域中,有一种针对命名实体的任务,称作命名实体识别。命名实体识别旨在从文本中识别出具有特定意义的实体。

2、现有的中文命名实体识别任务通常都是将其转化为序列标注问题并采用基于深度学习的方法,可以大致描述为下列流程:

3、1.数据准备:首要步骤包括数据收集与标注,其中文本数据集带有精确的命名实体标记。此数据集随后会被划分为训练集、验证集以及测试集,以确保模型的准确性与可泛化性。

4、2.文本预处理:此阶段旨在使文本数据具备结构化的特性。文本会首先经历分词处理,以将其划分为离散的单词或子词单元。接着,一个词汇表被精心构建,为每个词分配唯一的整数标识,以促进后续建模。

5、3.特征提取:特征工程在深度学习的语境下具有至关重要的作用。文本数据以词嵌入(word embeddings)向量的形式表示,这些向量可利用预训练的模型生成。此外,还有一种方法是对这些嵌入进行微调,以使其更适应命名实体识别任务,使得每个词的嵌本文档来自技高网...

【技术保护点】

1.一种基于词汇增强的司法命名实体识别方法,其特征在于,包括以下步骤:

【技术特征摘要】

1.一种基于词汇增强的司法命名实体识...

【专利技术属性】
技术研发人员:席瑞曹秦臻董文龙刘记博侯孟书
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1