【技术实现步骤摘要】
本专利技术属于自然语言处理,具体涉及一种基于词汇增强的司法命名实体识别方法。
技术介绍
1、在自然语言处理领域中,有一种针对命名实体的任务,称作命名实体识别。命名实体识别旨在从文本中识别出具有特定意义的实体。
2、现有的中文命名实体识别任务通常都是将其转化为序列标注问题并采用基于深度学习的方法,可以大致描述为下列流程:
3、1.数据准备:首要步骤包括数据收集与标注,其中文本数据集带有精确的命名实体标记。此数据集随后会被划分为训练集、验证集以及测试集,以确保模型的准确性与可泛化性。
4、2.文本预处理:此阶段旨在使文本数据具备结构化的特性。文本会首先经历分词处理,以将其划分为离散的单词或子词单元。接着,一个词汇表被精心构建,为每个词分配唯一的整数标识,以促进后续建模。
5、3.特征提取:特征工程在深度学习的语境下具有至关重要的作用。文本数据以词嵌入(word embeddings)向量的形式表示,这些向量可利用预训练的模型生成。此外,还有一种方法是对这些嵌入进行微调,以使其更适应命名实体识别
...【技术保护点】
1.一种基于词汇增强的司法命名实体识别方法,其特征在于,包括以下步骤:
【技术特征摘要】
1.一种基于词汇增强的司法命名实体识...
【专利技术属性】
技术研发人员:席瑞,曹秦臻,董文龙,刘记博,侯孟书,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。