一种基于融合序列特征的命名实体识别方法技术

技术编号:37063232 阅读:35 留言:0更新日期:2023-03-29 19:41
本发明专利技术公开了一种基于融合序列特征的命名实体识别方法,包括:获取文本数据集并进行预处理,预处理为采用BIO标记方法对文本数据集中各语句的字符进行标记;为预处理后的文本数据集中的各语句构建对应的标签序列;将文本数据集中的每个语句和对应的标签序列作为一个样本存入训练集;构建命名实体识别模型并利用训练集进行训练,命名实体识别模型包括依次连接的Bert预训练语言模型、计算模块、判断模块、BiLSTM模型和条件随机场;将待识别语句输入训练好的命名实体识别模型,获得命名实体识别结果。该方法通过对语句中的字符引入序列特征,能够学习到更加丰富的语义信息,从而提升命名实体识别结果的准确性。命名实体识别结果的准确性。命名实体识别结果的准确性。

【技术实现步骤摘要】
一种基于融合序列特征的命名实体识别方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于融合序列特征的命名实体识别方法。

技术介绍

[0002]近年来,随着信息技术的快速发展,大量数据呈现出指数级的增长,每时每刻都有各种类型的数据产生,其中包括不同领域的文本数据。这些文本数据大多数以非结构化的形式存在,同时这些海量的非结构化数据中蕴藏着丰富的知识,如何从这些非结构化的文本数据中提取有价值的信息,成为了当前社会研究的热点。
[0003]自然语言处理技术的快速发展促进解决这类问题。命名实体识别是自然语言处理中的一个重要基本任务,其目的就是在非结构化的文本数据中抽取出具有价值的命名实体,这些命名实体能够帮助研究人员快速的找出文本数据中的关键信息,从而更好地理解句子的含义,同时命名实体识别也为后续的关系抽取、自动问答、知识图谱等自然语言处理任务打下良好的基础。
[0004]随着深度学习的发展,传统的命名实体识别方法逐渐被取代,基于深度学习的命名实体识别方法成为主流。目前,在命名实体识别领域中,主流的深度学习模型有双向长短本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于融合序列特征的命名实体识别方法,其特征在于:所述基于融合序列特征的命名实体识别方法包括如下步骤:步骤1、获取文本数据集并进行预处理,所述文本数据集包括若干个语句,所述预处理为采用BIO标记方法对文本数据集中各语句的字符进行标记;步骤2、为预处理后的文本数据集中的各语句构建对应的标签序列,所述标签序列表示如下:Sentence={(word1,type1),

,(word
i
,type
i
),

,(word
n
,type
n
)}式中,word
i
表示标记后的语句中的第i个字符,type
i
表示标记后的语句中的第i个字符所属的实体类别,i=1~n,n为标记后的语句中的字符总数;步骤3、将文本数据集中的每个语句和对应的标签序列作为一个样本存入训练集;步骤4、构建命名实体识别模型并利用训练集进行训练,获得训练好的命名实体识别模型,所述命名实体识别模型包括依次连接的Bert预训练语言模型、计算模块、判断模块、BiLSTM模型和条件随机场,训练过程如下:步骤41、利用Bert预训练语言模型对训练集中各样本的字符进行特征向量提取,获得每个字符的字符特征向量,并将对应样本的全部字符特征向量表示如...

【专利技术属性】
技术研发人员:郭方洪金聪傅金波刘涛朱琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1