一种高精度中文命名实体抽取模型的构建方法技术

技术编号:46628554 阅读:0 留言:0更新日期:2025-10-14 21:26
本发明专利技术涉及一种高精度中文命名实体抽取模型的构建方法,包括以下步骤:通过基于Transformer的双向编码Bert预训练语言模型,将句子中的每个字转化为低维的字向量序列;将得到的字向量序列输入到提取词特征信息的Lattice结构层,并对BiLSTM输出的文本标签进行信息序列标注和分割,输入到进行全局归一化处理的CRF层。使用逐位相加的方式对除尾部字符的内部进行融合,再与尾部字符进行向量拼接,用线性映射转化为字向量序列同样的维度。最后将获取的多个关系以三元组的格式存储在Neo4j图数据库中。本发明专利技术可以提高字向量语义表示的准确性,有利于充分利用字词特征信息,提高中文命名实体识别的准确性。

【技术实现步骤摘要】

本专利技术属于深度学习中的自然语言处理,具体的说是涉及一种高精度中文命名实体抽取模型的构建方法


技术介绍

1、随着神经网络技术在人工智能技术的应用与发展,神经网络技术渐渐被广泛的应用各个领域,并取得了很多令人瞩目的成绩,其中很多专家学者将神经网络技术应用于自然语言领域,给自然语言处理这门学科的研究增添了新的动力。

2、命名实体识别(named entity recognition,ner)作为自然语言处理的基石性任务,是实现文本结构化与语义理解的关键技术。在中文语境下,命名实体抽取面临着独特挑战:字词边界模糊、一词多义现象普遍、嵌套实体结构复杂,加之语言表达的灵活性,使得准确识别实体边界与类型难度显著提升。中文命名实体抽取旨在从非结构化文本中自动提取具有特定语义的实体单元,如人名、地名、机构名等,并标注其类别标签,为关系抽取、信息检索等下游任务提供结构化数据支撑。

3、作为命名实体识别的核心环节,实体抽取的准确性直接决定了后续语义分析的可靠性。高质量的实体抽取结果不仅能够精准界定实体边界,还能有效降低语义歧义,为实体关系挖掘与知识本文档来自技高网...

【技术保护点】

1.一种高精度中文命名实体抽取模型的构建方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(2)的具体步骤为:

3.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(3)对BiLSTM输出文本标签进行信息序列标注和分割,输入到进行全局归一化处理的CRF层,获取标签序列的最优解;对于给定的句子x,其标签序列y的概率计算公式(5)如下所示:

4.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(4)获取关系的具体过程为:

...

【技术特征摘要】

1.一种高精度中文命名实体抽取模型的构建方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(2)的具体步骤为:

3.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(3)对bilstm输出文本标签进行信息序列标注和分割,输入到进行全局归一化处理的crf层,获取标签序列的最优解;对于给定的句子x,其标签序列y的...

【专利技术属性】
技术研发人员:徐洪炳梁娟钱玲张国剑封敏奇唐琼纪睿叶奕庆
申请(专利权)人:杭州市城市建设投资集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1