【技术实现步骤摘要】
本专利技术属于深度学习中的自然语言处理,具体的说是涉及一种高精度中文命名实体抽取模型的构建方法。
技术介绍
1、随着神经网络技术在人工智能技术的应用与发展,神经网络技术渐渐被广泛的应用各个领域,并取得了很多令人瞩目的成绩,其中很多专家学者将神经网络技术应用于自然语言领域,给自然语言处理这门学科的研究增添了新的动力。
2、命名实体识别(named entity recognition,ner)作为自然语言处理的基石性任务,是实现文本结构化与语义理解的关键技术。在中文语境下,命名实体抽取面临着独特挑战:字词边界模糊、一词多义现象普遍、嵌套实体结构复杂,加之语言表达的灵活性,使得准确识别实体边界与类型难度显著提升。中文命名实体抽取旨在从非结构化文本中自动提取具有特定语义的实体单元,如人名、地名、机构名等,并标注其类别标签,为关系抽取、信息检索等下游任务提供结构化数据支撑。
3、作为命名实体识别的核心环节,实体抽取的准确性直接决定了后续语义分析的可靠性。高质量的实体抽取结果不仅能够精准界定实体边界,还能有效降低语义歧义,
...【技术保护点】
1.一种高精度中文命名实体抽取模型的构建方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(2)的具体步骤为:
3.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(3)对BiLSTM输出文本标签进行信息序列标注和分割,输入到进行全局归一化处理的CRF层,获取标签序列的最优解;对于给定的句子x,其标签序列y的概率计算公式(5)如下所示:
4.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(4)获取关系的具体
...
【技术特征摘要】
1.一种高精度中文命名实体抽取模型的构建方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(2)的具体步骤为:
3.根据权利要求1所述的高精度中文命名实体抽取模型的构建方法,其特征在于:所述步骤(3)对bilstm输出文本标签进行信息序列标注和分割,输入到进行全局归一化处理的crf层,获取标签序列的最优解;对于给定的句子x,其标签序列y的...
【专利技术属性】
技术研发人员:徐洪炳,梁娟,钱玲,张国剑,封敏奇,唐琼,纪睿,叶奕庆,
申请(专利权)人:杭州市城市建设投资集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。