System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及命名实体识别领域,尤其涉及实体提取混合模型训练方法、系统、计算机设备及存储介质。
技术介绍
1、近年来,随着互联网和信息技术的飞速发展,各个领域已经进入了大数据的时代,如何从海量数据中高效精准地获取关键信息成为当下学术界与工业界的研究热点。实体识别与提取作为关键有效信息获取的一个重要任务,对后续的关系抽取、知识图谱构建等任务具有重要意义。传统的实体识别与提取主要是基于规则和词典来实现的,需要手动设计和提取特征,对于复杂的文本数据和多样化的实体类型不够适用;另外,基于规则和词典的方法需要事先定义和维护规则或词典,这对于频繁变化的实体和不同领域的数据存在一定的限制。近年来,随着人工智能技术的快速发展,许多研究人员开始在实体识别与提取任务中探索深度学习方法的应用,并取得了很大的成功。然而,目前该领域仍然存在一些缺陷和问题:
2、首先,由于实体识别与提取任务需要大量标注数据来训练模型,所以在某些特定领域可用于训练的数据可能较为有限,存在数据稀缺和领域依赖问题。另外,由于相同的词可能表示不同的实体类别,每种实体类别具有其特定的语义特征和上下文环境,导致该领域任务存在实体多义性和实体类别多样性问题。最后,在复杂的语境中往往存在模糊边界、嵌套实体和重叠实体的情况,需要算法模型具有较强的语义理解能力和上下文推理能力。
技术实现思路
1、为了解决上述现有技术中存在的技术问题,本专利技术提供了一种实体提取混合模型训练方法、系统、计算机设备及存储介质。
2、为实现上
3、第一方面,在本专利技术提供的一个实施例中,提供了实体提取混合模型训练方法,该方法包括以下步骤:
4、获取第一样本数据,并对第一样本数据进行预处理,获得预处理后的第二样本数据:
5、对第二样本数据进行数据标注,并将其构建为数据集,并将所述数据集分为训练集和测试集;
6、构建基于注意力机制和条件随机场的初始实体提取混合模型,并利用训练集和测试集对实体提取混合模型进行训练和测试,以获得最终实体提取混合模型。
7、作为本专利技术的进一步方案,所述获取第一样本数据,包括:
8、通过网络爬虫获取第一样本数据。
9、作为本专利技术的进一步方案,所述预处理包括文本清洗、停用词移除、数据去重和标准化处理。
10、作为本专利技术的进一步方案,所述对第二样本数据进行数据标注,并将其构建为数据集,并将所述数据集分为训练集和测试集,包括:
11、使用boi标注策略对第二样本数据进行标注;
12、对标注后的第二样本数据构建标签序列并划分数据集,以获得训练集和测试集。
13、作为本专利技术的进一步方案,所述构建基于注意力机制和条件随机场的初始实体提取混合模型,并利用训练集和测试集对实体提取混合模型进行训练和测试,以获得最终实体提取混合模型,包括:
14、使用bert预训练模型提取训练集的字词特征向量;
15、构建双向长短期记忆网络bilstm;
16、构建注意力模块进行特征加权;
17、引入条件随机场进行约束;
18、使用训练集对构建的初始实体提取混合模型进行训练,同时使用adam优化器更新模型参数,使用交叉熵损失函数优化模型性能,以获得中间实体提取混合模型。
19、作为本专利技术的进一步方案,在所述使用训练集对构建的初始实体提取混合模型进行训练,同时使用adam优化器更新模型参数,使用交叉熵损失函数优化模型性能,以获得中间实体提取混合模型,之后还包括,对中间实体提取混合模型评估,评估合格以获得最终实体提取混合模型。
20、第二方面,在本专利技术提供的又一个实施例中,提供了实体提取混合模型训练装置,该装置包括:样本数据获取模块、样本数据处理模块和模型训练模块。
21、所述样本数据获取模块,用于获取第一样本数据,并对第一样本数据进行预处理,获得预处理后的第二样本数据。
22、所述样本数据处理模块,用于对第二样本数据进行数据标注,并将其构建为数据集,并将所述数据集分为训练集和测试集。
23、所述模型训练模块,用于构建基于注意力机制和条件随机场的初始实体提取混合模型,并利用训练集和测试集对实体提取混合模型进行训练和测试,以获得最终实体提取混合模型。
24、第三方面,在本专利技术提供的又一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现实体提取混合模型训练方法的步骤。
25、第四方面,在本专利技术提供的再一个实施例中,提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现所述实体提取混合模型训练方法的步骤。
26、第五方面,在本专利技术提供的又一个实施例中,提供了一种基于注意力机制和条件随机场的企业知识库搭建及智能检索装置,该装置包括知识标记模块和知识检索模块;其中知识检索模块包括最终实体提取混合模型。
27、本专利技术提供的技术方案,具有如下有益效果:
28、本专利技术提供的实体提取混合模型训练方法、系统、计算机设备及存储介质,该方法包括以下步骤:获取第一样本数据,并对第一样本数据进行预处理,获得预处理后的第二样本数据:对第二样本数据进行数据标注,并将其构建为数据集,并将所述数据集分为训练集和测试集;构建基于注意力机制和条件随机场的初始实体提取混合模型,并利用训练集和测试集对实体提取混合模型进行训练和测试,以获得最终实体提取混合模型。本专利技术训练方法获得的最终实体提取混合模型可以更加高效和充分地利用文本的局部特征信息和全局语义信息,从而提高实体识别和提取的性能。
29、本专利技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
本文档来自技高网...【技术保护点】
1.一种实体提取混合模型训练方法,其特征在于,该方法包括:
2.如权利要求1所述的实体提取混合模型训练方法,其特征在于,所述获取第一样本数据,包括:
3.如权利要求2所述的实体提取混合模型训练方法,其特征在于,所述预处理包括文本清洗、停用词移除、数据去重和标准化处理。
4.如权利要求1所述的实体提取混合模型训练方法,其特征在于,所述对第二样本数据进行数据标注,并将其构建为数据集,并将所述数据集分为训练集和测试集,包括:
5.如权利要求1所述的实体提取混合模型训练方法,其特征在于,所述构建基于注意力机制和条件随机场的初始实体提取混合模型,并利用训练集和测试集对实体提取混合模型进行训练和测试,以获得最终实体提取混合模型,包括:
6.如权利要求5所述的实体提取混合模型训练方法,其特征在于,在所述使用训练集对构建的初始实体提取混合模型进行训练,同时使用Adam优化器更新模型参数,使用交叉熵损失函数优化模型性能,以获得中间实体提取混合模型,之后还包括,对中间实体提取混合模型评估,评估合格以获得最终实体提取混合模型。
7
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现如权利要求1-6任一项所述的实体提取混合模型训练方法的步骤。
9.一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现如权利要求1-6任一项所述的实体提取混合模型训练方法的步骤。
10.一种基于注意力机制和条件随机场的企业知识库搭建及智能检索装置,其特征在于,包括知识标记模块和知识检索模块;其中知识检索模块包括最终实体提取混合模型。
...【技术特征摘要】
1.一种实体提取混合模型训练方法,其特征在于,该方法包括:
2.如权利要求1所述的实体提取混合模型训练方法,其特征在于,所述获取第一样本数据,包括:
3.如权利要求2所述的实体提取混合模型训练方法,其特征在于,所述预处理包括文本清洗、停用词移除、数据去重和标准化处理。
4.如权利要求1所述的实体提取混合模型训练方法,其特征在于,所述对第二样本数据进行数据标注,并将其构建为数据集,并将所述数据集分为训练集和测试集,包括:
5.如权利要求1所述的实体提取混合模型训练方法,其特征在于,所述构建基于注意力机制和条件随机场的初始实体提取混合模型,并利用训练集和测试集对实体提取混合模型进行训练和测试,以获得最终实体提取混合模型,包括:
6.如权利要求5所述的实体提取混合模型训练方法,其特征在于,在所述使用训练集对构建的初始实体提取混合模型进行...
【专利技术属性】
技术研发人员:王相成,张线哲,张迪,李腾,宋俊,
申请(专利权)人:浪潮通用软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。