System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 知识提取模型的训练方法、提取方法、装置、设备及介质制造方法及图纸_技高网

知识提取模型的训练方法、提取方法、装置、设备及介质制造方法及图纸

技术编号:40322275 阅读:5 留言:0更新日期:2024-02-09 14:17
本发明专利技术提供一种知识提取模型的训练方法、提取方法、装置、设备及介质,所述训练方法包括:基于CRM知识库中的非结构化数据构建CRM知识图谱;将CRM知识图谱作为额外输入特征,添加到预训练的CRM知识提取模型的输入端;利用GSG对CRM知识提取模型进行训练,以适应CRM知识图谱中的关系,得到训练后的CRM知识提取模型。本发明专利技术利用CRM知识库中的非结构化数据,来构建CRM知识图谱,提高了知识的覆盖范围和准确性,并将知识图谱的信息作为额外的输入特征添加到CRM知识提取模型的输入端,拓展了训练集,提高了模型训练的精准度,以及利用GSG对所述CRM知识提取模型进行训练,提升了知识提取的准确率和效率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种知识提取模型的训练方法、知识提取方法、装置、电子设备及计算机可读存储介质。


技术介绍

1、随着互联网和大数据的发展,知识提取是自然语言处理领域中的重要任务,旨在从文本中自动抽取出结构化的知识。

2、而随着日益复杂和多样化的业务需求,相关技术中,知识提取依赖于规则匹配和统计建模方法,其存在准确率低、效率低下等问题。

3、因此,如何提高知识提取的准确率和效率,是目前有待解决的技术问题。


技术实现思路

1、本专利技术提供一种知识提取模型的训练方法、知识提取方法、装置、电子设备及计算机可读存储介质,以至少解决相关技术中由于知识提取需要依赖于规则匹配和统计建模方法,导致知识提取准确率低、效率低下的技术问题。本专利技术的技术方案如下:

2、根据本专利技术实施例的第一方面,提供一种知识提取模型的训练方法,包括:

3、基于客户关系管理crm知识库中的非结构化数据构建crm知识图谱;

4、将所述crm知识图谱作为额外输入特征,添加到预训练的crm知识提取模型的输入端;

5、利用序列到序列模型gsg对所述crm知识提取模型进行训练,以适应所述crm知识图谱中的关系,得到训练后的crm知识提取模型。

6、可选的,所述基于客户关系管理crm知识库中的非结构化数据构建crm知识图谱,包括:

7、利用实体识别从客户关系管理crm知识库的非结构化数据中提取语义关系;

>8、根据所述语义关系构建crm知识图谱。

9、可选的,所述利用实体识别从客户关系管理crm知识库的非结构化数据中提取语义关系,包括:

10、将客户关系管理crm知识库中的非结构化的文本数据转化为结构化的文本数据;

11、利用利用实体识别的语义网建模工具抽取所述结构化的文本数据中的实体,以及实体之间关系,其中,所述语义网建模工具包括实体抽取和关系抽取。

12、可选的,所述根据所述语义关系构建crm知识图谱,包括:

13、对抽取的所述实体和实体之间的关系进行标注;

14、基于标注的所述实体和实体之间的关系,构建crm知识图谱。

15、可选的,所述将所述crm知识图谱作为额外的输入特征,添加到预训练的crm知识提取模型的输入端,包括;

16、获取预训练的crm知识提取模型;

17、将所述crm知识图谱中实体,以及实体之间的关系分别转化为嵌入向量;

18、将所述嵌入向量作为额外的输入特征,添加到预训练的crm知识提取模型的输入端。

19、可选的,所述利用序列到序列模型gsg对所述crm知识提取模型进行训练,以适应所述crm知识图谱中的关系,得到训练后的crm知识提取模型,包括:

20、基于分类器对样本有效邻域分类的动态加权多分类的迭代adaboost算法结合序列到序列模型gsg,通过对最小化损失函数的调整,对所述crm知识提取模型的参数进行训练,得到训练后的crm知识提取模型。

21、可选的,所述基于分类器对样本有效邻域分类的动态加权多分类的迭代adaboost算法,包括:

22、利用迭代adaboost算法生成多个分类器;

23、将待检测样本输入到对应的所述分类器,并统计所述分类器的分类数目;

24、在所述分类器的分类数目大于设定阈值时,直接输出待测样本的分类结果;或者

25、在所述分类器的分类数目不大于设定阈值时,确定所述待测样本的有效邻域,对所述有效邻域中待测样本在所述分类器下的分类情况进行统计,确定所述分类器的分类错误率,基于所述分类错误率不断调整所述分类器的加权系数,将最终所有分类器的加权系数相加,将相加结果作为不大于设定阈值的待测样本的分类结果。

26、可选的,所述方法还包括:预先确定所述预训练crm知识提取模型,包括:

27、设定目标损失函数,所述目标损失函数用来预测摘要与真实摘要之间的差距;

28、对获取的crm知识库原始数据进行预处理,所述预处理包括对所述crm知识库中的数据进行清洗、特征选择和特征工程;

29、按照业务需求选取与预处理结果对应的crm知识提取模型;

30、确定所述crm知识提取模型的参数和超参数,并利用训练集进行训练;

31、在训练过程中,利用所述目标损失函数计算选取的所述crm知识提取模型的损失值;

32、基于所述损失值对所述参数和超参数进行调整,得到预训练的crm知识提取模型。

33、根据本专利技术实施例的第二方面,提供一种知识提取方法,所述方法包括:

34、获取待提取客户关系管理crm知识的非结构化数据;

35、将所述待提取crm知识的非结构化数据转化为待提取的crm知识的结构化数据;

36、利用序列到序列模型gsg模型对所述待提取电信crm知识的结构化数据进行知识表示学习,得到每个数据点的先验知识;

37、利用基于分类器对样本有效邻域分类的动态加权多分类迭代adaboost算法,通过训练后的知识提取模型对所述待提取crm知识的数据进行自监督学习,得到每个数据点的后验知识;

38、对所述先验知识和所述后验知识进行融合,得到所述待提取crm知识的数据的知识表示。

39、根据本专利技术实施例的第三方面,提供一种知识提取模型的训练装置,包括:

40、构建模块,用于基于客户关系管理crm知识库中的非结构化数据构建crm知识图谱;

41、添加模块,用于将所述crm知识图谱作为额外输入特征,添加到预训练的crm知识提取模型的输入端;

42、训练模块,用于利用序列到序列模型gsg对所述crm知识提取模型进行训练,以适应所述crm知识图谱中的关系,得到训练后的crm知识提取模型。

43、可选的,所述构建模块包括:

44、提取模块,用于利用实体识别从客户关系管理crm知识库的非结构化数据中提取语义关系;

45、图谱构建模块,用于根据所述语义关系构建crm知识图谱。

46、可选的,所述提取模块包括:

47、特征转化模块,用于将客户关系管理crm知识库中的非结构化的文本数据转化为结构化的文本数据;

48、抽取模块,用于利用实体识别的利用语义网建模工具抽取所述结构化的文本数据中的实体,以及实体之间关系,其中,所述语义网建模工具包括实体抽取和关系抽取。

49、可选的,所述图谱构建模块包括:

50、标注模块,用于对抽取的所述实体和实体之间的关系进行标注;

51、知识图谱构建模块,用于基于标注的所述实体和实体之间的关系,构建crm知识图谱。

52、可选的,所述添加模块包括;

53、模型获取模块,用于获取预训练的crm知识本文档来自技高网...

【技术保护点】

1.一种知识提取模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的知识提取模型的训练方法,其特征在于,所述基于客户关系管理CRM知识库中的非结构化数据构建CRM知识图谱,包括:

3.根据权利要求2所述的知识提取模型的优化方法,其特征在于,所述利用实体识别从客户关系管理CRM知识库的非结构化数据中提取语义关系,包括:

4.根据权利要求3所述的知识提取模型的优化方法,其特征在于,所述根据所述语义关系构建CRM知识图谱,包括:

5.根据权利要求1所述的知识提取模型的训练方法,其特征在于,所述将所述CRM知识图谱作为额外的输入特征,添加到预训练的CRM知识提取模型的输入端,包括;

6.根据权利要求1所述的知识提取模型的训练方法,其特征在于,所述利用序列到序列模型GSG对所述CRM知识提取模型进行训练,以适应所述CRM知识图谱中的关系,得到训练后的CRM知识提取模型,包括:

7.根据权利要求6所述的知识提取模型的训练方法,其特征在于,所述基于分类器对样本有效邻域分类的动态加权多分类的迭代AdaBoost算法,包括:

8.根据权利要求1至7任一项所述的知识提取模型的训练方法,其特征在于,所述方法还包括:预先确定所述预训练的CRM知识提取模型,包括:

9.一种知识提取方法,其特征在于,所述方法包括:

10.一种知识提取模型的训练装置,其特征在于,包括:

11.一种知识提取装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的知识提取模型的训练方法或如权利要求9所述知识提取方法。

...

【技术特征摘要】

1.一种知识提取模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的知识提取模型的训练方法,其特征在于,所述基于客户关系管理crm知识库中的非结构化数据构建crm知识图谱,包括:

3.根据权利要求2所述的知识提取模型的优化方法,其特征在于,所述利用实体识别从客户关系管理crm知识库的非结构化数据中提取语义关系,包括:

4.根据权利要求3所述的知识提取模型的优化方法,其特征在于,所述根据所述语义关系构建crm知识图谱,包括:

5.根据权利要求1所述的知识提取模型的训练方法,其特征在于,所述将所述crm知识图谱作为额外的输入特征,添加到预训练的crm知识提取模型的输入端,包括;

6.根据权利要求1所述的知识提取模型的训练方法,其特征在于,所述利用序列到序列模型gsg对所述crm知识提取模型进行训练,以适应所述crm知识图谱中的关系...

【专利技术属性】
技术研发人员:汤志稳
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1