System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种电子设备和映射模型训练方法技术_技高网

一种电子设备和映射模型训练方法技术

技术编号:40817964 阅读:2 留言:0更新日期:2024-03-28 19:37
本公开涉及一种电子设备和映射模型训练方法,涉及内容提取领域,控制器,被配置为:获取序列标注数据集和互联网标注数据集,基于命名实体识别模型,对所述序列标注数据集和所述互联网标注数据集进行标注,以得到标注后的第一标注数据集,所述第一标注数据集中标注有BIO分类;获取第二标注数据集,第二标注数据集为在所述第一标注数据集的基础上标注有内容标签的数据集;将第一标注数据集作为输入数据,将第二标注数据集作为真值数据对初始映射模型进行训练,以得到目标映射模型。本公开实施例在内容标签提取的过程中,通过使用目标映射模型的方式来进行内容标签的提取,丰富了内容标签提取方式的同时提高了内容标签的提取效率。

【技术实现步骤摘要】

本公开涉及开放领域,尤其涉及一种电子设备和映射模型训练方法


技术介绍

1、在一些场景中,针对文本中存在大量内容的情况下,在把复杂的概念长篇累诉的写清楚的同时,还需要提炼核心,高度概括出一些标题、关键词或者摘要内容。但是目前内容提取方法大多使用统计类方法,非常依赖文本分词结果,内容标签提取的方式比较单一,内容标签的提取效率不高。


技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种电子设备和映射模型训练方法,通过基于命名实体识别模型标注后的第一标注数据集,以及在所述第一标注数据集的基础上标注有内容标签的第二标注数据集,对初始映射模型进行训练得到目标映射模型,使得这样的目标映射模型可以直接实现内容标签的标注,后续在使用该目标映射模型进行内容标签提取时,可以丰富内容标签提取的方式,提高内容标签的提取效率。

2、为了实现上述目的,本公开实施例提供的技术方案如下:

3、第一方面,本公开实施例提供一种电子设备,包括:

4、控制器,被配置为:获取序列标注数据集和互联网标注数据集;

5、基于命名实体识别模型,对所述序列标注数据集和所述互联网标注数据集进行标注,以得到标注后的第一标注数据集,所述第一标注数据集中标注有bio分类;

6、获取第二标注数据集,所述第二标注数据集为在所述第一标注数据集的基础上标注有内容标签的数据集;

7、将所述第一标注数据集作为输入数据,将所述第二标注数据集作为真值数据对初始映射模型进行训练,以得到目标映射模型。

8、第二方面,本公开提供了一种映射模型训练方法,该方法包括:

9、获取序列标注数据集和互联网标注数据集;

10、基于命名实体识别模型,对所述序列标注数据集和所述互联网标注数据集进行标注,以得到标注后的第一标注数据集,所述第一标注数据集中标注有bio分类;

11、获取第二标注数据集,所述第二标注数据集为在所述第一标注数据集的基础上标注有内容标签的数据集;

12、将所述第一标注数据集作为输入数据,将所述第二标注数据集作为真值数据对初始映射模型进行训练,以得到目标映射模型。

13、第三方面,一种计算机可读存储介质,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第二方面所示的映射模型训练方法。

14、第四方面,本公开提供了一种计算机程序产品,该计算机程序产品包括计算机程序,当该计算机程序在计算机上运行时,使得计算机实现如第二方面所示的映射模型训练方法。

15、本公开实施例提供的电子设备和映射模型训练方法,在内容标签提取过程中,在内容标签提取过程中,在获取序列标注数据集和互联网标注数据集后,基于命名实体识别模型对序列标注数据集和互联网标注数据集进行标注,得到标注后的第一标注数据集和在第一标注数据集的基础上标注有内容标签的第二标注数据集,将第一标注数据集作为输入数据,第二标注数据集作为真值数据对初始映射模型进行训练,最终获取目标映射模型。从而在针对标签提取的场景中,由于内容标签的提取方式多为统计类的,对文本依赖较大,并且提取的效率也不是很理想,这种情况下,通过使用目标映射模型的方式来进行内容标签的提取,丰富了内容标签提取方式的同时提高了内容标签的提取效率。

本文档来自技高网...

【技术保护点】

1.一种电子设备,其特征在于,包括:

2.根据权利要求1所述的电子设备,其特征在于,所述控制器,还被配置为:

3.根据权利要求2所述的电子设备,其特征在于,所述控制器,还被配置为:

4.根据权利要求2所述的电子设备,其特征在于,所述控制器,具体被配置为:所述基于各个字符对应的BIO分类概率确定分类难度最大的n个目标样本,包括:

5.根据权利要求2所述的电子设备,其特征在于,

6.根据权利要求5所述的电子设备,其特征在于,所述目标分类概率包括B分类概率和/或I分类概率,所述控制器,具体被配置为:

7.根据权利要求5所述的电子设备,其特征在于,所述目标分类概率包括O分类概率,所述控制器,具体被配置为:

8.根据权利要求1所述的电子设备,其特征在于,所述第二标注数据集具体为在目标数据的基础上人工标注有内容标签的数据集,所述目标数据为所述第一标注数据集中的部分数据。

9.一种映射模型训练方法,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求8所述的映射模型训练方法。

...

【技术特征摘要】

1.一种电子设备,其特征在于,包括:

2.根据权利要求1所述的电子设备,其特征在于,所述控制器,还被配置为:

3.根据权利要求2所述的电子设备,其特征在于,所述控制器,还被配置为:

4.根据权利要求2所述的电子设备,其特征在于,所述控制器,具体被配置为:所述基于各个字符对应的bio分类概率确定分类难度最大的n个目标样本,包括:

5.根据权利要求2所述的电子设备,其特征在于,

6.根据权利要求5所述的电子设备,其特征在于,所述目标分类概率包括b分类概率和/或i分类概率,所述控制...

【专利技术属性】
技术研发人员:车进
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1